期刊文献+
共找到848篇文章
< 1 2 43 >
每页显示 20 50 100
数据驱动的工业过程运行优化控制 被引量:13
1
作者 李金娜 高溪泽 +1 位作者 柴天佑 范家璐 《控制理论与应用》 EI CAS CSCD 北大核心 2016年第12期1584-1592,共9页
现代工业过程机理复杂使得很难对生产过程以及运行指标与被控变量之间关系精确建模.如何基于工业运行过程数据信息,不依赖模型参数给出设定值设计方案,优化运行指标是一挑战性难题.本文针对在稳态附近可以线性化的一类工业过程,考虑运... 现代工业过程机理复杂使得很难对生产过程以及运行指标与被控变量之间关系精确建模.如何基于工业运行过程数据信息,不依赖模型参数给出设定值设计方案,优化运行指标是一挑战性难题.本文针对在稳态附近可以线性化的一类工业过程,考虑运行控制环和底层控制环不同时间尺度,提出一种基于Q--学习方法的次优设定值学习算法.此算法完全利用数据,学习得到次优设定值,实现运行指标以次优的方式跟踪理想值.浮选过程仿真结果表明本文所提方法的有效性. 展开更多
关键词 运行优化控制 设定值 近似动态规划 q--学习
下载PDF
基于Q-强化学习的多Agent协商策略及算法 被引量:7
2
作者 隋新 蔡国永 史磊 《计算机工程》 CAS CSCD 北大核心 2010年第17期198-200,共3页
针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Ag... 针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。 展开更多
关键词 q-强化学习 多AGENT 协商策略
下载PDF
基于RBF神经网络和强化学习算法的供应链产销协同计划冲突消解研究 被引量:5
3
作者 武玉英 李豪 蒋国瑞 《计算机应用研究》 CSCD 北大核心 2015年第5期1335-1338,1344,共5页
为提高传统协商自学习能力,利用多agent智能技术,建立基于黑板模型的协商框架,构建五元组协商模型,采取Q-强化学习算法,给出一种协商策略;使用RBF神经网络进一步优化协商策略,预测对手信息并调整让步幅度。通过算例验证该方法的可行性... 为提高传统协商自学习能力,利用多agent智能技术,建立基于黑板模型的协商框架,构建五元组协商模型,采取Q-强化学习算法,给出一种协商策略;使用RBF神经网络进一步优化协商策略,预测对手信息并调整让步幅度。通过算例验证该方法的可行性和有效性,通过与未改进的Q-强化学习算法对比,该方法可增强协商agent的自学习能力,缩短协商时间,提高冲突消解效率。 展开更多
关键词 多AGENT 学习 RBF神经网络 q-强化学习 冲突消解
下载PDF
基于Q-Learning反馈机制的无线传感网络通信节点自愈算法 被引量:3
4
作者 杨惠 《传感技术学报》 CAS CSCD 北大核心 2022年第7期974-979,共6页
针对目前无线网络通信节点自愈能力差,以及自愈后网络流量出口带宽低的问题,提出基于Q-learning反馈机制的无线传感网络通信节点自愈算法。通过计算网路节点的RSSI值建立节点衰减模型,通过质心算法完成节点定位;应用Q-learning学习算法... 针对目前无线网络通信节点自愈能力差,以及自愈后网络流量出口带宽低的问题,提出基于Q-learning反馈机制的无线传感网络通信节点自愈算法。通过计算网路节点的RSSI值建立节点衰减模型,通过质心算法完成节点定位;应用Q-learning学习算法获取链路选取策略,完成节点传输过程路径时延、吞吐量以及丢包率的计算,建立网络节点模型提取链路反馈机制,利用Q-learning学习算法进行迭代计算,实现无线传感网络的通信节点自愈。仿真分析表明,运用该算法自愈网络通信节点时,当检测次数为100时,检测出的节点自愈数量为280个,节点拓扑移动距离平均值为175 m,网络流量出口带宽平均值为550 Mbyte/s,证明该算法的节点自愈能力高。 展开更多
关键词 无线传感网络 通信节点自愈 q-learning学习算法 节点定位
下载PDF
基于Q-Learning算法的无人机空战机动决策研究
5
作者 姚培源 魏潇龙 +1 位作者 俞利新 李胜厚 《电光与控制》 CSCD 北大核心 2023年第5期16-22,共7页
针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有... 针对无人机空战对抗自主机动决策问题,设计了侧向机动决策算法。通过加入启发式因子的方式和双Q表交替学习的机制,弥补了传统Q-Learning算法学习速度慢、无效学习多的不足。通过路径规划仿真和数据的对比,验证了改进Q-Learning算法具有更好的稳定性和求解能力。设计了动态的栅格规划环境,能够使无人机根据变化的空战态势自适应调整栅格尺寸大小,且对求解的速率不产生影响。基于Q-Learning算法,构建了无人机空战对抗侧向机动决策模型,并通过武器平台调换的方式验证了改进Q-Learning算法能显著提升无人机空战胜负比。 展开更多
关键词 无人机 空战 机动决策 动态栅格环境 路径规划 q-Learning学习表算法
下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究
6
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
下载PDF
基于Q-强化学习的干道交叉口信号配时模型 被引量:2
7
作者 徐建闽 席嘉鹏 《广西大学学报(自然科学版)》 CAS 北大核心 2021年第4期1036-1044,共9页
交叉口是城市交通的核心和枢纽,要想有效地提升城市交通体系的通行效率,对交叉口信号配时的优化显得尤为必要。由于城市路网中大范围的信号配时方法决策属于模糊决策问题,而且路网中的车辆具有实时性,强化学习的方法可以适用于交通信号... 交叉口是城市交通的核心和枢纽,要想有效地提升城市交通体系的通行效率,对交叉口信号配时的优化显得尤为必要。由于城市路网中大范围的信号配时方法决策属于模糊决策问题,而且路网中的车辆具有实时性,强化学习的方法可以适用于交通信号配时领域。本文把主流的Q-强化学习方法应用于干道交叉口信号配时,在每个路口以状态空间、信号周期、每个相位绿灯时间为参数建立模型,设置奖惩函数,并以车辆延误为指标,即Q函数,在相邻路口Agent的信息交换之后得出每个路口该时段的最优动作,降低了由于交叉口数量增多造成的各交叉口Agent间信息交互的次数,避免了独立强化学习可能出现的维数灾难、无法长期学习等问题。实验结果表明:基于Q-强化学习的城市干道交叉口信号配时方法相比于固定配时和传统的Q-强化学习策略,能降低车辆延误,提升收敛速度,提高系统效率。 展开更多
关键词 交叉口信号配时 模糊决策问题 q-强化学习 干道 长期学习
下载PDF
基于强化学习的多目标点航关联方法
8
作者 丁国胜 蔡民杰 《指挥控制与仿真》 2022年第2期43-48,共6页
针对密集杂波环境下的多目标点迹-航迹关联问题,以强化学习(Reinforcement Learning,RL)方法为基础,提出了一种基于Q学习的多目标点迹-航迹关联方法。首先,根据整个过程中目标的运动状态,建立马尔可夫决策过程(Markov Decision Process,... 针对密集杂波环境下的多目标点迹-航迹关联问题,以强化学习(Reinforcement Learning,RL)方法为基础,提出了一种基于Q学习的多目标点迹-航迹关联方法。首先,根据整个过程中目标的运动状态,建立马尔可夫决策过程(Markov Decision Process,MDP)模型。其次,利用各状态间的相关程度构成策略函数,选择准确的动作,并设定相应的奖励函数。最后,考虑杂波密集时虚假量测难以分辨,结合目标先验信息,增加了Q表再学习环节,进一步优化关联精度。仿真结果表明,在非机动和强机动两种环境下,该方法都能准确地关联到目标的量测,具有较好的点迹-航迹关联性能。 展开更多
关键词 多目标点迹-航迹关联 强化学习 MDP模型 策略函数 q表再学习
下载PDF
基于Q-强化学习和Adaboost算法的自适应谈判方法 被引量:1
9
作者 庞婷 郭绍永 +1 位作者 何喜军 蒋国瑞 《江苏科技大学学报(自然科学版)》 CAS 2018年第4期564-568,共5页
为有效提高谈判效率,增强谈判主体的自学习能力,文中提出一种自适应谈判方法.该方法设定一种让步谈判策略,采用Q-强化学习算法计算谈判主体的让步幅度,然后考虑对手行为,使用Adaboost算法预测对手提议而调整让步幅度.算例仿真结果表明,... 为有效提高谈判效率,增强谈判主体的自学习能力,文中提出一种自适应谈判方法.该方法设定一种让步谈判策略,采用Q-强化学习算法计算谈判主体的让步幅度,然后考虑对手行为,使用Adaboost算法预测对手提议而调整让步幅度.算例仿真结果表明,使用该方法减少了谈判次数,缩短了谈判时间,不易陷入局部最优,增强了自学习能力,提升了主体满意度,优化了谈判效果. 展开更多
关键词 让步谈判 q-强化学习 ADABOOST算法 自适应方法
下载PDF
基于网上采购平台的资源动态实时调度研究
10
作者 滕建洁 商明曦 《中国物流与采购》 2022年第1期116-117,共2页
针对随机环境下动态决策的调度问题,本文对基于网上采购平台环境下的制造资源动态调度问题利用马尔可夫决策过程进行建模,考虑在实际制造过程中的确定性因素和随机因素对原调度方案的影响,设计调动策略,综合考虑不同环境下的动态调度过... 针对随机环境下动态决策的调度问题,本文对基于网上采购平台环境下的制造资源动态调度问题利用马尔可夫决策过程进行建模,考虑在实际制造过程中的确定性因素和随机因素对原调度方案的影响,设计调动策略,综合考虑不同环境下的动态调度过程。实现理论上可靠、实际中有效的动态调度方案。 展开更多
关键词 动态资源调度 马尔可夫决策过程 q-learning学习算法
原文传递
基于Q学习算法和BP神经网络的倒立摆控制 被引量:55
11
作者 蒋国飞 吴沧浦 《自动化学报》 EI CSCD 北大核心 1998年第5期662-666,共5页
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的... Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]的AHC(AdaptiveHeuristicCritic)等方法相比,具有更好的学习效果. 展开更多
关键词 q学习 BP网络 学习控制 倒立摆系统
下载PDF
一种基于Agent的单路口交通信号学习控制方法 被引量:62
12
作者 马寿峰 李英 刘豹 《系统工程学报》 CSCD 2002年第6期526-530,共5页
Agent技术是从分布式人工智能领域中兴起的研究热点 .论文将Agent与经验知识和加强学习方法中Q -学习算法相结合 ,应用到城市交通信号控制领域中 ,解决单个路口的动态实时问题 .通过在仿真环境下的对比 。
关键词 Agent 单路口 交通信号 学习控制方法 城市交通控制 智能体 q-学习 分布式人工智能
下载PDF
基于深度强化学习的微能源网能量管理与优化策略研究 被引量:60
13
作者 刘俊峰 陈剑龙 +2 位作者 王晓生 曾君 黄倩颖 《电网技术》 EI CSCD 北大核心 2020年第10期3794-3803,共10页
面向多种可再生能源接入的微能源网,提出一种基于深度强化学习(deep reinforcement learning,DRL)的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQ network,DQN)对预测负荷、风/光等可再生能源功率输出和分时电价等环境信息... 面向多种可再生能源接入的微能源网,提出一种基于深度强化学习(deep reinforcement learning,DRL)的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQ network,DQN)对预测负荷、风/光等可再生能源功率输出和分时电价等环境信息进行学习,通过习得的策略集对微能源网进行能量管理,是一种模型无关基于价值的智能算法。首先,基于能量总线模型,建立了微能源网研究框架及设备模型。在深入阐述强化学习的框架、Q学习算法和DQN算法的基础理论的基础上,分析了提升DQN性能的经验回放机制与冻结参数机制,并以经济性为目标完成了微能源网能量管理与优化。通过对比不同参数的DQN算法及Q学习算法在微能源网能量管理中的表现,仿真结果展示了继承策略集后算法性能的提升,验证了深度强化学习相比启发式算法在微能源网能量管理应用的可行性和优越性。 展开更多
关键词 微能源网 能量管理 深度强化学习 q学习 深度q网络
下载PDF
基于多主体博弈与强化学习的并网型综合能源微网协调调度 被引量:59
14
作者 刘洪 李吉峰 +2 位作者 葛少云 张鹏 陈星屹 《电力系统自动化》 EI CSCD 北大核心 2019年第1期40-48,共9页
针对传统集中式优化调度方法难以全面反映综合能源微网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微网协调调度模型和方法。首先,针对并... 针对传统集中式优化调度方法难以全面反映综合能源微网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微网协调调度模型和方法。首先,针对并网型综合能源微网中横向电气热冷各子系统及纵向源网荷储等各环节的不同投资与运营主体,开展了多智能体划分;其次,针对可再生能源服务商、微网系统能源服务商、电动汽车用户等智能体,分别构建了各自的决策模型,并建立了以多智能体间利益均衡为目标的联合博弈决策模型;再次,针对多主体博弈这一高维决策难题,引入人工智能求解方法,提出了基于Nash博弈和强化学习算法的综合能源微网协调调度方法;最后,通过实例验证了所提模型和方法的有效性与实用性。 展开更多
关键词 综合能源微网 协调调度 多智能体 博弈理论 q学习
下载PDF
基于BP神经网络的双层启发式强化学习方法 被引量:38
15
作者 刘智斌 曾晓勤 +1 位作者 刘惠义 储荣 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期579-587,共9页
强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传... 强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传统强化学习过程的盲目性.作为定性层,高层由BP神经网络构成,它不需要由外界提供背景知识,利用Shaping技术,将在线获取的动态知识对底层基于表格的Q学习过程进行趋势性启发.算法利用资格迹技术训练神经网络以提高学习效率.NNHQL方法既发挥了标准Q学习的灵活性,又利用了神经网络的泛化性能,为解决较大状态空间下的强化学习问题提供了一个可行的方法.实验结果表明:该方法能够较好地提高强化学习的性能且具有明显的加速效果. 展开更多
关键词 NNH-qL 强化学习 q学习 神经网络 路径规划
下载PDF
基于Q学习的互联电网动态最优CPS控制 被引量:35
16
作者 余涛 周斌 陈家荣 《中国电机工程学报》 EI CSCD 北大核心 2009年第19期13-19,共7页
控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控... 控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控制策略的在线学习和动态优化决策。将CPS值作为包含AGC的电力系统"环境"所给的"奖励",依靠Q值函数与CPS控制动作形成的闭环反馈结构进行交互式学习,学习目标为使CPS动作从环境中获得的长期积累奖励值最大。提出一种实用的半监督群体预学习方法,解决了Q学习控制器在预学习试错阶段的系统镇定和快速收敛问题。仿真研究表明,引入基于Q学习的CPS控制可显著增强整个AGC系统的鲁棒性和适应性,有效提高了CPS的考核合格率。 展开更多
关键词 自动发电控制 q学习 马尔可夫决策过程 控制性能标准 最优控制
下载PDF
基于Q-learning的虚拟网络功能调度方法 被引量:35
17
作者 王晓雷 陈云杰 +1 位作者 王琛 牛犇 《计算机工程》 CAS CSCD 北大核心 2019年第2期64-69,共6页
针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度... 针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度算法,优化虚拟网络功能的调度顺序和虚拟机选择问题,实现最短网络功能虚拟化调度时间。仿真结果表明,与传统的随机虚拟机选择策略相比,该方法能够有效降低虚拟网络功能调度时间,特别是在大规模网络中调度时间可降低约40%。 展开更多
关键词 网络功能虚拟化 服务功能链 调度模型 马尔科夫决策过程 q-学习
下载PDF
Q-学习及其在智能机器人局部路径规划中的应用研究 被引量:17
18
作者 张汝波 杨广铭 +1 位作者 顾国昌 张国印 《计算机研究与发展》 EI CSCD 北大核心 1999年第12期1430-1436,共7页
强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作.在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作? 文中把机器人在未知环境中为躲避障碍... 强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作.在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作? 文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习.Q-学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Q-学习的基本算法之后,提出了具有竞争思想和自组织机制的Q-学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用。 展开更多
关键词 局部路径规划 智能机器人 神经网络 q-学习
下载PDF
一种多移动机器人协作围捕策略 被引量:23
19
作者 苏治宝 陆际联 童亮 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第5期403-406,415,共5页
提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进... 提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进行加权求和获得综合行为,实现对移动目标的围捕.仿真实验获得了在不同条件下的围捕结果.结果表明,环境、hunter与prey的速度关系以及prey的逃跑策略对围捕效果都有影响. 展开更多
关键词 多机器人 围捕 状态聚类 q学习
下载PDF
基于Q-学习算法的认知雷达对抗过程设计 被引量:32
20
作者 李云杰 朱云鹏 高梅国 《北京理工大学学报》 EI CAS CSCD 北大核心 2015年第11期1194-1199,共6页
将认知概念引入雷达电子对抗,可使干扰系统在动态对抗过程中通过自主学习,确定最具针对性的干扰策略,实现动态高效干扰.在认知雷达对抗概念和内涵讨论基础上,设计了基于Q-学习算法的雷达对抗过程,总结了认知对抗实现中的关键技术难点,... 将认知概念引入雷达电子对抗,可使干扰系统在动态对抗过程中通过自主学习,确定最具针对性的干扰策略,实现动态高效干扰.在认知雷达对抗概念和内涵讨论基础上,设计了基于Q-学习算法的雷达对抗过程,总结了认知对抗实现中的关键技术难点,最后对过程的具体实现进行了仿真,验证了雷达认知对抗中Q值的收敛过程以及先验知识对算法性能的改善情况. 展开更多
关键词 认知 雷达对抗 q-学习
下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部