期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于启发式强化学习的AGV路径规划 被引量:8
1
作者 唐恒亮 唐滋芳 +2 位作者 董晨刚 尹棋正 海秋茹 《北京工业大学学报》 CAS CSCD 北大核心 2021年第8期895-903,共9页
针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智... 针对传统算法、智能算法与强化学习算法在自动引导小车(automated guided vehicle,AGV)路径规划中收敛速度慢、学习效率低的问题,提出一种启发式强化学习算法,并针对传统Q(λ)算法,设计启发式奖励函数和启发式动作选择策略,以此强化智能体对优质行为的探索,提高算法学习效率.通过仿真对比实验,验证了基于改进Q(λ)启发式强化学习算法在探索次数、规划时间、路径长度与路径转角上都具有一定的优势. 展开更多
关键词 自动引导小车(automated guided vehicle AGV) 强化学习 q(λ)算法 启发式奖励函数 启发式动作选择策略 路径规划
下载PDF
一种多步Q强化学习方法 被引量:3
2
作者 陈圣磊 吴慧中 +1 位作者 韩祥兰 肖亮 《计算机科学》 CSCD 北大核心 2006年第3期147-150,共4页
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k... Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。 展开更多
关键词 强化学习 Mq算法 q学习 q(λ)算法
下载PDF
一种二阶TD Error快速Q(λ)算法 被引量:5
3
作者 傅启明 刘全 +3 位作者 孙洪坤 高龙 李瑾 王辉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 展开更多
关键词 强化学习 马尔科夫决策过程 二阶TD ERROR 资格迹 q(λ)算法
下载PDF
基于群智能强化学习的电网最优碳-能复合流算法 被引量:4
4
作者 郭乐欣 张孝顺 +1 位作者 谭敏 余涛 《电测与仪表》 北大核心 2017年第1期1-7,共7页
结合电网能流和碳排放流的传输特性,建立了电网最优碳-能复合流的数学模型,并提出了基于群智能的多步回溯Q(λ)强化学习算法,有效解决了电网碳-能复合流的动态优化问题。其中以线性加权的方式把电网网损、碳流损耗和电压稳定设计为奖励... 结合电网能流和碳排放流的传输特性,建立了电网最优碳-能复合流的数学模型,并提出了基于群智能的多步回溯Q(λ)强化学习算法,有效解决了电网碳-能复合流的动态优化问题。其中以线性加权的方式把电网网损、碳流损耗和电压稳定设计为奖励函数,通过引入粒子群的多主体计算,每个主体都有各自的Q值矩阵进行寻优迭代。IEEE118节点仿真结果表明:较传统Q(λ)算法本文所提出算法能在保证较好全局寻优能力的同时,收敛速度至少能提高10倍以上,为解决实际大规模复杂电网的碳-能复合流在线滚动优化提供了一种快速、有效的方法。 展开更多
关键词 q(λ)算法 群智能 最优碳-能复合流 强化学习
下载PDF
基于强化学习理论的输电网扩展规划方法 被引量:12
5
作者 王渝红 胡胜杰 +2 位作者 宋雨妍 江栗 沈力 《电网技术》 EI CSCD 北大核心 2021年第7期2829-2838,共10页
该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回... 该文将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法,以带自适应学习因子的多步回溯α-Q(λ)算法进行求解。基于数据库与蒙特卡洛法,并计及输电可靠性成本建立了扩展规划模型,设计自适应学习因子的多步回溯Q(λ)算法,利用强化学习智能体以最大累积奖励为目标,结合输电网扩展规划特性,将混合整数规划模型转换为算法的智能体与环境,用以模拟规划人员对电网的规划过程。在Garver-6与IEEE 24-RTS系统中验证该文所提方法的有效性,并与其他智能算法进行比较。 展开更多
关键词 输电网扩展规划 强化学习 多步回溯q(λ)算法 自适应学习因子
下载PDF
基于图像识别的爬壁机器人的路径规划 被引量:1
6
作者 何宏 李宇 张志宏 《工业技术创新》 2015年第3期267-271,共5页
目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪... 目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。本文结合单步Q-learning算法,并对该算法进行改进,提出了跟踪迹Q(λ)算法:即一种基于离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。 展开更多
关键词 爬壁机器人 路径规划 跟踪迹q(λ)算法
原文传递
基于MDP自适应决策的库存控制
7
作者 刘虹 《河北建筑科技学院学报》 2006年第3期109-112,共4页
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解... MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法—在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了。 展开更多
关键词 MDP自适应决策 在线q(λ)算法 库存控制 连续状态和决策空间 神经网络
下载PDF
基于自加强学习算法的发电商报价策略研究 被引量:17
8
作者 马豫超 蒋传文 +2 位作者 候志俭 Ettore Bompard 王承民 《中国电机工程学报》 EI CSCD 北大核心 2006年第17期12-17,共6页
电力市场中发电商的决策过程和多发电商的相互作用过程是个复杂动态问题,很难用传统的解析方法进行分析计算,这在考虑中长时间段交易时尤为突出,且多代理作用机制是个很好的补充。文中提出了一个能够模拟发电商在市场中进行策略性报价... 电力市场中发电商的决策过程和多发电商的相互作用过程是个复杂动态问题,很难用传统的解析方法进行分析计算,这在考虑中长时间段交易时尤为突出,且多代理作用机制是个很好的补充。文中提出了一个能够模拟发电商在市场中进行策略性报价的中长期交易时间段决策过程模型,对多发电商交互作用导致的市场行为进行了仿真试验。该模型基于自加强Watkins’sQ(λ)学习算法并包含了可能对电力市场运行产生重要影响的网络阻塞因素。该模型可以形成发电商的最优策略以最大化中长期生产效益和可以找到中长期市场平衡点并据此评估市场中长期运行情况。通过在标准IEEE-14节点系统中进行仿真计算表明该模型的有效性和新颖性。 展开更多
关键词 电力市场 最优报价策略 多代理 自加强Watkins's q(λ)学习算法
下载PDF
基于多步回溯Q(λ)学习算法的多目标最优潮流计算 被引量:6
9
作者 余涛 胡细兵 刘靖 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成... 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 展开更多
关键词 电力系统 最优潮流 q(λ)学习算法 多目标优化 强化学习
下载PDF
强化学习下能耗优化的虚拟机放置策略 被引量:5
10
作者 卢海峰 顾春华 +3 位作者 罗飞 丁炜超 袁野 任强 《计算机科学》 CSCD 北大核心 2019年第9期291-297,共7页
云数据中心的高速发展带来了非常强大的计算能力,但是伴随产生的能耗问题也日益严重。为了降低云数据中心内物理服务器的能耗开销,首先利用强化学习对虚拟机放置问题进行建模,随后结合实际问题从状态聚合和时间信度两个方面对Q-Learning... 云数据中心的高速发展带来了非常强大的计算能力,但是伴随产生的能耗问题也日益严重。为了降低云数据中心内物理服务器的能耗开销,首先利用强化学习对虚拟机放置问题进行建模,随后结合实际问题从状态聚合和时间信度两个方面对Q-Learning(λ)算法进行优化,最后通过云仿真平台CloudSim和实际数据集对虚拟机放置问题进行实验。实验结果表明,与Q-Learning算法、Greedy算法和PSO算法相比,优化后的Q-Learning(λ)算法更有效地降低了物理服务器的能耗开销,同时针对不同数量的虚拟机放置请求也能够保证更好的结果,具有较强的实用价值。 展开更多
关键词 云计算 虚拟机放置 强化学习 能耗优化 q-Learning(λ)算法
下载PDF
基于Q(λ)-learning的移动机器人路径规划改进探索方法 被引量:4
11
作者 王健 赵亚川 +1 位作者 赵忠英 张平陆 《自动化与仪表》 2019年第11期39-41,67,共4页
强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法... 强化学习算法广泛的应用于路径规划,使移动机器人能够与环境交互并实现自主避障、获取最优路径。传统Q(λ)-learning算法所采用的探索策略存在探索利用平衡问题,由于收敛过早,往往得不到最优解。本文提出一种动态调整探索因子的探索方法,以探索成功率判断机器人对环境的熟悉程度,指导探索过程,从而找到最优路径;采用栅格法建立地图。通过仿真和对比试验证明了该方法可以得到全局最优策略。 展开更多
关键词 路径规划 强化学习 q(λ)学习算法 移动机器人 搜索策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部