基于经验回放Q-Learning的最优控制算法被引量：6

Optimal control based on experience replay and Q-Learning

下载PDF

导出

摘要针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法。采用经验回放(experience replay,ER)对样本进行重复利用,弥补实时系统在线获取样本少的不足;通过Q-Learning算法并采用梯度下降方法对值函数参数向量进行更新;定义基于经验回放和Q-Learning的ER-Q-Learning算法,分析其计算复杂度。仿真结果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限时间内平衡更多时间步,具有最快的收敛速度。 Aiming at the problem of high computation cost in on-line optimal control strategy for real time system, an optimal control algorithm based on experience replay and Q-Learning was proposed. The experience replaying technique was adopted to reuse the samples, to solve the problem that real time system can not get enough samples. Through Q-Learning algorithm and gradient descent method, the parameter vector of value function was updated. The algorithm based on ER and Q-Learning was named ER-Q-Learning, and its computation cost was analyzed Results of simulation show compared with Q-Learning, Sarsa and BLSPI, ER-Q-Learning can balance more time steps than the three methods with higher convergence rate.

作者黄小燕 HUANG Xiao-yan(Control Engineering School, Chengdu University of Information Technology, Chengdu 610225, China)

机构地区成都信息工程大学控制工程学院

出处《计算机工程与设计》北大核心 2017年第5期1352-1355,1365,共5页 Computer Engineering and Design

基金国家自然科学基金项目(61502329)

关键词控制策略经验回放 Q学习实时系统样本 control strategy experience replaying Q-Learning real-time system samples

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1王涛,张化光.基于策略迭代的连续时间系统的随机线性二次最优控制[J].控制与决策,2015,30(9):1674-1678. 被引量：4
2韦化,龙丹丽,黎静华.求解大规模机组组合问题的策略迭代近似动态规划[J].中国电机工程学报,2014,34(25):4420-4429. 被引量：28
3万海川,贺知明,宋腾飞.基于动态规划理论的改进型价值迭代算法[J].雷达科学与技术,2015,13(5):501-507. 被引量：2
4钟珊,刘全,傅启明,章宗长,朱斐,龚声蓉.一种近似模型表示的启发式Dyna优化算法[J].计算机研究与发展,2015,52(12):2764-2775. 被引量：4
5周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9

二级参考文献57

1Warren B.POWELL.A review of stochastic algorithms with continuous value function approximation and some new approximate policy iteration algorithms for multidimensional continuous applications[J].控制理论与应用（英文版）,2011,9(3):336-352. 被引量：2
2黄玉林,张维海.约束随机线性二次最优控制的研究[J].自动化学报,2006,32(2):246-254. 被引量：7
3张利,赵建国,韩学山.考虑网络安全约束的机组组合新算法[J].电网技术,2006,30(21):50-55. 被引量：31
4Kalman R E. Contribution to the theory of optimal control[J]. Boletin de la Sociedad Matematica Mexicana, 1960, 5(2): 102-119. 被引量：1
5Zhang H G, Liu D R, Luo Y H, et al. Adaptive dynamic programming for control-algorithms and stability[M]. London: Springer-Verlag, 2013: 223-255. 被引量：1
6Werbos P J. "Approximate dynamic programming for real-time control and neural modeling" in handbook of intelligent control[M]. New York: Van Nostrand Reinhold, 1992: 493-525. 被引量：1
7Murray J J, Cox C J, Lendaris G G, et al. Adaptive dynamic programming[J]. IEEE Trans on Systems, Man and Cybernetics, 2002, 32(2): 140-153. 被引量：1
8Vrabie D, Pastravanu O, Abu-Khalaf M, et al. Adaptive optimal control for continuous-time linear systems based on policy iteration[J]. Automatica, 2009, 45(2): 477-484. 被引量：1
9Jiang Y, Jiang Z P. Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics[J]. Automatica, 2012, 48(10): 2699- 2704. 被引量：1
10Wonham W M. On a matrix riccati equation of stochastic control[J]. SIAM J on Control, 1968, 6(2): 312-326. 被引量：1

共引文献41

1涂春鸣,谢伟杰,肖凡,兰征.多虚拟同步发电机并联系统控制参数对稳定性的影响分析[J].电力系统自动化,2020(15):77-100. 被引量：34
2周丽娟.混合自适应动态规划和蚁群算法的agent路径规划[J].中北大学学报（自然科学版）,2018,39(6):733-739.
3陈森林,梁斌,李丹,苟露.水电机组定负荷的发电流量递推计算方法及应用[J].中国电机工程学报,2019,39(1):219-226. 被引量：5
4邓俊,韦化,黎静华.考虑电量可实现性和启停功率轨迹的火电机组组合混合整数线性规划模型[J].电网技术,2015,39(10):2882-2888. 被引量：11
5覃华,韦化.大规模机组组合问题的量子近似动态规划[J].中国电机工程学报,2015,35(19):4918-4929. 被引量：18
6方斯顿,程浩忠,徐国栋,曾平良,姚良忠,刘伟.随机最优潮流及其应用的研究综述[J].电力自动化设备,2016,36(11):1-10. 被引量：14
7刘翠平,林舜江,刘明波,简淦杨,陆文甜.应用近似动态规划算法求解安全约束随机动态经济调度问题[J].电力系统自动化,2016,40(22):34-42. 被引量：10
8潘建平,黄文准,王盛玺,张香成.基于集群系统高频帧测速数据处理技术[J].电光与控制,2017,24(4):71-75.
9汪超群,韦化,吴思缘.计及潮流约束的水火电力系统机组组合问题的分解–协调算法[J].中国电机工程学报,2017,37(11):3148-3161. 被引量：14
10季挺,张华.基于状态聚类的非参数化近似广义策略迭代增强学习算法[J].控制与决策,2017,32(12):2153-2161. 被引量：1

同被引文献31

1于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63
2王帅.煤矿井下基于Q-learning算法的移动机器人路径规划[J].现代电子技术,2008,31(24):106-108. 被引量：3
3胡俊,朱庆保.未知环境下基于有先验知识的滚动Q学习机器人路径规划[J].控制与决策,2010,25(9):1364-1368. 被引量：11
4陈晋音,杨东勇,邹青华.AS-R移动机器人的动态避障与路径规划研究[J].计算机科学,2012,39(3):222-226. 被引量：8
5杨献峰,付俊辉.移动机器人路径规划的仿真研究[J].计算机仿真,2012,29(7):223-226. 被引量：11
6余涛,张水平.在策略SARSA算法在互联电网CPS最优控制中的应用[J].电力系统保护与控制,2013,41(1):211-216. 被引量：15
7徐学东.基于Q-learning算法的煤矿井下移动机器人路径规划[J].煤炭技术,2013,32(2):105-106. 被引量：4
8段勇,徐心和.基于多智能体强化学习的多机器人协作策略研究[J].系统工程理论与实践,2014,34(5):1305-1310. 被引量：22
9王子强,武继刚.基于RDC-Q学习算法的移动机器人路径规划[J].计算机工程,2014,40(6):211-214. 被引量：6
10王山海,景新幸,杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究,2015,32(8):2289-2291. 被引量：56

引证文献6

1赵文仓,吴建辉.基于改进优先经验重放算法的游戏控制研究[J].甘肃科学学报,2018,30(2):15-19. 被引量：3
2卫玉梁,靳伍银.基于神经网络Q-learning算法的智能车路径规划[J].火力与指挥控制,2019,44(2):46-49. 被引量：18
3孙鹏,孙若莹,刘滨翔.基于Double-DQN的平衡类游戏改善[J].电子设计工程,2019,27(14):112-116. 被引量：1
4张宁,李彩虹,郭娜,王迪.基于CM-Q学习的自主移动机器人局部路径规划[J].山东理工大学学报（自然科学版）,2020,34(4):37-43. 被引量：3
5Xiaolei Yuan,Yiqun Pan,Jianrong Yang,Weitong Wang,Zhizhong Huang.Study on the application of reinforcement learning in the operation optimization of HVAC system[J].Building Simulation,2021,14(1):75-87. 被引量：7
6刘川莉,蔡乐才,高祥,居锦武,吴昊霖.基于期望值函数的离策略深度Q神经网络算法[J].四川理工学院学报（自然科学版）,2019,32(1):52-60. 被引量：2

二级引证文献34

1许杨子,强文,刘俊,孙鸿雁,胡成刚.基于改进深度强化学习算法的电力市场监测模型研究[J].国外电子测量技术,2020,39(1):82-87. 被引量：5
2杨洋,张建敏,刘艺林,宋馨.基于改进蚁群算法的无人仓的多AGV避碰路径优化策略[J].数学的实践与认识,2020,50(16):1-9. 被引量：8
3随博文,黄志坚,姜宝祥,郑欢,温家一.基于深度Q网络的水面无人艇路径规划算法[J].上海海事大学学报,2020,41(3):1-5. 被引量：5
4杨波,胡国兵.利用记忆单元改进DQN的Web服务组合优化方法[J].计算机应用与软件,2020,37(11):11-17. 被引量：2
5高宇,李昀,曹蓉蓉,李宁峰,高铭泽.基于多代理Double DQN算法模拟发电侧竞价行为[J].电网技术,2020,44(11):4175-4182. 被引量：17
6王晓云,杨伯军.连续障碍环境下移动机器人自主避障路径规划研究[J].巢湖学院学报,2020,22(6):98-103.
7郑永玲,白宇,杨楠,蒋顺英.基于Bi-A^(*)的ACO算法的最快路径推荐[J].现代信息科技,2020,4(22):74-80.
8任学干,葛英飞.基于改进势场蚁群算法的AGV路径规划[J].南京工程学院学报（自然科学版）,2021,19(1):36-41. 被引量：2
9李霜琳,何家皓,敖海跃,刘燕斌.基于鸽群优化算法的实时避障算法[J].北京航空航天大学学报,2021,47(2):359-365. 被引量：8
10周江卫,关亚兵,白万民,刘白林.一种二次采样的强化学习方法[J].西安工业大学学报,2021,41(3):345-351. 被引量：1

1沈晶,顾国昌,刘海波.分层强化学习中的Option自动生成算法[J].计算机工程与应用,2005,41(34):4-6. 被引量：5
2林明,朱纪洪,孙增圻.固定长度经验回放对Q学习效率的影响[J].计算机工程,2006,32(6):7-10. 被引量：1
3胡明辉,殷苌茗,李立云.基于ACCA的Option自动生成算法[J].计算机工程与应用,2008,44(19):39-40. 被引量：1
4张欣,戴帅.基于模糊聚类的分层强化学习算法[J].计算机工程与科学,2010,32(1):55-56.
5胡明华,胡寿松.平衡降阶方法及其进展[J].南京航空学院学报,1990,22(4):92-102. 被引量：6
6李玉奇,刘旺开.基于B/S结构下分布式控制系统的实时监控[J].微计算机信息,2004,20(2):53-55. 被引量：9
7战忠丽,王强,王佩霞.多Agent系统中Q学习算法研究[J].辽宁农业职业技术学院学报,2008,10(5):48-50.
82001夏高手装机XP——DIY的主角：CPU[J].电脑界（电脑高手）,2001(7):16-17.
9郑凯.真的好用吗？NVIDIA GeForce Experience实战体验[J].微型计算机,2013(19):133-137.
10王志勃,毕艳茹.基于Sarsa算法和蚁群优化的监测网络路由控制设计[J].计算机测量与控制,2014,22(10):3327-3329. 被引量：2

计算机工程与设计

2017年第5期

浏览历史

内容加载中请稍等...

基于经验回放Q-Learning的最优控制算法被引量：6

参考文献5

二级参考文献57

共引文献41

同被引文献31

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于经验回放Q-Learning的最优控制算法 被引量：6

参考文献5

二级参考文献57

共引文献41

同被引文献31

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于经验回放Q-Learning的最优控制算法被引量：6