基于经验指导的深度确定性多行动者-评论家算法被引量：6

An Experience -Guided Deep Deterministic Actor -Critic Algorithm with Multi -Actor

下载PDF

导出

摘要连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现. The continuous control task has always been an important research direction in reinforce-ment learning. In recent years, the development of deep learning (DL) and the advent of deterministic policy gradients algorithm (DPG), provide many good ideas for solving continuous control problems. The main difficulty faced by these methods is the exploration in the continuous action space. And some of them engage in exploratory behavior through external noise injection in the action space. However, this exploration method does not perform well in some continuous control tasks. This paper proposes an experience-guided deep deterministic actor-critic algorithm with multi-actor (EGDDAC-MA) without external noise, which learns a guiding network from excellent experiences to guide the updates of the actor network and the critic network. Besides, it uses a multi-actor actor-critic (AC) model which configures different actors for each phase in an episode. These actors are independent of each other and do not interfere with each other. Finally, the experimental results show that compared with DDPG, TRPO and PPO algorithms, the proposed algorithm has better performance in most continuous tasks in GYM simulation platform.

作者陈红名刘全闫岩何斌姜玉斌张琳琳 Chen Hongming;Liu Quan;Yan Yan;He Bin;Jiang Yubin;Zhang Linlin(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006;Provincial Key Laboratory for Computer Information Processing Technology (Soochow University), Suzhou, Jiangsu 215006;Key Laboratory of Symbolic Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun, 130012;Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000)

机构地区苏州大学计算机科学与技术学院江苏省计算机信息处理技术重点实验室(苏州大学) 符号计算与知识工程教育部重点实验室(吉林大学) 软件新技术与产业化协同创新中心

出处《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1708-1720,共13页 Journal of Computer Research and Development

基金国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329) 江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004) 苏州市应用基础研究计划工业部分项目(SYG201422)~~

关键词强化学习深度强化学习确定性行动者评论家经验指导专家指导多行动者 reinforcement learning deep reinforcement learning deterministic actor-critic experience guiding expert guiding multi-actor

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1张汝波,唐平鹏,杨歌,李雪耀,史长亭.水面无人艇自适应危险规避决策过程收敛性分析[J].计算机研究与发展,2014,51(12):2644-2652. 被引量：6
2刘全,闫其粹,伏玉琛,胡道京,龚声蓉.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011,48(12):2352-2358. 被引量：11
3朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：13

二级参考文献51

1魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
2苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
3Barto A G, Mahadevan S. Recent advances in hierarchical reinforcement learning [J]. Discrete Event Dynamic Systems: Theory and Applications, 2003, 13(4): 41-77. 被引量：1
4Sutton R S, Precup D, Singh S P. Between MDPs and semi- MDPs : A framework for temporal abstraction in reinforcement learning [J]. Artificial Intelligence, 1999, 112 (1) : 181-211. 被引量：1
5Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. Journal of Artificial Intelligence Research, 2000, 13(1): 227-303. 被引量：1
6Parr R. Hierarchical control and learning for Markov decision processes [D]. Berkeley: University of California, 1998. 被引量：1
7Neville M, Sriraam N. Transfer in variable-reward hierarchical reinforcement learning [J]. Machine Learning, 2008, 73(5): 289-312. 被引量：1
8Schultink E G, Cavallo R. Economic hierarchical Qqearning [C]//Proc of the 23rd AAAI Conf on Artificial Intelligence. New York: ACM, 2008. 被引量：1
9Mannor S, Menache I, Hoze I, et al. Dynamic abstraction in reinforcement learning via clustering [C] //Proc of the 21st Int Conf on Machine Learning. New York: ACM, 2004: 560 -567. 被引量：1
10Stolle M, Precup D. Learning options in reinforcement learning [C]//Proc of the 5th Int Symp on Abstraction, Reformulation and Approximation. Berlin: Springer, 2002: 212-285. 被引量：1

共引文献27

1肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
2孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
3穆翔,刘全,傅启明,孙洪坤,周鑫.基于两层模糊划分的时间差分算法[J].通信学报,2013,34(10):92-99. 被引量：1
4朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
5周鑫,刘全,傅启明,肖飞.一种批量最小二乘策略迭代方法[J].计算机科学,2014,41(9):232-238. 被引量：9
6刘全,肖飞,傅启明,伏玉琛,周小科,朱斐.基于自适应归一化RBF网络的Q-V值函数协同逼近模型[J].计算机学报,2015,38(7):1386-1396. 被引量：9
7陈华,张新宇,姜长锋,徐国瑞.水面无人艇路径规划研究综述[J].世界海运,2015,38(11):30-33. 被引量：15
8房俊恒,朱斐,刘全,伏玉琛,凌兴宏.一种基于独立任务的POMDP问题的解决方法[J].计算机应用研究,2016,33(1):147-152.
9栾咏红,刘全,章鹏.连续空间中的随机技能发现算法[J].现代电子技术,2016,39(10):14-17. 被引量：2
10朱斐,许志鹏,刘全,伏玉琛,王辉.基于可中断Option的在线分层强化学习方法[J].通信学报,2016,37(6):65-74. 被引量：4

同被引文献54

1张应武,刘素君.基于研究性学习的本科计量经济学教学策略研究[J].佳木斯职业学院学报,2014,30(4):132-133. 被引量：2
2樊晓平,李双艳,陈特放.基于新人工势场函数的机器人动态避障规划[J].控制理论与应用,2005,22(5):703-707. 被引量：40
3王俊林,张剑云.基于统计证据的Mass函数和D-S证据理论的多传感器目标识别[J].传感技术学报,2006,19(3):862-864. 被引量：28
4贾泽露.非GIS专业地理信息系统课程教学思考[J].测绘科学,2008,33(5):230-232. 被引量：37
5僧德文,王红霞.基于SuperMap的地理信息系统课程教学设计[J].浙江水利水电专科学校学报,2009,21(3):79-81. 被引量：1
6徐锦,金宏斌,熊家军.基于D-S证据理论的多类支持向量机融合方法[J].空军雷达学院学报,2010,24(1):16-18. 被引量：4
7王涛,江进丰,林佑廷,林秋丰,张文明.基于CarSim软件的闪避障碍物驾驶者模型[J].农业工程学报,2010,26(5):159-163. 被引量：2
8朱文文,金玉净,伏玉琛,宋绪文.连续空间的递归最小二乘行动者—评论家算法[J].计算机应用研究,2014,31(7):1994-1997. 被引量：2
9钱敏.城市规划专业GIS课程教学改革探讨[J].科教文汇,2014(26):61-62. 被引量：2
10万岩,王雅璐.产品垃圾评论识别研究综述[J].北京邮电大学学报（社会科学版）,2019,0(3):71-79. 被引量：1

引证文献6

1王金永,黄志球,杨德艳,Xiaowei Huang,祝义,华高洋.面向无人驾驶时空同步约束制导的安全强化学习[J].计算机研究与发展,2021,58(12):2585-2603. 被引量：3
2王颖,王盼.人工智能技术的电子商务虚假评论者检测[J].甘肃科学学报,2022,34(1):141-146. 被引量：2
3鲁良伟,李敬兆,周华平.基于DDPG算法的矿用电机车防撞及避障策略研究[J].煤炭技术,2022,41(2):184-188. 被引量：4
4丁世飞,杜威,郭丽丽,张健,徐晓.基于双评论家的多智能体深度确定性策略梯度方法[J].计算机研究与发展,2023,60(10):2394-2404. 被引量：3
5李新凯,虎晓诚,马萍,张宏立.基于改进DDPG的无人驾驶避障跟踪控制[J].华南理工大学学报（自然科学版）,2023,51(11):44-55. 被引量：2
6余银峰,祝美玲,汪烈军.强化学习实验教学现状与探究——以新疆大学计算机科学与技术学院为例[J].教育进展,2024,14(1):603-608.

二级引证文献13

1李鑫,夏凡,荣新艳.人工智能赋能饲料产业电子商务升级发展的前景展望[J].中国饲料,2023(2):157-160. 被引量：2
2李永杰.基于多数据融合的智能定位传感器避障算法研究[J].自动化与仪表,2023,38(1):48-52. 被引量：2
3蒋荣军.基于Concenter-Net神经网络的无人驾驶汽车实时规划方法[J].数学的实践与认识,2023,53(5):164-171.
4刘泽润,刘超.可持续建成环境研究的机器学习应用进展与展望[J].风景园林,2023,30(7):51-59.
5孙聪,曾荟铭,宋焕东,王运柏,张宗旭,马建峰.基于机器学习的无人机传感器攻击在线检测和恢复方法[J].计算机研究与发展,2023,60(10):2291-2303. 被引量：1
6高甲博,肖玮,何智杰.P3C-MADDPG算法的多无人机协同追捕对抗策略研究[J].指挥控制与仿真,2023,45(6):7-18.
7徐曼.数据挖掘方法与技术在虚假评论者检测中的应用研究进展[J].计算机应用文摘,2023,39(24):77-79.
8宋倩,蓝俊欢,罗富贵,李明珍.基于强化学习的智能车避障决策算法[J].电子设计工程,2024,32(12):181-186.
9刘莹莹,李昱衡,何江,任宇昕,董洋.基于ConvNext的无人驾驶机车运行中的障碍物检测[J].科学技术创新,2024(16):74-77.
10刘德强,刘勇,渠立臣.安防反恐用多监控手段集控动态目标跟踪控制方法[J].中国新技术新产品,2024(12):142-144.

1Pekka Leviakangas,Yanbing YE,Oluwole Alfred OLATUNJI.Sustainable public-private partnerships： Balancing the multi-actor ecosystem and societal requirements[J].Frontiers of Engineering Management,2018,5(3):347-356. 被引量：2
2周博,蒲红利,王继龙,孙晓燕,魏舒畅,石盘棋.基于超滤-络合萃取及反萃取技术的甘草苷制备工艺研究[J].中草药,2019,50(5):1095-1099. 被引量：4
3周博,蒲红利,王继龙,刘晓霞,魏舒畅,石盘棋,孙晓燕.基于超滤-络合萃取技术的甘草酸制备工艺研究[J].中草药,2019,50(6):1323-1327. 被引量：5
4柯丰恺,周唯倜,赵大兴.优化深度确定性策略梯度算法[J].计算机工程与应用,2019,55(7):151-156. 被引量：10
5杨海清,徐勇军,王明雪.基于深度强化学习和循环卷积神经网络的图像恢复算法[J].高技术通讯,2019,29(5):432-437. 被引量：8
6陆琦.科技创新如何应“变”[J].科技传播,2019,11(13).
7辛忠良,霍明霞,贾鹏举,韩光,李峙,丁其.基于经验小波变换和相关向量机的断路器机械故障诊断[J].电测与仪表,2019,56(13):97-103. 被引量：18
8蒲红利,周博,魏舒畅,石盘琪,孙晓燕.甘草超滤液中甘草酸的络合萃取研究[J].食品工业科技,2019,40(6):157-160. 被引量：3
9周博,蒲红利,王继龙,刘晓霞,魏舒畅,金辉.甘草超滤液中甘草苷的络合萃取研究[J].中国现代应用药学,2019,36(6):645-649. 被引量：3
10冯宁宁,刘刚,张彦娥,梅树立,杨跚杰.基于EMD的奶牛动态称量算法[J].农业机械学报,2019,50(B07):305-312. 被引量：4

计算机研究与发展

2019年第8期

浏览历史

内容加载中请稍等...

基于经验指导的深度确定性多行动者-评论家算法被引量：6

参考文献3

二级参考文献51

共引文献27

同被引文献54

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于经验指导的深度确定性多行动者-评论家算法 被引量：6

参考文献3

二级参考文献51

共引文献27

同被引文献54

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于经验指导的深度确定性多行动者-评论家算法被引量：6