记忆增强型深度强化学习研究综述被引量：6

Survey on Memory-augmented Deep Reinforcement Learning

下载PDF

导出

摘要近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学习、基于记忆网络的深度强化学习算法、基于情景记忆的深度强化学习算法、基于可微分计算机的深度强化学习.同时,系统性地总结和分析了记忆增强型深度强化学习的一系列研究成果存在的优势和不足.另外,给出了深度强化学习常用的训练环境.最后,对记忆增强型深度强化学习进行了展望,指出了未来研究方向. In recent years,deep reinforcement learning has developed rapidly.To improve the performance of deep reinforcement learning(DRL) in high-dimensional state space and dynamic complex environment,researchers introduce memory-augmented neural networks(MANN) into DRL,and propose various memory-augmented deep reinforcement learning(MADRL) algorithms,which becomes a research hotspot.In this paper according to the types of MANN,MADRL algorithms can be categorized into four classes:MADRL based on experience replay,MADRL based on memory network,MADRL based on episodic memory and MADRL based on differentiable neural computer.In addition,the training environments for DRL are introduced.Meanwhile,this paper systematically summarizes and analyzes the advantages and disadvantages of the research works on MADRL.Finally,the prospect and future research directions of MADRL are discussed.

作者汪晨曾凡玉郭九霞 WANG Chen;ZENG Fan-yu;GUO Jiu-xia(School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China;College of Air Traffic Management,Civil Aviation Fight University of China,Guanghan 618307,China)

机构地区电子科技大学计算机科学与工程学院中国民航飞行学院空中交通管理学院

出处《小型微型计算机系统》 CSCD 北大核心 2021年第3期454-461,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金-联合基金项目(U181320052)资助国家自然科学基金面上项目(6177020680)资助国家自然科学基金青年科学基金项目(62003381)资助国家重点研发计划项目(2018YFC0831801)资助四川省重点研发项目(17ZDYF3184)资助.

关键词深度强化学习经验回放记忆网络情景记忆可微分计算机 deep reinforcement learning experience replay memory networks episodic memory differentiable neural computer

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：70
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484
3周文吉,俞扬.分层强化学习综述[J].智能系统学报,2017,12(5):590-594. 被引量：20
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131

二级参考文献128

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533. 被引量：1
4SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489. 被引量：1
5AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102. 被引量：1
6TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219. 被引量：1
7SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998. 被引量：1
8KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232. 被引量：1
9KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293. 被引量：1
10LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451. 被引量：1

共引文献642

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：11
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：46
7舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
8钟玮琦,喻仁虹,李明柱.基于DDPG算法的供热末端运行策略研究[J].暖通空调,2022,52(S02):170-174. 被引量：1
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：8
10席磊,余璐,张弦,胡伟.基于深度强化学习的泛在电力物联网综合能源系统的自动发电控制[J].中国科学：技术科学,2020,50(2):221-234. 被引量：19

同被引文献55

1许海玲,吴潇,李晓东,阎保平.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362. 被引量：546
2马宏伟,张光卫,李鹏.协同过滤推荐算法综述[J].小型微型计算机系统,2009,30(7):1282-1288. 被引量：204
3余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：614
4陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
5周晓彦,王珂,李凌燕.基于深度学习的目标检测算法综述[J].电子测量技术,2017,40(11):89-93. 被引量：169
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484
7黄春林,刘兴武,邓明华,周杨,卜东波.复杂网络上疾病传播溯源算法综述[J].计算机学报,2018,41(6):1376-1399. 被引量：16
8李赫,印莹,李源,赵宇海,王国仁.基于多目标演化聚类的大规模动态网络社区检测[J].计算机研究与发展,2019,56(2):281-292. 被引量：9
9刘明阳,张曦煌.模块度增量与局部模块度引导下的社区发现算法[J].计算机应用研究,2019,36(5):1380-1384. 被引量：4
10殷林飞,陈吕鹏,余涛,张孝顺.基于CPSS平行系统懒惰强化学习算法的实时发电调控[J].自动化学报,2019,45(4):706-719. 被引量：6

引证文献6

1张浩,仇晨光,闫朝阳,柴赟.基于人工神经网络的电网运行维护优化决策策略[J].高电压技术,2023,49(S01):122-127. 被引量：1
2金堃,邓向阳,于柯远.深度强化学习之近端策略优化研究[J].物联网技术,2023,13(7):69-75. 被引量：3
3牛祥虞,游进国,虞文波.基于多线程并行强化学习的数据库索引推荐[J].计算机应用研究,2023,40(12):3742-3746.
4马玉磊,钟潇柔.基于深度强化学习的复杂网络可扩展社区检测[J].计算机工程与设计,2024,45(2):339-347.
5曾明如,涂佳昊,祝琴,宋世杰.具有自适应贪婪因子的深度强化学习路径规划[J].计算机仿真,2024,41(9):416-423.
6吕福荣,师云龙,景晓宁,曾倩怡,祝学薇,雷海洋.服装推荐系统的关键技术研究进展[J].现代纺织技术,2024,32(12):134-144.

二级引证文献4

1何文华,丁贵立,韩威,许志浩,康兵,王宗耀,刘向向.综合考虑电网碳效益和用户满意度的需求响应激励策略优化模型研究[J].供用电,2023,40(10):95-105. 被引量：2
2刘晓光,王德文,张建,唐龙波,郑彦军.面向智能电网的运检业务全口径日控计划管控风险预警[J].信息技术与信息化,2024(9):209-212.
3谷学强,张万鹏,谭思雨,罗俊仁,周棪忠.面向低轨星座边缘计算的博弈强化学习方法综述[J].智能科学与技术学报,2024,6(3):301-318.
4张黎元,宋兴旺,李冰洁,梁睿,刘长德,彭奕洲.基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略[J].智慧电力,2024,52(10):40-48.

1杨艳宇,王星,吴德成.基于壳聚糖物理网络的高强韧双网络水凝胶的构建、调控与应用[J].化学学报,2021,79(1):1-9. 被引量：6

小型微型计算机系统

2021年第3期

浏览历史

内容加载中请稍等...

记忆增强型深度强化学习研究综述被引量：6

参考文献4

二级参考文献128

共引文献642

同被引文献55

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

记忆增强型深度强化学习研究综述 被引量：6

参考文献4

二级参考文献128

共引文献642

同被引文献55

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

记忆增强型深度强化学习研究综述被引量：6