分层强化学习研究综述被引量：7

A Survey of Hierarchical Reinforcement Learning

导出

摘要强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被"维数灾"问题所困扰。近年来,分层强化学习方法引入抽象(Abstraction)机制,在克服"维数灾"方面取得了显著进展。作为理论基础,本文首先介绍了强化学习的基本原理及基于半马氏过程的Q-学习算法,然后介绍了3种典型的单Agent分层强化学习方法(Option、HAM和MAXQ)的基本思想,Q-学习更新公式,概括了各方法的本质特征,并对这3种方法进行了对比分析评价。最后指出了将单Agent分层强化学习方法拓展到多Agent分层强化学习时需要解决的问题。 Reinforcement learning is an approach that an agent can learn its behaviors through trial-anderror interaction with a dynamic environment. It has been an important branch of machine learning for its self-learning and online learning capabilities. But reinforcement learning is bedeviled by the curse of dimensionality. Recently, hierarchical reinforcement learning has made great progresses in combatting with the curse of dimensionality by employing abstraction. As theoretical basis, the principle of reinforcement learning and Q-learning based on Semi-Markov Decision Process （SMDP） are introduced at first. Then, three typical single-agent hierarchical reinforcement learning approaches, namely, Option, HAM, and MAXQ, are reviewed, including their main ideas, Q-learning update formulas, commentaries, and the comparisons among them. At last, the open challenges in the process of the single-agent hierarchical reinforcement learning approaches being extended to multi-agent system are discussed.

作者沈晶顾国昌刘海波

机构地区哈尔滨工程大学计算机科学与技术学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2005年第5期574-581,共8页 Pattern Recognition and Artificial Intelligence

关键词分层强化学习半马氏过程 Q-学习多智能体系统 Hierarchical Reinforcement Learning, Semi-Markov Decision Process, Q-Learning, Multi-Agent System

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献46

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：270
2Singh S P, Jaakola T, Jordan M I. Reinforcement Learning with Soft State Aggregation. In:Tesauro G, Touretzky D S, Leen T K, eds. Advances in Neural Information Processing Systems 7.Cambridge, USA:MIT Press, 1995, 361-368. 被引量：1
3Moriarty D, Sehultz A, Grefenstette J. Evolutionary Algorithms for Reinforcement Learning. Journal of Artificial Intelligence Research, 1999, 11:241-276. 被引量：1
4Bertsekas D P, Tsitsiklis J N. Neuro-Dynamic Programming.Belmont, USA: Athena Scientific, 1996. 被引量：1
5Barto A G, Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Dynamic Systems:Theory and Applications, 2003, 13(4), 41-77. 被引量：1
6Sutton R S, Precup D, Singh S P. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning. Artificial Intelligence, 1999, 112(1-2): 181-211. 被引量：1
7Parr R. Hierarchical Control and Learning for Markov Decision Processes. Ph. D Dissertation. University of California, Berkeley, USA, 1998. 被引量：1
8Dietterich T G. Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition. Journal of Artificial Intelligence Research, 2000, 13 : 227- 303. 被引量：1
9Minsky M L. Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain-Model Problem. Ph. D Dissertation. Princeton University, Princeton, USA, 1954. 被引量：1
10张汝波编著..强化学习理论及应用[M].哈尔滨:哈尔滨工程大学出版社,2001:287.

二级参考文献52

1Hewitt C. Viewing Control Ctructures as Patterns of Passing Messages. Artificial Intelligence, 1977,8(3) :323-364 被引量：1
2Wooldridge M,Jennings N R. Agent Theories,Architectures,and Languages: a Survey. In: Wooldridge, Jennings, eds. Intelligent Agents,Berlin: Springer-Verlag, 1995. 1-22. 被引量：1
3Wei β G. Learning to Coordinate Actions in Multi-Agent Systems Proceedings of IJCAI'93, 1993 被引量：1
4Dworman,Garett,Kimbrough S,Laing J. Bargaining by Artificial Agents in Two Coalition Games: A Study in Genetic Programming for Electronic Commerce. In: Proc. of the AAAI Genetic Programming Conf. Stanford,CA,Aug. 1996 被引量：1
5Kaelbling L P. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 1996,4: 237-285 被引量：1
6Singh S. Agents and Reinforcement Learning. Miller freeman publish Inc,San Mateo,CA,USA,1997 被引量：1
7Bellman R. Dynamic Programming. Prentice-Hall, Englewood Cliffs, NJ, 1957 被引量：1
8Sutton R S. Learning to predict by the methods of temporal differences. Machine Learning, 1988,3: 9 - 44 被引量：1
9Sutton R S. Convergence theory for a new kind of prediction learning. In:Proc. of the 1988 Workshop on Computational Learning Theory, 1988. 421-442 被引量：1
10Watkins C J C H,Dayan P. Q-Learning. Machine Learning,8(3):279-292 被引量：1

共引文献275

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：8
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10宋梅萍,顾国昌,张汝波.移动机器人的自适应式行为融合方法[J].哈尔滨工程大学学报,2005,26(5):586-590. 被引量：5

同被引文献87

1陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
2魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
3王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
4沈晶,顾国昌,刘海波.分层强化学习中的Option自动生成算法[J].计算机工程与应用,2005,41(34):4-6. 被引量：5
5陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
6高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
7沈晶,顾国昌,刘海波.基于免疫聚类的自动分层强化学习方法研究[J].哈尔滨工程大学学报,2007,28(4):423-428. 被引量：2
8赵晓华,石建军,李振龙,赵国勇.基于Q-learning和BP神经元网络的交叉口信号灯控制[J].公路交通科技,2007,24(7):99-102. 被引量：9
9Sanner S, Boutilier C. Approximate linear programming for first order mdps [C] //The 21st Conf on Uncertainty in Artificial Intelligence. Amsterdam, Netherland: North Holland Publishing Company, 2005 被引量：1
10Dabney W, Govern A M. Utile distinctions for reinforcement learning [C]//The 20th Int Joint Artificial Intelligence. Singapore: World Scientific P Company, 2007 relational Conf on ublishing 被引量：1

引证文献7

1程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1
2刘全,高阳,陈道蓄,孙吉贵,姚望舒.一种基于启发式轮廓表的逻辑强化学习方法[J].计算机研究与发展,2008,45(11):1824-1830. 被引量：8
3刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15
4刘晓伟,高春鸣.结合行为树与Q-learning优化UT2004中agent行为决策[J].计算机工程与应用,2016,52(3):113-118. 被引量：6
5陈静.柔性机器人多层启发式动态规划平衡认知研究[J].系统仿真学报,2018,30(1):147-155. 被引量：1
6陈冬火,刘全,朱斐,金海东.基于凸多面体抽象域的自适应强化学习技术研究[J].计算机学报,2018,41(1):112-131. 被引量：5
7魏竞毅,赖俊,陈希亮.基于互信息的智能博弈对抗分层强化学习研究[J].计算机技术与发展,2022,32(9):142-147.

二级引证文献35

1沈晶,刘海波,张汝波,吴艳霞,程晓北.基于半马尔可夫对策的多机器人分层强化学习[J].山东大学学报（工学版）,2010,40(4):1-7. 被引量：6
2刘全,闫其粹,伏玉琛,胡道京,龚声蓉.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011,48(12):2352-2358. 被引量：11
3肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
4李冠峰,贺学剑,韩道军.强化学习在中职招生系统中的应用[J].计算机应用与软件,2013,30(4):252-254.
5傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
6孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
7方敏,李浩.基于状态回溯代价分析的启发式Q学习[J].模式识别与人工智能,2013,26(9):838-844. 被引量：9
8傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报,2013,24(11):2676-2686. 被引量：4
9于俊,刘全,傅启明,孙洪坤,陈桂兴.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013,34(11):129-139. 被引量：6
10朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9

1程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1
2安岭丽,彭志平,李铁鹰.MAXQ方法在出租车问题中的应用[J].茂名学院学报,2007,17(1):56-59.
3杨鹏,赵辉,呼生刚.基于强化学习和半马氏过程的供应链优化[J].计算机工程与应用,2007,43(4):240-242. 被引量：1
4Kondrashova E.V.Optimization of the CBSMAP Queueing Model[J].Journal of Mathematics and System Science,2013,3(7):359-364.
5庞士焕,朱相冰,张琦,汤萍萍.基于MAXQ方法的分层强化学习[J].计算机技术与发展,2009,19(4):154-156. 被引量：1
6方颖立.基于VMM的寄存器抽象层验证[J].电子设计技术 EDN CHINA,2007,14(8):110-111. 被引量：5
7沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
8李秋.浅析挖掘复杂的数据类型的分析与研究[J].中国电子商情（科技创新）,2014,0(13):17-17.
9刘洁群.基于谓词推理的冲突检测算法[J].吉林大学学报（理学版）,2016,54(1):112-115. 被引量：2
10石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4

模式识别与人工智能

2005年第5期

浏览历史

内容加载中请稍等...

分层强化学习研究综述被引量：7

参考文献46

二级参考文献52

共引文献275

同被引文献87

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

分层强化学习研究综述 被引量：7

参考文献46

二级参考文献52

共引文献275

同被引文献87

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

分层强化学习研究综述被引量：7