基于SMDP环境的自主生成options算法的研究被引量：9

The Study of Recognizing Options Based on SMDP

导出

摘要 $options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法!该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部分依赖人为因素的弊病,然后在该算法的基础上,提出了构造options的算法流程,并把这一算法运用于迷宫问题之中。实验结果表明利用实验生成的options可以大大加快学习的效率。 The classical option algorithm provides a natural way of incorporating macro actions into Semi-Markov Decision Process （SMDP） framework. However it immediately raises the question of how to recognise appropriate options automatically. This paper presents a method based on the slope of frequenly curve to find sub-goals. Options can be automatically built based on sub-goals found in the previous step. This algorithm overcomes the shortcomings of previous methods such as low accuraly and artificial participation. We illustrated this algorithm with several grid-world navigation tasks. It is proved that the use of the options improve learning efficiency obviously.

作者苏畅高阳陈世福陈兆乾

机构地区南京大学计算机软件新技术国家重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2005年第6期679-684,共6页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金(No.60103012 60475026) 国家重点研究发展规划973(No.2002CB312002) 江苏省自然科学基金(No.BK20034079) 江苏省创新人才计划(No.BK2003409)资助项目

关键词强化学习马尔可夫决策过程抉择半马尔可夫决策过程子目标 Reinforcement Learning , Markov Decision Processes , Options , Semi- Markov Decision Processes, Subgoals

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1Bernstein D S. Reusing Old Policies to Accelerate Learning on New MDPs. Technical Report, UM-CS-1999-026, Department of Computer Science, University of Massachusetts, Amherst,USA, 1999. 被引量：1
2Sutton R, Precup D, Singh S. Between MDPs 0nd Semi-MDPs:A Framework for Temporal Abstraction in Reinforcement Learning. Artificial Intelligence, 1999, 112(1-2): 181-211. 被引量：1
3Stolle M, Precup D. Learning Options in Reinforcement Learning. In: Proc of the 5th International Symposium on Abstraction, Reformulation and Approximation. Kananaskis, Canada,2002, 212-223. 被引量：1
4Kaelbling I. P, Littman M L, Moore A W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research,1996, 4:237-285. 被引量：1
5Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge, USA: MIT Press. 1998. 被引量：1
6Iba G A. A Heuristic Approach to the Discovery of Macro-Operators. Machine Learning, 1989, 3(4): 285-317. 被引量：1
7Precup D. Temporal Abstraction in Reinforcement Learning.Ph. D Dissertation. University of Massachusetts, Amherst,USA, 2000. 被引量：1
8Digney B. Learning Hierarchical Control Structure for Multiple Tasks and Changing Environments. In: Proc of the 5th Conference on Simulation of Adaptive Behavior. Cambridge, USA:MIT Press, 1998. http://www.ri.cmu.edu/pubs/pub_3150.html. 被引量：1
9Digney B. Emergent Hierarchical Control Structures: Learning Reactive/Hierarchical Relationships in Reinforcement Environments. In: Meas P, Mataric M, eds. Proc of the 4th Conferenceon Simulation of Adaptive Behavior. Cambridge, USA: MIT Press, 1996. http://www.ri.cmu.edu/pubs/pub_3151.html. 被引量：1
10Thrun S, Schwartz A. Finding Structure in Reinforcement Learning. In: Tesauro G, Touretzky D, Leen T, eds. Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 1995, 385-392. 被引量：1

同被引文献127

1王千祥,申峻嵘,梅宏.自适应软件初探[J].计算机科学,2004,31(10):168-171. 被引量：21
2杨洋,陈小平.动态不确定环境下的决策:一种分层决策模型[J].计算机科学,2005,32(1):151-154. 被引量：1
3魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
4WEILI QingtaiYE ChangmingZHU.APPLICATION OF HIERARCHICAL REINFORCEMENT LEARNING IN ENGINEERING DOMAIN[J].Journal of Systems Science and Systems Engineering,2005,14(2):207-217. 被引量：3
5沈晶,顾国昌,刘海波.分层强化学习中的Option自动生成算法[J].计算机工程与应用,2005,41(34):4-6. 被引量：5
6王本年,高阳,陈兆乾,谢俊元,陈世福.面向Option的k-聚类Subgoal发现算法[J].计算机研究与发展,2006,43(5):851-855. 被引量：8
7沈晶,顾国昌,刘海波.基于多智能体的Option自动生成算法[J].智能系统学报,2006,1(1):84-87. 被引量：2
8沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
9秦志斌,钱徽,朱淼良.自主移动机器人混合式体系结构的一种Multi-agent实现方法[J].机器人,2006,28(5):478-482. 被引量：8
10彭志平,彭宏,郑启伦.一种双边多议题自治协商模型的研究[J].电子与信息学报,2007,29(3):733-738. 被引量：12

引证文献9

1彭志平,李绍平.一种基于PSO的分层策略搜索算法[J].模式识别与人工智能,2008,21(1):98-103. 被引量：1
2杜小勤,李庆华,韩建军.一种基于HAMs体系的层次分解方法[J].小型微型计算机系统,2008,29(4):653-658.
3石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4
4陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：60
5刘全,闫其粹,伏玉琛,胡道京,龚声蓉.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011,48(12):2352-2358. 被引量：11
6刘智斌,朱晓龙,曹宝香.一种自适应程序设计方法[J].计算机工程与应用,2011,47(36):80-82. 被引量：1
7李誌,胡坤,余雪丽.基于半马氏博弈模型的分层强化学习研究[J].计算机工程与设计,2012,33(9):3558-3562. 被引量：2
8刘智斌,曾晓勤.基于路径引导知识启发的强化学习方法[J].四川大学学报（工程科学版）,2012,44(5):136-142. 被引量：4
9王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.

二级引证文献81

1李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
2张雨.基于马尔科夫过程状态转移矩阵的桥梁结构技术状态预测方法研究[J].四川水泥,2023(3):212-214. 被引量：1
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
5赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
6胡健.基于Q学习的无线传感器网络路由协议[J].计算机与现代化,2013(3):131-134.
7南杨,李中健,叶文伟.基于强化学习的飞行自动驾驶仪设计[J].电子设计工程,2013,21(10):45-47. 被引量：3
8孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
9穆翔,刘全,傅启明,孙洪坤,周鑫.基于两层模糊划分的时间差分算法[J].通信学报,2013,34(10):92-99. 被引量：1
10陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2

1柴雪霞,马学森,周雷,唐昊.基于SMDP模型的Web服务组合优化方法[J].合肥工业大学学报（自然科学版）,2011,34(10):1496-1500. 被引量：4
2程燕,唐昊,马学森.基于策略迭代和遗传算法的SMDP鲁棒控制策略求解[J].合肥工业大学学报（自然科学版）,2007,30(11):1404-1407. 被引量：1
3彭志平,李绍平.分层强化学习研究进展[J].计算机应用研究,2008,25(4):974-978. 被引量：7
4王蓁蓁,王智钢.逻辑半马尔可夫决策过程及Q学习[J].金陵科技学院学报,2013,29(2):13-19.
5李帅,王先培,王泉德,牛胜巍.基于SMDP强化学习的电力信息网络入侵检测研究[J].电力自动化设备,2006,26(12):75-78. 被引量：4
6李红娜,姚分喜,黄鸿.分层增强学习在足球机器人比赛中的应用[J].计算机仿真,2005,22(6):145-147. 被引量：2
7张伟,李卫斌.基于OpenFlow网络数据处理模型的研究[J].计算机科学与探索,2015,9(11):1344-1350.
8黄浩,唐昊,周雷,程文娟.服务率不确定的单站点传送带给料加工站系统鲁棒优化控制[J].计算机应用,2015,35(7):2067-2072.
9刘春,唐昊,程文娟.不确定SMDP基于全局优化的鲁棒决策问题[J].系统仿真学报,2005,17(11):2704-2707. 被引量：4
10高飞,叶尚辉.产品造型的一种设计过程模型[J].西安电子科技大学学报,1995,22(1):68-73.

模式识别与人工智能

2005年第6期

浏览历史

内容加载中请稍等...

基于SMDP环境的自主生成options算法的研究被引量：9

参考文献13

同被引文献127

引证文献9

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

基于SMDP环境的自主生成options算法的研究 被引量：9

参考文献13

同被引文献127

引证文献9

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

基于SMDP环境的自主生成options算法的研究被引量：9