基于Agent强化学习的地图迁移学习算法

下载PDF

导出

摘要强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。

作者张炎刘博文

机构地区包头职业技术学院计算机与信息工程系西北工业大学软件与微电子学院

出处《电子世界》 2014年第15期189-189,共1页 Electronics World

关键词 Q学习强化学习地图迁移

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1顾国昌,仲宇,张汝波.一种新的多智能体强化学习算法及其在多机器人协作任务中的应用[J].机器人,2003,25(4):344-348. 被引量：7
2Schmidhuber Juergen.On learning how to learn learning strategies[J].1995. 被引量：1
3Perlich C,Dalessandro B,Raeder T,et al. Machine learning for targeted display advertising:Transfer learning in action[J]. Machine Learning,2013:1-25. 被引量：1
4Torrey Lisa,Shaviik Jude,Walker Trevor,et al.Relational skill transfer via advice taking[C].Proceedings of ICML Workshop on Structural Knowledge Transfer for Machine Learning,2006. 被引量：1

二级参考文献13

1Sutton R S. Learning to predict by the methods of temporal difference[J]. Machine Learning. 1988, (3) : 9--44. 被引量：1
2Watkins J C H, Dayan Peter. Q-learning[J]. Machine Learning.1992, (8) : 279--292. 被引量：1
3Sutton R S. Temporal credit assignment in reinforcement learning[D]. University of Massachusetts,Amherst,MA, 1984. 被引量：1
4Masayuki Yamamura, Takashi Onozuka. Reinforcement learning with knowledge by using a stochastic gradient method on a bayesian network[A], Proceedings of the 1998 IEEE International Conference on Neural Networks[C]. May 4-9 1998. Anchorage, Alaska, USA : 2045-- 2050. 被引量：1
5Carlos H C Ribeiro. Embedding a priori knowledge in reinforcement learning[J]. Journal of Intelligent and Robotic Systems. 1998,21:51--71. 被引量：1
6Chi-Hyon Oh, Tomoharu Nakashima, Hisao Ishibuchi. Initialization of Q-values by fuzzy rules for accelerating Q-learning[A].Proceedings of the 1998 IEEE International Conference on Neural Networks[C]. May 4-9 1998. Anchorage, Alaska, USA: 2051- 2056. 被引量：1
7Dean F Hougen, Maria Gini, James Slagle. Partitioning input space for reinforcement learning for control. Proceedings of the 1997 IEEE International Congress on Neural Networks.June 9--12, 1997. Houston, TX, USA: 755--760. 被引量：1
8Yoshikazu Arai, Teruo Fujii, Hajime Asama, Yasushi Kataoka.Multilayered reinforcement learning for complicated collision avoidance problems[A]. Proceedings of the 1998 IEEE International Conference on Robotics & Automation[C]. May 16--20,1998. Leuven. Belgium: 2186--2191. 被引量：1
9John W Sheppard. Colearning in Differential Games. Machine Learning. 1998, (33) : 201--233. 被引量：1
10Michael L Littman. Markov games as a framework for muhiagent reinforcement learning[A], Proceedings of the 11th International Conference on Machine Learning. 1994, 157--163. 被引量：1

共引文献6

1谭天晓,赵辉,赵宗涛.一种基于统计的多智能体Q学习算法[J].微电子学与计算机,2008,25(1):17-19.
2曹洁,朱宁宁.动作预测在多机器人强化学习协作中的应用[J].计算机工程与应用,2013,49(8):257-260. 被引量：2
3张伟,王乃新,魏世琳,杜雪,严浙平.水下无人潜航器集群发展现状及关键技术综述[J].哈尔滨工程大学学报,2020,41(2):289-297. 被引量：50
4赵留平,李环,王鹏.水下无人系统智能化关键技术发展现状[J].无人系统技术,2020,3(6):12-24. 被引量：15
5段昶,陈亮,耿俊香.一种集群通信的多智能体强化学习算法[J].沈阳理工大学学报,2021,40(4):11-17. 被引量：1
6郭义明,胡江海,占磊.电站巡检机器人路径规划算法研究[J].电力系统装备,2021(23):81-83.

1程铭,毋国庆,袁梦霆.基于迁移学习的软件缺陷预测[J].电子学报,2016,44(1):115-122. 被引量：23
2许敏,王士同,顾鑫.TL-SVM:一种迁移学习算法[J].控制与决策,2014,29(1):141-146. 被引量：14
3邱金波,周晓柯.通过代理空间共享知识的Options学习[J].广东石油化工学院学报,2014,24(4):18-21.
4吴丽娜,黄雅平,郑翔.基于词袋模型的迁移学习算法[J].计算机科学,2014,41(12):260-263. 被引量：2
5刘振,杨俊安,刘辉,王伟.模糊近邻密度聚类与重采样的迁移学习算法[J].信号处理,2016,32(6):651-659. 被引量：3
6于重重,吴子珺,谭励,涂序彦,田蕊.非平衡集成迁移学习模型及其在桥梁结构健康监测中的应用[J].智能系统学报,2013,8(1):46-51. 被引量：4
7庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：471
8周家琪,刘丽,崔晓萍,李方方.基于相似性迁移学习的图像标注[J].山东师范大学学报（自然科学版）,2016,31(2):22-26. 被引量：2
9谢江龙,刘波.面向张量数据的迁移学习算法[J].计算机与现代化,2016(2):42-48. 被引量：1
10洪佳明,陈炳超,印鉴.一种结合半监督Boosting方法的迁移学习算法[J].小型微型计算机系统,2011,32(11):2169-2173. 被引量：4

电子世界

2014年第15期

浏览历史

内容加载中请稍等...

基于Agent强化学习的地图迁移学习算法

参考文献4

二级参考文献13

共引文献6

相关作者

相关机构

相关主题

浏览历史