基于人工神经网络的并行强化学习自适应路径规划被引量：7

Application of Parallel Reinforcement Learning Based on Artificial Neural Network to Adaptive Path Planning

下载PDF

导出

摘要强化学习是通过对环境的反复试探建立起从环境状态到行为动作的映射。利用人工神经网络的反馈进行权值的调整,再与高学习效率的并行强化学习算法相结合,提出了基于人工神经网络的并行强化学习的应用方法,并通过实验仿真验证了迭代过程的收敛性和该方法的可行性,从而有效地完成了路径学习。 Reinforcement learning is an important class of learning techniques that learns to perform a certain task through trial and error interactions with an knowledge-poor environment.By combining artificial neural network with parallel reinforcement learning,an applicable method of parallel reinforcement learning algorithm based on artificial neural network is proposed.Experimental results show that the method is effective.

作者耿晓龙李长江

机构地区西北工业大学

出处《科学技术与工程》 2011年第4期756-759,共4页 Science Technology and Engineering

关键词并行强化学习 BP神经网络路径规划 Q学习 parallel reinforcement learning BP neural network path plan Q learning

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1Sutton R S,Barto A G.Reinforcement learning.[s.l.]:MIT Press,1998. 被引量：1
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：263
3Weng Juyang.On developmental mental architectures.Neruocomputing,2007;70:2303-2323. 被引量：1
4孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7
5Watkins C J C H,Dayan P.Q-learning.Machine Learning,1994;8(3):279-292. 被引量：1
6Fierro R,Lewis F L.Control of a nonholonomic mobile robot using neural networks.IEEE Transcation on Neural Networks.1998;9(4):589-600. 被引量：1
7Yager R.On the dempster shafer framework and new combination rules.Information Sciences,1997;(41):93-137. 被引量：1

二级参考文献15

1童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
2Sutton R S,Barto A G.Reinforcement learning:An introduction[M]. Cambridge, MA: MIT Press, 1998. 被引量：1
3Watkins C J C H,Dayan P.Q-leaming[J].Machine Learning, 1992,8 (3) : 279-292. 被引量：1
4Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:A survey[J].Journal of Artificial Intelligence Research, 1996,4:237-285. 被引量：1
5Barto A G,Sutton R S,Brouwer P S.Associative search network:A reinforcement learning associative memory[J].Biological Cybernetics, 1981,40:201-211. 被引量：1
6Ahmadabadi M N,Asadpour M.Expertness based cooperative Q- learning[J].IEEE Transactions on Systems,Man,and Cybernetics- part B : Cybernetics, 2002,32( 1 ) : 66-76. 被引量：1
7Igarashi H.Motion planning of a mobile robot as a discrete optimization problem[C]//Proceedings of the IEEE International Symposium on Assembly and Task Planning,May 28-29 2601: 1-6. 被引量：1
8毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
9蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：19
10高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30

共引文献268

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7宋炯,金钊,杨维和.机器学习中加速强化学习的一种函数方法[J].云南大学学报（自然科学版）,2011,33(S2):176-181.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献73

1高峰,周浩,杨卓宇.基于改进A^*算法的水面无人船全局路径规划[J].计算机应用研究,2020,37(S01):120-121. 被引量：5
2王福斌,刘杰,陈至坤,李书杰,曾秀丽,刘阔.基于RBF神经网络参数优化的挖掘机器人运动轨迹仿真[J].中国工程机械学报,2009,7(4):379-382. 被引量：2
3穆中林,鲁艺,任波,张斌.基于改进A^＊算法的无人机航路规划方法研究[J].弹箭与制导学报,2007,27(1):297-300. 被引量：21
4Yap C C,Lin C F,Chang K J. A brake strategy for an automatic parking system of vehicle[A].VPPC,2009.798-802. 被引量：1
5Horii Masaki,Liu Kangzhi. Automatic parking benchmark problem:Experimental comparison of nonholonomic control methods[A].2007.608-612. 被引量：1
6Isobe T,Tsutsumi S.10Gbps implementation of TLS/SSL accelerator on FPGA[C]//IEEE 18th International Workshop on Quality of Service,2010:1-6. 被引量：1
7Ahmad Salman,Marcin Rogawski,Jens-Peter Kaps.Efficient hardware accelerator for IPSEC based on partial reconfiguration on Xilinx FPGAs[C]//In Proceedings of the International Conference on Reconfigurable Computing and FPGAs,2012:242-248. 被引量：1
8He Junqi,Dai Huiya,Song Xueli.The combination stretching function technique with simulated annealing algorithm for global optimization[J].Optimization Methods and Software,2014,29(3):629-645. 被引量：1
9Saber M Elsayed,Ruhul A Sarker,Daryl L Essam.A new genetic algorithm for solving optimization problems[J].Engineering Applications of Artificial Intelligence,2014(27):57-69. 被引量：1
10GUO Tiantai,HONG Bo,KONG Ming,et al.Application of ant colony algorithm in plant leaves classification based on infrared spectroscopy[J].AIP Conference Proceedings,2014,1592(1):378-385. 被引量：1

引证文献7

1刘耀,毛剑琳.动态环境下基于改进蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):82-87. 被引量：5
2刘耀,毛剑琳.基于自适应变步长蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):76-81. 被引量：4
3吴冰,钱立军,虞明,吴坚.基于RBF神经网络的自动泊车路径规划[J].合肥工业大学学报（自然科学版）,2012,35(4):459-462. 被引量：13
4谭宝成,王培.A~＊路径规划算法的改进及实现[J].西安工业大学学报,2012,32(4):325-329. 被引量：22
5李玲,杜学绘,包义保,肖玮.基于构件的安全协议数据通路择优方法[J].计算机工程与设计,2015,36(11):2931-2937.
6季挺,张华.非参数化近似策略迭代并行强化学习算法[J].计算机工程,2018,44(11):313-320. 被引量：2
7李元昊,段鹏飞,郭绍义,韩洋,秦圻.船舶全局路径规划相关算法研究综述[J].船舶标准化工程师,2022,55(5):26-30.

二级引证文献46

1陈丽,陈洋,杨艳华.面向三维结构视觉检测的无人机覆盖路径规划[J].电子测量与仪器学报,2023,37(2):1-10. 被引量：7
2张立广,谭宝成,马天力.无人驾驶车辆路径跟踪控制器的设计及实现[J].西安工业大学学报,2013,33(8):680-684. 被引量：6
3刘勇,徐廷学,孙臣良,赵建忠.基于拆卸及扩展广义随机Petri网的维修性仿真[J].海军航空工程学院学报,2013,28(5):555-561. 被引量：1
4韩颖.基于改进差分进化算法的RBF神经网络在股指预测中的应用[J].合肥工业大学学报（自然科学版）,2014,37(11):1397-1401. 被引量：5
5王健,赵又群,季学武,刘亚辉,臧利国.基于线性扩张状态观测器的平行泊车路径跟踪[J].华南理工大学学报（自然科学版）,2014,42(11):71-77. 被引量：2
6赵又群,王健,臧利国,李波,伍岳.不同轴距车辆路径跟踪研究[J].上海交通大学学报,2015,49(4):481-486. 被引量：1
7刘乔,刘彬.路径规划中A*算法优化的研究[J].数字技术与应用,2015,33(10):153-154. 被引量：1
8闫鹏杰,张亚.一种移动机器人路径规划新方法[J].河北农机,2016,0(2):64-65. 被引量：3
9李永祥,樊阿娇,黄超,茹艳,潘俊方.基于A*算法的条件道路选择探究[J].无线互联科技,2016,13(4):125-127.
10张成,凌有铸,陈孟元.改进蚁群算法求解移动机器人路径规划[J].电子测量与仪器学报,2016,30(11):1758-1764. 被引量：50

1倪斌,陈雄,袁杨.未知环境下的自适应路径规划[J].系统仿真技术,2005(2):98-103. 被引量：2
2杨凌,周小涛.AODV路由协议性能的改进研究[J].通信技术,2007,40(12):212-214. 被引量：4
3谭福生,葛景国.力控制技术在机器人打磨中的应用及系统实现[J].上海电气技术,2008,1(2):35-40. 被引量：24
4庄晓东,孟庆春,熊建设,殷波,王汉萍.动态环境中基于增强式学习的路径规划方法[J].机器人,2001,23(S1):712-716. 被引量：1
5于琨,蔡智,糜仲春,蔡庆生.基于路径学习的信息自动抽取方法[J].小型微型计算机系统,2003,24(12):2147-2149. 被引量：7
6张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5
7梁泉.未知环境中基于强化学习的移动机器人路径规划[J].机电工程,2012,29(4):477-481. 被引量：10
8王彦庆.水下航行器水下障碍规避性能分析与仿真[J].舰船科学技术,2017,39(3X):34-36.
9齐勇,魏志强,殷波,费云瑞,于忠达,庄晓东.增强蚁群算法的机器人最优路径规划[J].哈尔滨工业大学学报,2009,41(3):130-133. 被引量：8
10周云,赵超,张亚波,黄柯棣,胡德文.基于共生仿真的UAV自适应路径规划决策支持平台研究[J].系统仿真学报,2010,22(5):1130-1133. 被引量：1

科学技术与工程

2011年第4期

浏览历史

内容加载中请稍等...

基于人工神经网络的并行强化学习自适应路径规划被引量：7

参考文献7

二级参考文献15

共引文献268

同被引文献73

引证文献7

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于人工神经网络的并行强化学习自适应路径规划 被引量：7

参考文献7

二级参考文献15

共引文献268

同被引文献73

引证文献7

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于人工神经网络的并行强化学习自适应路径规划被引量：7