基于改进强化学习的移动机器人动态避障方法被引量：5

Mobile robot dynamic obstacle avoidance method based on improved reinforcement learning

下载PDF

导出

摘要针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。 Aiming to solve the problems of long planning trajectory,slow travel speed and poor robustness of mobile robot dynamic obstacle avoidance in unknown environment,a mobile robot dynamic obstacle avoidance method based on improved reinforcement learning is proposed.According to its own speed,target position and laser radar information,the mobile robot can directly obtain the action signal to achieve end-to-end control.Based on distance gradient guidance and angle gradient guidance,the mobile robot is optimized towards the end point and the convergence speed of the algorithm is accelerated.Combined with convolution neural network,high-quality features are extracted from multi-dimensional observation data to improve the effect of strategy training.The simulation results show that the training speed of the proposed method is increased by 40%,the track length is reduced by more than 2.69%,and the average line speed is increased by more than 11.87%in the multi-dynamic obstacle environment.Compared with the existing mainstream obstacle avoidance methods,the proposed method has the advantages of short planning trajectory,fast travel speed,stable performance and so on.It can realize the smooth obstacle avoidance of mobile robots in the multi-obstacles environment.

作者徐建华邵康康王佳惠刘学聪 XU Jianhua;SHAO Kangkang;WANG Jiahui;LIU Xuecong(School of Automation,Beijing Institute of Technology,Beijing 100081,China)

机构地区北京理工大学自动化学院

出处《中国惯性技术学报》 EI CSCD 北大核心 2023年第1期92-99,共8页 Journal of Chinese Inertial Technology

基金装备重大基础研究项目(5140502A03)。

关键词移动机器人动态避障强化学习柔性演员评论家算法卷积神经网络 mobile robot dynamic obstacle avoidance reinforcement learning soft actor-critic convolutional neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1郑锴,尹栋,殷少锋,郑献民,林宏旭.基于改进A^(*)算法的多基地多无人机分阶段任务规划方法[J].中国惯性技术学报,2022,30(2):248-256. 被引量：17
2徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：48
3Lan Jiang,Hongyun Huang,Zuohua Ding.Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1179-1189. 被引量：21
4单麒源,张智豪,张耀心,余宗祥.基于SAC算法的矿山应急救援智能车快速避障控制[J].黑龙江科技大学学报,2021,31(1):14-20. 被引量：6
5胡昌华,陈辰,何川,裴洪,张建勋.基于深度卷积神经网络的SAR图像舰船小目标检测[J].中国惯性技术学报,2019,27(3):397-405. 被引量：30

二级参考文献28

1冯尚友.信息熵与最大熵原理[J].水利电力科技,1995,22(3):24-29. 被引量：12
2任春明,张建勋.基于优化蚁群算法的机器人路径规划[J].计算机工程,2008,34(15):1-3. 被引量：37
3王福友,卢志忠,袁赣南,周卫东.基于局部幅值统计的海杂波背景下小目标检测[J].中国惯性技术学报,2008,16(5):571-576. 被引量：3
4朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：333
5宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
6Xiaoxuan Hu,Huawei Ma,Qingsong Ye,He Luo.Hierarchical method of task assignment for multiple cooperating UAV teams[J].Journal of Systems Science & Complexity,2015,28(5):1000-1009. 被引量：17
7孙小雷,齐乃明,董程,姚蔚然.无人机任务分配与航迹规划协同控制方法[J].系统工程与电子技术,2015,37(12):2772-2776. 被引量：41
8王思雨,高鑫,孙皓,郑歆慰,孙显.基于卷积神经网络的高分辨率SAR图像飞机目标检测方法[J].雷达学报（中英文）,2017,6(2):195-203. 被引量：46
9钟赟,姚佩阳,孙昱,杨娟.有人/无人机任务联盟分阶段形成方法[J].系统工程与电子技术,2017,39(9):2031-2038. 被引量：8
10仉新,张禹,苏晓明.基于启发式算法的移动机器人SLAM[J].中国惯性技术学报,2018,26(1):45-50. 被引量：17

共引文献114

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2王昆生.金融衍生工具及其监管[J].现代企业导刊,2000(4):48-49.
3张晓玲,张天文,师君,韦顺军.基于深度分离卷积神经网络的高速高精度SAR舰船检测[J].雷达学报（中英文）,2019,8(6):841-851. 被引量：27
4Ali Forootani,Raffaele Iervolino,Massimo Tipaldi,Joshua Neilson.Approximate Dynamic Programming for Stochastic Resource Allocation Problems[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):975-990. 被引量：4
5王鹏远.基于可变粒度调度的爬壁机器人路径规划仿真[J].计算机仿真,2020,37(9):291-294. 被引量：2
6郑昌庭,王俊,郑克.基于图像识别的变电站巡检机器人仪表识别研究[J].工业仪表与自动化装置,2020(5):57-61. 被引量：12
7周慧,褚娜,陈澎.复杂场景下的SAR图像船舶目标检测[J].大连海事大学学报,2020,46(3):87-94. 被引量：4
8宋婷,贺丰收,程宇峰.深度学习技术在雷达目标检测中的研究进展[J].航空科学技术,2020,31(10):12-20. 被引量：16
9熊亿民.基于改进人工势场法的多自由度机器人最优移动路径选择[J].电子测量技术,2020,43(21):1-5. 被引量：1
10刘洁瑜,魏文晓,赵彤,沈强.密集场景的双通道耦合目标检测算法[J].中国惯性技术学报,2020,28(5):686-693. 被引量：1

同被引文献31

1洪振宇,赵冲,张志旭,张聪,彭松伟.机场行李装载机器人的轨迹规划研究[J].机械设计,2020,37(3):101-106. 被引量：7
2李柏,张友民,邵之江.自动驾驶车辆运动规划方法综述[J].控制与信息技术,2018(6):1-6. 被引量：24
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：484
4张永,陈锋.一种改进的鲸鱼优化算法[J].计算机工程,2018,44(3):208-213. 被引量：52
5马新江,刘如飞,蔡永宁,王鹏.一种基于路缘特征的点云道路边界提取方法[J].遥感信息,2019,34(2):80-85. 被引量：27
6蔡怀宇,陈延真,卓励然,陈晓冬.基于优化DBSCAN算法的激光雷达障碍物检测[J].光电工程,2019,46(7):77-84. 被引量：28
7徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：48
8Lan Jiang,Hongyun Huang,Zuohua Ding.Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1179-1189. 被引量：21
9郑江涛,李四海,刘士明,付强文,陶渊博,李津.基于惯导和激光雷达的采煤机定位方法[J].中国惯性技术学报,2020,28(5):595-602. 被引量：15
10孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：31

引证文献5

1王亚波,靳玉良,张亚,范世伟,于飞.基于激光雷达的结构化道路障碍物检测方法[J].中国惯性技术学报,2023,31(6):593-600. 被引量：6
2宋春雷,张嘉轩,田晓春,徐建华,吴晓晖,张钰荣.基于优化的离散空间轨迹规划算法[J].中国惯性技术学报,2023,31(11):1150-1156. 被引量：1
3徐建华,吴晓晖,张嘉轩,张钰荣.一种未知环境下移动机器人自主导航方法[J].中国惯性技术学报,2024,32(3):250-257.
4田箫源,董秀成.基于改进DQN的移动机器人避障路径规划[J].中国惯性技术学报,2024,32(4):406-416. 被引量：1
5袁苏楠,张园园,刘保军.基于IWOA方法的工业机器人自动化取货轨迹优化[J].现代工业经济和信息化,2024,14(6):181-182.

二级引证文献8

1吕品,王宇航,方玮,赖际舟,余文斌.基于多结构语义特征的激光雷达里程计与建图方法[J].中国惯性技术学报,2023,31(12):1210-1219. 被引量：1
2肖应学,何超,包广元.基于二次规划的智能网联汽车路径规划算法[J].机电工程技术,2024,53(4):41-44.
3刘威,靳华伟,曹铸.煤矿单轨吊智能监测系统研究[J].菏泽学院学报,2024,46(2):31-36.
4韩广涛,张明路,高春艳,吕晓玲.室外广域环境下移动机器人地形障碍检测及分析方法[J].科学技术与工程,2024,24(19):8150-8157.
5徐晓苏,王睿,姚逸卿.基于筛选策略的动态环境下激光SLAM算法[J].中国惯性技术学报,2024,32(7):681-689. 被引量：1
6曾祥,蒋国涛,吕宇,李程,潘文波,罗子麒.基于多源融合的智能列车同时定位与侵限检测方法研究[J].控制与信息技术,2024(4):59-66.
7刘俊伟,张周平,郭大海,杨文雪,曲冠晨,马欣蕊,王思宇,朱倩.城市建筑三维实体自动化建模技术集成与实践[J].测绘通报,2024(9):1-7.
8廉胤东,苟彬,李超磊,李泽明,余锦伟,曾俊海.基于启发式能耗优化的电力仓储分布式多AGV路径规划方法[J].自动化与信息工程,2024,45(5):40-46.

1黄梓苓,赵宁.脑卒中后功能网络的独立成分分析研究进展[J].医学影像学杂志,2022,32(3):519-522. 被引量：2
2汪曾祺.语言像树,一枝动,百枝摇[J].青年博览,2022(23):51-51.
3刘淑霞,李立刚,金久才,戴永寿.基于漂角估计的无人船局部动态避障方法[J].电光与控制,2023,30(1):103-108. 被引量：1
4蔡泽,胡耀光,闻敬谦,张立祥.复杂动态环境下基于深度强化学习的AGV避障方法[J].计算机集成制造系统,2023,29(1):236-245. 被引量：4
5朱云汉.“西班牙大流感”回眸:影响与警示[J].书摘,2023(1):4-7.
6万斯,袁翠玉,王兵,陈焕宇,邓嫔,李倩,游萍,周睿,吴思容,吴奂.我国铅锌冶炼厂周边土壤重金属污染特征及成因[J].有色金属（冶炼部分）,2023(1):49-56. 被引量：5
7周琦.云深处显身手[J].21世纪商业评论,2022(12):76-77.
8杨志鹏,李波,甘志刚,梁诗阳.基于深度强化学习的四旋翼无人机航线跟随[J].指挥与控制学报,2022,8(4):477-482. 被引量：4
9郭文娟.现实主义和浪漫主义的猝然遇合——用还原法分析《出塞(其二)》[J].名作欣赏（评论版）（中旬）,2023(2):54-56.
10郭汝梦,杨浩哲,汤雄伟,张文婷,徐晓雪,刘德川,孙和平.卫星大地测量成像地震周期形变研究综述[J].武汉大学学报（信息科学版）,2022,47(6):799-806. 被引量：3

中国惯性技术学报

2023年第1期

浏览历史

内容加载中请稍等...

基于改进强化学习的移动机器人动态避障方法被引量：5

参考文献5

二级参考文献28

共引文献114

同被引文献31

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于改进强化学习的移动机器人动态避障方法 被引量：5

参考文献5

二级参考文献28

共引文献114

同被引文献31

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于改进强化学习的移动机器人动态避障方法被引量：5