基于多智能体强化学习的多AGV路径规划方法被引量：10

Multi-AGV Path Planning Method Based on Multi-agent Reinforcement Learning

下载PDF

导出

摘要 AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。 The AGV(automated guided vehicle) path planning problem has become a key technical problem in the field such as cargo transportation and express distribution. In this case,multi-AGV are required to cooperate to complete the task,it is difficult for traditional planning models to coordinate the interactions between multi-AGV. Using the divide-and-conquer idea may not necessarily achieve the optimal performance of the system. Therefore,a multi-agent independent reinforcement learning MRF(maximum reward frequency) Q-learning algorithm is proposed to optimize task scheduling and path planning at the same time. The AGV does not need to know the actions of other AGVs during the learning phase,which reduces the problem of dimensional disasters caused by joint actions. A combination strategy of Boltzmann and ε-greedy is used to avoid convergence to a poor path. In addition,the algorithm proposes to use the frequency of the global maximum return to update the Q value formula,so that multi-AGV can maximize the global cumulative return. Simulation experiments show that the algorithm can converge to the optimal solution and complete the path planning task in the shortest time steps.

作者刘辉肖克王京擘 LIU Hui;XIAO Ke;WANG Jing-bo(Department of Automation,Qingdao University,Qingdao 266071,China)

机构地区青岛大学自动化系

出处《自动化与仪表》 2020年第2期84-89,共6页 Automation & Instrumentation

基金山东省自然科学基金项目(ZR2017PF005) 青岛市博士后应用研究项目

关键词多智能体强化学习 AGV路径规划独立强化学习 multi-agent reinforcement learning AGV path planning independent reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1赵晓,王铮,黄程侃,赵燕伟.基于改进A*算法的移动机器人路径规划[J].机器人,2018,40(6):903-910. 被引量：248
2游晓明,刘升,吕金秋.一种动态搜索策略的蚁群算法及其在机器人路径规划中的应用[J].控制与决策,2017,32(3):552-556. 被引量：96
3刘洁,赵海芳,周德廉.一种改进量子行为粒子群优化算法的移动机器人路径规划[J].计算机科学,2017,44(B11):123-128. 被引量：16
4郑延斌,李波,安德宇,李娜.基于分层强化学习及人工势场的多Agent路径规划方法[J].计算机应用,2015,35(12):3491-3496. 被引量：14

二级参考文献32

1李仁府,独孤明哲,胡麟.基于PSO算法的路径规划收敛性与参数分析[J].华中科技大学学报（自然科学版）,2013,41(S1):271-275. 被引量：7
2戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
3PARKER L E. Multiple mobile robot systems [ M]//Springer Hand- book of Robotics. Berlin: Springer, 2005:921-941. 被引量：1
4CHARKROBORTY J, MUKHOPADHYAY S. A robust cooperative multi-robot path-planning in noisy environment [ C]// Proceedings of the 2010 IEEE International Conference on Industrial and Infor- mation Systems. Piscataway: IEEE, 2010:626-631. 被引量：1
5JARADAT M, GARIBEH M H, FEILAT E A. Dynamic motion plan- ning for autonomous mobile robot using fuzzy potential field [ C]// Proceedings of the 6tb International Symposium on Meehatronies and Its Applications. Piseataway: IEEE, 2009:24-26. 被引量：1
6GHATEE M, MOHADES A. Motion planning in order to optimize the length and clearance applying a Hopfield neural network [ J]. Expert Systems with Applications, 2009, 36(3): 4688 -4695. 被引量：1
7BARTO A G, MAHADEVEN S. Recent advance in hierarchical reinforcement learning [ J]. Discrete Event Dynamic Systems, 2003, 13(4): 341 -379. 被引量：1
8SABATFIN L, SECCHI C, FANTUZZI C. Arbitrarily shaped for- mations of mobile robots: artificial potential fields and coordinate transformation [ J]. Autonomous Robots, 2011, 30 (4) : 385 - 397. 被引量：1
9KHATIB O. Real-time obstacle avoidance for manipulators and mo- bile robots [ C]//Proceedings of the 1985 IEEE International Con- ference on Robotics and Automation. Piseataway: IEEE, 1985, 2: 500 - 505. 被引量：1
10LIANG T. A speedup convergent method for multi-Agent reinforce- ment learning [ C]// Proceedings of the 2009 International Confer- ence on Information Engineering and Computer Science. Piscat- away: IEEE, 2009:1-4. 被引量：1

共引文献356

1迟旭,李花,费继友.基于改进A^(*)算法与动态窗口法融合的机器人随机避障方法研究[J].仪器仪表学报,2021,42(3):132-140. 被引量：78
2林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：41
3黄鲁,周非同.基于路径优化D^*Lite算法的移动机器人路径规划[J].控制与决策,2020,35(4):877-884. 被引量：24
4谢高杨,房立清,苏续军,李亚男.无人靶车在不同车速下的路径规划方法[J].电子测量与仪器学报,2023,37(2):39-47. 被引量：3
5张凡,蔡涛,刘文达,范亚雷.基于改进JPS算法的电站巡检机器人路径规划[J].电子测量技术,2020,43(8):10-16. 被引量：7
6刘耀,毛剑琳.基于自适应变步长蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):76-81. 被引量：5
7许建波,宋豫川,封声飞.基于动态加权A^(*)算法的AGV路径规划研究[J].中国科技论文在线精品论文,2020(2):115-126. 被引量：2
8韩萍,裴芸,施蓉芳.食物中补充L-精氨酸对高胆固醇血症兔血管反应性和血小板功能的影响[J].南京铁道医学院学报,2000,19(1):35-37.
9邹慧君,周洪.基于机架杆位置结构误差设计曲柄滑块连续轨迹机构[J].机械设计与研究,2000,16(1):24-25. 被引量：4
10杨义豪.话语粘连在科技文体中的运用[J].山东外语教学,2000,21(2):31-34.

同被引文献89

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
2李卫硕,孙剑,陈伟.基于BP神经网络机器人实时避障算法[J].仪器仪表学报,2019,40(11):204-211. 被引量：39
3Yunfei ZHANG,Yanjun WANG,Haoxiang LANG,Ying WANG,Clarence W.DE SILVA.Visual Avoidance of Collision with Randomly Moving Obstacles through Approximate Reinforcement Learning[J].Instrumentation,2019,6(3):59-66. 被引量：1
4唐国新,陈雄,袁杨.基于改进遗传算法的机器人路径规划[J].计算机工程与设计,2007,28(18):4446-4449. 被引量：31
5段勇,崔宝侠,徐心和.多智能体强化学习及其在足球机器人角色分配中的应用[J].控制理论与应用,2009,26(4):371-376. 被引量：27
6张国辉,高亮,李培根,张超勇.改进遗传算法求解柔性作业车间调度问题[J].机械工程学报,2009,45(7):145-151. 被引量：173
7陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：62
8胡俊,朱庆保.未知环境下基于有先验知识的滚动Q学习机器人路径规划[J].控制与决策,2010,25(9):1364-1368. 被引量：11
9胡彬,王冰,王春香,杨明.一种基于时间窗的自动导引车动态路径规划方法[J].上海交通大学学报,2012,46(6):967-971. 被引量：34
10宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27

引证文献10

1郭洪月,王元新,孙晨曦.自动泊车系统中AGV路径规划及碰撞规避问题分析[J].装备制造技术,2020(4):258-261. 被引量：5
2陈展,公建宁,刘媛媛,徐京邦.基于禁忌搜索的多AGV系统路径优化算法[J].计算机工程与应用,2021,57(10):273-278. 被引量：14
3白云飞,胡大裟,蒋玉明,冯鲁波.改进遗传算法在AGV路径规划的应用[J].现代计算机,2021,27(16):69-73. 被引量：4
4尹旷,王红斌,方健,莫文雄,叶建斌,张宇.基于强化学习的移动机器人路径规划优化[J].电子测量技术,2021,44(10):91-95. 被引量：13
5郭超,陈香玲,郭鹏,王强,汪世杰.基于时空A^(*)算法的多AGV无冲突路径规划[J].计算机系统应用,2022,31(4):360-368. 被引量：15
6郁洲,毕敬,苑海涛.基于改进DQN算法的复杂海战场路径规划方法[J].智能科学与技术学报,2022,4(3):418-425. 被引量：3
7裘柯钧,鲍中凯,陈璐.民用客机总装车间自动引导车任务分配及路径规划[J].上海交通大学学报,2023,57(1):93-102. 被引量：3
8赵德京,马洪聪,廖登宇,崔浩岩.一种基于动作采样的Q学习算法[J].控制工程,2024,31(1):70-79. 被引量：1
9卫诚琨,周俊.订单驱动下基于强化学习的智能车间AGV调度[J].上海工程技术大学学报,2023,37(4):397-403.
10张中伟,高增恩,王菁锐,李艺,武照云.分布式AGV调度研究综述与发展趋势分析[J].制造技术与机床,2024(11):55-61. 被引量：1

二级引证文献59

1王宁,韩雨晓,王雅萱,王天海,张漫,李寒.农业机器人全覆盖作业规划研究进展[J].农业机械学报,2022,53(S01):1-19. 被引量：22
2邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：6
3张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
4陈俊超,李国臣,王卓龙.改进平滑A算法的多AGV路径规划分析[J].中国机械,2020(15):35-36.
5梁军,韩冬冬,盘朝奉,陈龙,陈逢强,杜万兵.基于移动机器人的智能车库关键技术综述[J].机械工程学报,2022,58(3):1-20. 被引量：14
6张泽华,张加友,张嘉凯,马松靖,李宇哲.基于遗传禁忌算法的多星协同任务规划方法[J].无线电工程,2022,52(7):1127-1135. 被引量：5
7陈琴,魏军平,刘洋,韩楠,吴涛,刘美琦,王鑫,乔少杰.基于禁忌搜索算法的传染病样本收集无人机调度方法[J].无线电工程,2022,52(7):1238-1249. 被引量：3
8刘永春,朱程燕,张运长,陈良亮.基于需求响应的虚拟电厂调度模型构建与仿真[J].自动化与仪器仪表,2022(6):94-98. 被引量：6
9徐建闽,臧鹏,首艳芳.基于ARIMA模型和K-means聚类分析的动态规划算法[J].重庆交通大学学报（自然科学版）,2022,41(7):9-13. 被引量：3
10葛显龙,张小晓,王博.考虑前置仓协作的两级生鲜配送路径优化研究[J].计算机工程与应用,2022,58(15):330-340. 被引量：11

1刘杰,范若寻,高甲子,曾晟,刘军.有限元法分析车辆低频振动时不同退变程度人体腰椎的力学响应[J].中国组织工程研究,2020,24(9):1371-1377. 被引量：2
2中兴通讯5G智慧工厂云化AGV应用解决方案[J].通信世界,2019,0(29):26-27. 被引量：3
3马佩坤,李艳,黄小赛,高扬.卷积神经网络与MRF相结合的高光谱图像分类[J].地理空间信息,2020,18(1):67-72. 被引量：1
4梁承姬,刘永强.带有缓存区的集装箱码头AGV和场桥的联合调度[J].计算机工程与应用,2019,55(24):247-253. 被引量：7
5汪健敏.新时期下的国土空间规划问题与对策探讨[J].建筑与装饰,2019,0(24):133-133.
6张持,张永林.基于两段圆弧的倒推式平行泊车路径规划方法[J].计算机与数字工程,2019,47(12):3035-3040. 被引量：8
7贾丙佳,李平.邻近障碍物整体化的机器人路径规划[J].华侨大学学报（自然科学版）,2019,40(6):799-805. 被引量：4
8邓旭,赵连军,郇静.基于隐马尔可夫模型路径规划方法[J].智能计算机与应用,2019,9(6):244-247. 被引量：2
9钱立军,吴冰,仇多洋,胡伟龙.基于分段高斯伪谱法的平行自主泊车路径规划[J].汽车工程,2019,41(12):1401-1409. 被引量：9
10吕霞付,程啟忠,李森浩,林政.基于改进A*算法的无人船完全遍历路径规划[J].水下无人系统学报,2019,27(6):695-703. 被引量：12

自动化与仪表

2020年第2期

浏览历史

内容加载中请稍等...

基于多智能体强化学习的多AGV路径规划方法被引量：10

参考文献4

二级参考文献32

共引文献356

同被引文献89

引证文献10

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的多AGV路径规划方法 被引量：10

参考文献4

二级参考文献32

共引文献356

同被引文献89

引证文献10

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的多AGV路径规划方法被引量：10