面向多机协同的Att-MADDPG围捕控制方法设计被引量：3

Design of Att-MADDPG Hunting Control Method for Multi-UAV Cooperation

下载PDF

导出

摘要多无人机对动态目标的围捕是无人机集群作战中的重要问题。针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕策略,构建了相应的围捕算法。基于AC框架对MADDPG进行改进,首先,在Critic网络加入Attention模块,依据不同注意力权重对所有围捕无人机进行信息处理;然后,在Actor网络加入Attention模块,促使其他无人机进行协同围捕。仿真实验表明,Att-MADDPG算法较MADDPG算法的训练稳定性提高8.9%,任务完成耗时减少19.12%,经学习后的围捕无人机通过协作配合使集群涌现出更具智能化围捕行为。 The hunting of dynamic targets by multi-UAV is an important problem in UAV swarm operations.In this paper,aiming at the dynamic target oriented swarm hunting problem,by analyzing the shortcomings of the hunting mechanism based on MADDPG algorithm,and learning from the attention mechanism used by Google machine translation team,we introduce the attention mechanism into the hunting process,design the cooperative hunting strategy based on the attention mechanism,and construct the corresponding hunting algorithm.Improve MADDPG based on AC framework.First of all,the attention module is added to critical network to process the information of all UAVs according to different attention weights;then,the attention module is added to actor network to promote other UAVs to carry out cooperative hunting.The simulation results show that Att-MADDPG algorithm can improve the training stability by 8.9%and reduce the task completion time by 19.12%compared with MADDPG algorithm.After learning,the UAV can cooperate to make the swarm emerge more intelligent behavior.

作者刘峰魏瑞轩丁超姜龙亭李天 LIU Feng;WEI Ruixuan;DING Chao;JIANG Longting;LI Tian(Aeronautical Engineering College,Air Force Engineering University,Xi’an 710051,China)

机构地区空军工程大学航空工程学院

出处《空军工程大学学报（自然科学版）》 CSCD 北大核心 2021年第3期9-14,共6页 Journal of Air Force Engineering University(Natural Science Edition)

基金科技部“新一代人工智能”重点项目(2018AAA0102403)。

关键词协同围捕强化学习 MADDPG 智能性涌现 cooperative hunting reinforcement learning MADDPG intelligence emergence

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1魏瑞轩编著..无人机系统及作战使用[M].北京:国防工业出版社,2009:112.
2郝雅楠,孔超,关晓红.国外无人机作战运用与发展态势分析——关于纳卡冲突事件的思考[J].国防科技工业,2021(2):50-53. 被引量：8
3张红强,吴亮红,周游,章兢,周少武,刘朝华.复杂环境下群机器人自组织协同多目标围捕[J].控制理论与应用,2020,37(5):1054-1062. 被引量：13
4李瑞珍,杨惠珍,萧丛杉.基于动态围捕点的多机器人协同策略[J].控制工程,2019,26(3):510-514. 被引量：22
5徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
6徐雪松,杨胜杰,陈荣元.复杂环境移动群机器人最优路径规划方法[J].电子测量与仪器学报,2016,30(2):274-282. 被引量：35
7吴子沉,胡斌.基于态势认知的无人机集群围捕方法[J].北京航空航天大学学报,2021,47(2):424-430. 被引量：10
8陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：22
9孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66

二级参考文献48

1王俭,肖金球,赵鹤鸣.目标信号导航的机器人路径二次优化[J].电子测量与仪器学报,2007,21(5):73-76. 被引量：2
2YANG S, MENG M. An efficient neural network ap- proach to dynamic robot motion planning [ J ]. Neural Networks, 2000 13 (2) : 143-148. 被引量：1
3SUGIHARA K, SMITH J. Genetic algorithms for adap- tive motion planning of an autonomous mobile robot [ C ]. IEEE International Symposium on Computational Intelligence in Robotics and Automation, Monterey, CA, 1997,138-143. 被引量：1
4YONG T, QING L, LI J W. An improved PSO for path planning of mobile robots and its parameters discussion [ C ]. International Conference on Intelligent Control and Information Processing, Dalian, China, 2010: 34-38. 被引量：1
5AGILI S, BJORNBERG D B, MORALES A. Optimized search over the Gabor dictionary for note decomposition and recognition [ J ]. Journal of the Franklin Institute, 2007, 344 (7) : 969-990. 被引量：1
6YU W, PENG J, ZHANG X, et al. An adaptive unscent- ed particle filter algorithm through relative entropy for mobile robot self-localization [ J ]. Mathematical Prob- lems in Engineering, 2013, 23(7) :1256-1271. 被引量：1
7CHAKRABORTY J, KONAR A, UDAY K. Chakraborty distributed cooperative multi-robot path planning using differential evolution[ J]. IEEE Congress on Evolutionary Computation, 2008 : 718-725. 被引量：1
8MARQUES L, NUNES U, DEALMEIDA A T. Particle swarm-based olfactory guided search [ J ]. Autonomous Robotics, 2006 (20) :277-287. 被引量：1
9ZHUANG Q, xu s, cuI z. Design to experimental platform for swarm robotic search [ J]. Journal of Bioin- formatics and Intelligent Control,2013,2( 1 ):65-72. 被引量：1
10李丹勇,宋永端.面向任务的多机器人协调运动控制[J].控制工程,2010,17(S1):117-120. 被引量：2

共引文献169

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
2范之琳,杨洪勇,韩艺琳.基于强化学习的多智能体系统目标围捕控制[J].航空学报,2023,44(S01):236-245. 被引量：3
3王凌浩,舒亮,钱祺.基于断路器柔性装配的移动机器人路径规划[J].电子测量技术,2023,46(5):121-128. 被引量：2
4姚懋欣,刘桂雄,陈国宇.燃气表计量检定线首次检定调度技术研究[J].电子测量技术,2023,46(4):56-59. 被引量：2
5曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：3
6汪光丽.阿拉斯加北部斜坡水平井生产测井技术评价[J].测井与射孔,2000(1):57-64.
7彭京亮.一种快速的扫描铅笔稿图细化算法[J].中国图象图形学报（A辑）,2000,5(5):434-439. 被引量：3
8王飞,江明.基于一种改进的蚁群算法的移动机器人三维路径规划研究[J].安徽工程大学学报,2019,0(3):43-48. 被引量：6
9张雪英,李智勇,李凤莲,陈桂军.用于求解井下最短逃生路径问题的离散萤火虫算法[J].工矿自动化,2016,42(12):30-35. 被引量：3
10徐晓光,胡楠,徐禹翔,王雷.改进萤火虫算法在路径规划中的应用[J].电子测量与仪器学报,2016,30(11):1735-1742. 被引量：8

同被引文献27

1王巍,宗光华.基于“虚拟范围”的多机器人围捕算法[J].航空学报,2007,28(2):508-512. 被引量：15
2黄天云,陈雪波,徐望宝,周自维,任志勇.基于松散偏好规则的群体机器人系统自组织协作围捕[J].自动化学报,2013,39(1):57-68. 被引量：22
3高春庆,肖明清,孔庆春,胡阳光.突防飞机对敌预警系统随队支援干扰任务分配[J].计算机仿真,2016,33(7):69-72. 被引量：3
4唐汇禹,彭世蕤,孙经蛟,刘香岚.支援干扰掩护下反辐射无人机突防技术[J].现代防御技术,2017,45(5):12-16. 被引量：8
5齐锋,成晓鹏,王枭.随队支援干扰目标选择辅助决策方法[J].火力与指挥控制,2017,42(11):56-59. 被引量：3
6李瑞珍,杨惠珍,萧丛杉.基于动态围捕点的多机器人协同策略[J].控制工程,2019,26(3):510-514. 被引量：22
7郭玥秀,杨伟,刘琦,王玉.残差网络研究综述[J].计算机应用研究,2020,37(5):1292-1297. 被引量：66
8张耀中,许佳林,姚康佳,刘洁凌.基于DDPG算法的无人机集群追击任务[J].航空学报,2020,41(10):309-321. 被引量：28
9邹长杰,郑皎凌,张中雷.基于GAED-MADDPG多智能体强化学习的协作策略研究[J].计算机应用研究,2020,37(12):3656-3661. 被引量：6
10高昂,董志明,李亮,宋敬华,段莉.MADDPG算法并行优先经验回放机制[J].系统工程与电子技术,2021,43(2):420-433. 被引量：9

引证文献3

1范之琳,杨洪勇,韩艺琳.基于强化学习的多智能体系统目标围捕控制[J].航空学报,2023,44(S01):236-245. 被引量：3
2畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：2
3张红强,石佳航,吴亮红,王汐,左词立,陈祖国,刘朝华,陈磊.改进MADDPG算法的非凸环境下多智能体自组织协同围捕[J].计算机科学与探索,2024,18(8):2080-2090.

二级引证文献5

1黄依新,相晓嘉,周晗,闫超,常远,孙懿豪.基于概率图模型的多机器人自组织协同围捕方法[J].控制理论与应用,2023,40(12):2225-2235.
2苏牧青,王寅,濮锐敏,余萌.基于强化学习的多无人车协同围捕方法[J].工程科学学报,2024,46(7):1237-1250.
3刘东辉,郑赢营,畅鑫,李艳斌.基于静态博弈和遗传算法的多智能体博弈策略生成方法[J].无线电工程,2024,54(6):1355-1360.
4畅鑫,李艳斌,刘东辉.基于分层强化学习的多智能体博弈策略生成方法[J].无线电工程,2024,54(6):1361-1367.
5宋歌,韩鹏飞,罗钰翔.基于强化学习的离场飞行程序航迹生成方法[J].计算机应用,2024,44(S01):355-362.

1凌文通,倪建军,陈颜,唐广翼.基于改进鲸鱼优化算法的多无人机围捕[J].计算机与现代化,2021(6):1-5. 被引量：5
2陈铭治,朱大奇.FMM与改进GBNN模型相结合的多AUV实时围捕算法[J].控制与决策,2020,35(12):2845-2854. 被引量：6
3周贞文,邵将,徐扬,罗德林.针对逃逸目标的多机协同围捕策略研究[J].空军工程大学学报（自然科学版）,2021,22(3):2-8. 被引量：3
4肖迎红,严文志.全方位提升过程性考核教学质量研究[J].化工设计通讯,2021,47(7):124-125. 被引量：3
5江茜,李扬杵,范心.发达国家公立医院管办分离改革分析及其对中国公立医院改革的启示[J].现代医院,2021,21(6):948-952. 被引量：2
6黄才銮.矿业公司内部市场化管理的探索与实践[J].大众投资指南,2020(21):111-112. 被引量：1

空军工程大学学报（自然科学版）

2021年第3期

浏览历史

内容加载中请稍等...

面向多机协同的Att-MADDPG围捕控制方法设计被引量：3

参考文献9

二级参考文献48

共引文献169

同被引文献27

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向多机协同的Att-MADDPG围捕控制方法设计 被引量：3

参考文献9

二级参考文献48

共引文献169

同被引文献27

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向多机协同的Att-MADDPG围捕控制方法设计被引量：3