基于引导Minimax-DDQN的无人机空战机动决策被引量：4

Air combat maneuver decision-making of unmanned aerial vehicle based on guided Minimax-DDQN

下载PDF

导出

摘要针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 A guided Minimax-DDQN(Minimax-Double Deep Q-Network) algorithm was designed to solve the problems of unpredictable enemy aircraft maneuver strategy and low winning rate,which are caused by the complex environment information and strong confrontation of Unmanned Aerial Vehicle(UAV) in air combat.Firstly,on the basis of Minimax decision-making method,a guided strategy exploration mechanism was proposed.Then,combined with the guided Minimax strategy,a type of DDQN(Double Deep Q-Network) algorithm was designed to improve the update efficiency of Q-network.Finally,an advanced three-stage network training method was proposed.And through confrontation training between different decision models,better optimized decision model was obtained.Experimental results show that compared with Minimax-DQN(Minimax-DQN),Minimax-DDQN and other algorithms,the proposed algorithm has the success rate of chasing straight target improved by 14% to 60% and the winning rate against DDQN algorithm over 60%.It can be seen that compared with algorithms such as DDQN and Minimax-DDQN,the proposed algorithm has stronger decision-making capability and better adaptability in high confrontation combat environment.

作者王昱任田君范子琳 WANG Yu;REN Tianjun;FAN Zilin(School of Automation,Shenyang Aerospace University,Shenyang Liaoning 110136,China)

机构地区沈阳航空航天大学自动化学院

出处《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(61906125) 辽宁省教育厅科学研究经费资助项目(LJKZ0222)。

关键词无人机空战自主决策深度强化学习双重深度Q网络多阶段训练 Unmanned Aerial Vehicle(UAV)air combat autonomous decision-making deep reinforcement learning Double Deep Q-Network(DDQN) multi-stage training

分类号 V279 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献13

1周新民,吴佳晖,贾圣德,王文林.无人机空战决策技术研究进展[J].国防科技,2021,42(3):33-41. 被引量：11
2张宏鹏,黄长强,轩永波,唐上钦.基于深度神经网络的无人作战飞机自主空战机动决策[J].兵工学报,2020,41(8):1613-1622. 被引量：21
3李永丰,史静平,章卫国,蒋维.深度强化学习的无人作战飞机空战机动决策[J].哈尔滨工业大学学报,2021,53(12):33-41. 被引量：14
4Yong-feng Li,Jing-ping Shi,Wei Jiang,Wei-guo Zhang,Yong-xi Lyu.Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm[J].Defence Technology（防务技术）,2022,18(9):1697-1714. 被引量：4
5Tong GUO,Nan JIANG,Biyue LI,Xi ZHU,Ya WANG,Wenbo DU.UAV navigation in high dynamic environments:A deep reinforcement learning approach[J].Chinese Journal of Aeronautics,2021,34(2):479-489. 被引量：14
6刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：138
7马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：22
8丁林静,杨啟明.基于强化学习的无人机空战机动决策[J].航空电子技术,2018,49(2):29-35. 被引量：14
9张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：19
10余伶俐,邵玄雅,龙子威,魏亚东,周开军.智能车辆深度强化学习的模型迁移轨迹规划方法[J].控制理论与应用,2019,36(9):1409-1422. 被引量：25

二级参考文献67

1DUAN HaiBin 1 ,SHAO Shan 2 ,SU BingWei 3 &ZHANG Lei 41 State Key Laboratory of Science and Technology on Holistic Flight Control,School of Automation Science and Electrical Engineering, Beijing University of Aeronautics and Astronautics,Beijing 100191,China,2 Flight Control Department,Shenyang Aircraft Design and Research Institute,Shenyang 110035,China,3 Beijing Institute of Near Space Vehicle’s System Engineering,Beijing 100076,China,4Integration and Project Section,Air Force Equipment Academy,Beijing 100085,China.New development thoughts on the bio-inspired intelligence based control for unmanned combat aerial vehicle[J].Science China(Technological Sciences),2010,53(8):2025-2031. 被引量：34
2祝世虎,董朝阳,张金鹏,陈宗基.基于神经网络与专家系统的智能决策支持系统[J].电光与控制,2006,13(1):8-11. 被引量：15
3Watkins C J, Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3):279-292. 被引量：1
4毕义明,等.第二炮兵运筹学[M]北京:军事科学出版社,2005-7. 被引量：16
5胡奇英,刘建庸.马尔科夫决策过程引论[M].西安:西安电子科技大学出版社,2000. 被引量：7
6Zhong Lin,Tong Ming'an,Zhong Wei,Zhang Shengyun.Sequential maneuvering decisions based on multi-stage influence diagram in air combat[J].Journal of Systems Engineering and Electronics,2007,18(3):551-555. 被引量：7
7郭昊,周德云,张堃.无人作战飞机空战自主机动决策研究[J].电光与控制,2010,17(8):28-32. 被引量：20
8吴江,宋晗,周锐,陈宗基.基于扩展影响图的超视距空战辅助决策方法[J].控制与决策,2010,25(11):1669-1674. 被引量：5
9DUAN HaiBin,ZHANG YunPeng,LIU SenQi.Multiple UAVs/UGVs heterogeneous coordinated technique based on Receding Horizon Control (RHC) and velocity vector control[J].Science China(Technological Sciences),2011,54(4):869-876. 被引量：15
10徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11

共引文献392

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
2姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
3张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
4卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
5高佳明,张丽,蒋梅.个税改革下资源型省份家庭金融资产投资决策研究[J].金融发展评论,2024(3):80-95.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
8高志强,张荣荣.面向战术边缘的联合智能体系设计[J].火箭军工程大学学报,2021(3):19-23.
9杨金鸿,谭斌,皇甫立,熊璋.一种基于联合神经网络的连续空间行动者评论家学习方法[J].智能安全,2022,1(2):19-25.
10徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11

同被引文献22

1唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：22
2董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：12
3黄志勇,吴昊霖,王壮,李辉.基于平均神经网络参数的DQN算法[J].计算机科学,2021,48(4):223-228. 被引量：4
4杨爱武,李战武,李宝,奚之飞,高春庆.基于动态变权重的空战态势评估[J].兵工学报,2021,42(7):1553-1563. 被引量：16
5孙智孝,杨晟琦,朴海音,白成超,葛俊.未来智能空战发展综述[J].航空学报,2021,42(8):28-42. 被引量：48
6黄晓冬,苑海涛,毕敬,刘涛.基于DQN的海战场舰船路径规划及仿真[J].系统仿真学报,2021,33(10):2440-2448. 被引量：9
7李永丰,史静平,章卫国,蒋维.深度强化学习的无人作战飞机空战机动决策[J].哈尔滨工业大学学报,2021,53(12):33-41. 被引量：14
8曾贲,房霄,孔德帅,宋祥祥,贾政轩,林廷宇.一种数据驱动的对抗博弈智能体建模方法[J].系统仿真学报,2021,33(12):2838-2845. 被引量：7
9Qiang FENG,Xingshuo HAI,Bo SUN,Yi REN,Zili WANG,Dezhen YANG,Yaolong HU,Ronggen FENG.Resilience optimization for multi-UAV formation reconfiguration via enhanced pigeon-inspired optimization[J].Chinese Journal of Aeronautics,2022,35(1):110-123. 被引量：10
10高岳林,杨钦文,王晓峰,李嘉航,宋彦杰.新型群体智能优化算法综述[J].郑州大学学报（工学版）,2022,43(3):21-30. 被引量：50

引证文献4

1郑志强,段海滨.基于有限忍耐度鸽群优化的无人机近距空战机动决策[J].计算机应用,2024,44(5):1401-1407.
2章阳,顾宏宇,冯博豪,王然.语义通信下基于强化学习的无人机通信容错协同控制[J].网络与信息安全学报,2024,10(2):69-80.
3钱殿伟,齐红敏,刘振,周志明,易建强.基于改进近端策略优化的空战自主决策研究[J].系统仿真学报,2024,36(9):2208-2218.
4高卓凡,郭文利.一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略[J].计算机科学,2024,51(12):277-285.

1张建东,王鼎涵,杨啟明,史国庆,陆屹,张耀中.基于分层强化学习的无人机空战多维决策[J].兵工学报,2023,44(6):1547-1563. 被引量：9
2王瑶,马海强,李梓正,姜义.基于深度强化学习的智能作战决策研究[J].兵器装备工程学报,2023,44(S01):198-205.
3周思羽,石瑜,杨文奇,王子健,高丽,高艳丽.基于Cook-Seiford群决策算法的多机协同空战机动决策[J].指挥控制与仿真,2023,45(4):44-51.

计算机应用

2023年第8期

浏览历史

内容加载中请稍等...

基于引导Minimax-DDQN的无人机空战机动决策被引量：4

参考文献13

二级参考文献67

共引文献392

同被引文献22

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于引导Minimax-DDQN的无人机空战机动决策 被引量：4

参考文献13

二级参考文献67

共引文献392

同被引文献22

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于引导Minimax-DDQN的无人机空战机动决策被引量：4