基于深度强化学习的高速飞行器攻防博弈被引量：2

Attack-Defense Game based on Deep Reinforcement Learning for High Speed Vehicle

下载PDF

导出

摘要针对高速飞行器与拦截器的攻防博弈问题,研究了一种基于双深度Q网络(DDQN)的改进算法。该算法针对经典DDQN样本利用效率低的问题,设置多个经验池,并将一轮对抗中Q值的累积时序差分误差(TD-error)与累积奖励值相结合,通过模糊推理计算样本存储至不同经验池中的概率。再根据累积奖励的时序差分误差设计积分抽样器,从不同经验池中抽取样本进行训练。模型的奖励函数设计原则为在成功突防的基础上减少自身机械能消耗。实验结果表明,相比于经典DDQN算法,改进算法能够有效提高样本利用效率,为解决高速飞行器机动突防问题提供了一种新思路。 Aiming at the attack-defense game between high speed aircraft and the interceptor, an improved DDQN is researched for high speed aircraft. The algorithm is aimed at the low utilization efficiency of sample in classical DDQN, by setting up multi-experience replay buffer,and combining accumulate Q-value temporal difference error(TD-error) with accumulate reward, the samples by fuzzy reasoning are classified and stored. Then, according to the training process, integral sampler and sampling form different experience replay buffer are designed The design principle of reward function is to reduce its mechanical energy consumption on the basis of successful penetration. The results show that the utilization efficiency of samples is improved by using this algorithm which provides a new idea to solve high speed aircraft maneuver penetration problem.

作者何湘远尘军郭昊余卓阳田博 He Xiangyuan;Chen Jun;Guo Hao;Yu Zhuoyang;Tian Bo(Science and Technology on Space Physics Laboratory,Beijing 100076,China)

机构地区空间物理重点实验室

出处《航天控制》 CSCD 北大核心 2022年第4期76-83,共8页 Aerospace Control

关键词高速飞行器拦截器改进DDQN 模糊推理攻防博弈 High speed aircraft Interceptor Improved DDQN Fuzzy reasoning Attack-defense game

分类号 TJ765.3 [兵器科学与技术—武器系统与运用工程] V448 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献16

1孙增圻,邓志东,张再兴编著..智能控制理论与技术第2版[M].北京:清华大学出版社,2011:433.
2（中国）肖智清..强化学习原理与Python实现[M].北京:机械工业出版社,2019:239.
3赵英男,刘鹏,赵巍,唐降龙.深度Q学习的二次主动采样方法[J].自动化学报,2019,45(10):1870-1882. 被引量：16
4王淳宝,叶东,孙兆伟,孙楚琦.航天器末端拦截自适应博弈策略[J].宇航学报,2020,41(3):309-318. 被引量：6
5鲜勇,田海鹏,王剑,史金倩.基于微分对策的导弹智能机动突防研究[J].飞行力学,2014(1):70-73. 被引量：13
6王雨琪,宁国栋,王晓峰,郝明瑞,王江华.基于微分对策的临近空间飞行器机动突防策略[J].航空学报,2020(S02):69-78. 被引量：14
7张科南,周浩,陈万春.高超声速飞行器多约束多种机动突防模式弹道规划[J].弹道学报,2012,24(3):85-90. 被引量：16
8刘薇,龚海华.国外高超声速飞行器发展历程综述[J].飞航导弹,2020(3):20-27. 被引量：21
9谭浪,巩庆海,王会霞.基于深度强化学习的追逃博弈算法[J].航天控制,2018,36(6):3-8. 被引量：12
10高昂,董志明,叶红兵,宋敬华,郭齐胜.基于深度强化学习的巡飞弹突防控制决策[J].兵工学报,2021,42(5):1101-1110. 被引量：17

二级参考文献93

1崔平远,秦同,朱圣英.火星动力下降自主导航与制导技术研究进展[J].宇航学报,2020,41(1):1-9. 被引量：18
2王亚帆,周韬,陈万春,赫泰龙.基于脱靶量级数解的最优机动突防策略[J].北京航空航天大学学报,2020,46(1):159-169. 被引量：5
3刘鲁华,汤国建,余梦伦.圆轨道近程自主交会轨道设计[J].宇航学报,2007,28(3):653-658. 被引量：13
4庞艳珂,韩磊,张民权,张明明,武冰.攻击型巡飞弹技术现状及发展趋势[J].兵工学报,2010,31(S2):149-152. 被引量：36
5袁俊.导弹防御系统的弹道导弹突防[J].上海航天,2005,22(1):48-51. 被引量：9
6张克,刘永才,关世义.多智能体系统在导弹攻防对抗仿真中应用的可行性研究[J].战术导弹技术,2001(6):59-65. 被引量：8
7查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
8雍恩米,唐国金,罗亚中.弹道导弹中段机动突防制导问题的仿真研究[J].导弹与航天运载技术,2005(4):13-18. 被引量：18
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10郭美芳,范宁军,袁志华.巡飞弹战场运用策略[J].兵工学报,2006,27(5):944-947. 被引量：15

共引文献580

1方俊逸,陈国良.追捕条件下旋翼无人机逃脱方法研究[J].数字制造科学,2023(2):114-119.
2傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
3刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：42
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
9倪炜霖,王永海,徐聪,赤丰华,梁海朝.基于强化学习的高超飞行器协同博弈制导方法[J].航空学报,2023,44(S02):55-66.
10胡艳艳,张莉,夏辉,张乃文,鄢镕易.不完全信息下基于微分对策的机动目标协同捕获[J].航空学报,2022,43(S01):53-64. 被引量：4

同被引文献15

1张秋华,孙毅,黄明明,段广仁.近地共面轨道上两飞行器在径向连续小推力下的追逃界栅[J].控制与决策,2007,22(5):530-534. 被引量：13
2常燕,陈韵,鲜勇,雷刚.机动目标的空间交会微分对策制导方法[J].宇航学报,2016,37(7):795-801. 被引量：7
3汤奕,李梦雅,王琦,倪明.电力信息物理系统网络攻击与防御研究综述(二)检测与保护[J].电力系统自动化,2019,43(10):1-9. 被引量：35
4杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：49
5Jian Li,Chaowei Sun,Qingyu Su.Analysis of cascading failures of power cyber-physical systems considering false data injection attacks[J].Global Energy Interconnection,2021,4(2):204-213. 被引量：5
6周新民,吴佳晖,贾圣德,王文林.无人机空战决策技术研究进展[J].国防科技,2021,42(3):33-41. 被引量：10
7施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：52
8ZENG Xin,ZHU Yanwei,YANG Leping,ZHANG Chengming.A guidance method for coplanar orbital interception based on reinforcement learning[J].Journal of Systems Engineering and Electronics,2021,32(4):927-938. 被引量：4
9况立群,李思远,冯利,韩燮,徐清宇.深度强化学习算法在智能军事决策中的应用[J].计算机工程与应用,2021,57(20):271-278. 被引量：6
10邓勇,彭敏放,刘靖雯.电力信息物理系统建模和信息攻击机制分析[J].电力系统及其自动化学报,2021,33(10):10-17. 被引量：14

引证文献2

1李达,尚涛,高雪芹,刘建伟.基于深度强化学习的电力CPS联合防御方案[J].电力信息与通信技术,2023,21(9):23-29. 被引量：2
2王若冰,王晓芳.一种结合MADDPG和对比学习的无人机追逃博弈方法[J].宇航学报,2024,45(2):262-272.

二级引证文献2

1程凤敏.基于深度强化学习的自动特征提取模型研究[J].电子质量,2024(4):11-15.
2向紫燕.基于改进智能优化算法的自主导航物流小车路径决策方法[J].集成电路与嵌入式系统,2024,24(9):74-80.

1陈园,周丽,马剑辰,姚波,凌志豪.一种基于预测函数的滑模控制方法[J].控制工程,2022,29(7):1285-1294. 被引量：2
2王琳蒙,王玉惠,陈谋,刘昊天.基于改进麻雀算法的非完备信息博弈策略研究[J].吉林大学学报（信息科学版）,2022,40(4):589-599. 被引量：4
3朱雅萌,张海瑞,周国峰,梁卓,吕瑞.一种基于深度强化学习的机动博弈制导律设计方法[J].航天控制,2022,40(3):28-36. 被引量：2
4李咏华,张立,刘嘉睿,黄峥,胡梓凯,廖世旺.领航-跟随型多移动小车滑模编队控制[J].重庆理工大学学报（自然科学）,2022,36(7):18-27. 被引量：3
5王珂,姚建国,余佩遥,杨胜春,钟海旺,严嘉豪.基于深度强化学习的电网前瞻调度智能决策架构及关键技术初探[J].中国电机工程学报,2022,42(15):5430-5438. 被引量：16
6詹敏,王铮,赵燕伟,任设东,汪磊.基于产品参数基元网络的变更传播路径优化[J].计算机集成制造系统,2022,28(8):2545-2556. 被引量：1
7卞佩伦,包学才,谭文群,康忠祥.基于Q-Learning算法的能量获取传感网络自适应监测能效优化方法[J].南昌工程学院学报,2022,41(4):58-65.
8罗逸轩,刘建华,胡任远,张冬阳,卜冠南.融合经验共享Q学习的粒子群优化算法[J].计算机科学与探索,2022,16(9):2151-2162. 被引量：2
9张怀念,周焰,梁复台,张晨.一种基于经验模态分解的弹道群目标关联算法[J].火力与指挥控制,2022,47(7):138-141. 被引量：1
10郭柏苍,王胤霖,谢宪毅,金立生,韩广德.基于人-车风险状态的人机共驾控制权决策方法[J].中国公路学报,2022,35(3):153-165. 被引量：3

航天控制

2022年第4期

浏览历史

内容加载中请稍等...

基于深度强化学习的高速飞行器攻防博弈被引量：2

参考文献16

二级参考文献93

共引文献580

同被引文献15

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的高速飞行器攻防博弈 被引量：2

参考文献16

二级参考文献93

共引文献580

同被引文献15

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的高速飞行器攻防博弈被引量：2