基于深度强化学习的追逃博弈算法被引量：12

Pursuit-Evasion Game Algorithm Based on Deep Reinforcement Learning

下载PDF

导出

摘要在未来的局部战争中,导弹攻防对抗将成为一个重要的作战样式。用智能小车的追逃来模拟导弹攻防对抗过程,并以深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法为原型,以视距和视线角为状态,借鉴PID控制思想设计回报函数,提出了一种追逃博弈算法。该算法分别在数学仿真和智能小车实物上进行了验证,实验结果表明算法可以有效地控制小车使其完成追捕任务,并且具有很好的适应性。 The process of attack-defense interaction for guided missiles will be a much important part in the future local war.imulat the attack-defense interaction of missiles with the pursuit-evasion game of intelligent mini-car,a method for solving the pursuit-evasion game,which is based on the eep eterministic olicy radient (DDPG)lgorithm.The state vectors of this method are the distance and the angular of ine f ight ).The reward function is designed by referencing the method of PID controller.The mathematical simulations and experiments of ursuit-vasion game have been done to prove the method,and the results show that it cannot only effectively control the mini-car to complete its mission of capturing the evader,but also has well adaptability.

作者谭浪巩庆海王会霞 Tan Lang;Gong Qinghai;Wang Huixia(Beijing Aerospace Automatic Control Institute,Beijing 100854,China;National Key Laboratory of Science and Technology on Aerospace Intelligence Control,Beijing 100854,China)

机构地区北京航天自动控制研究所宇航智能控制技术国家级重点实验室

出处《航天控制》 CSCD 北大核心 2018年第6期3-8,19,共7页 Aerospace Control

基金国家自然科学基金(61773341)

关键词导弹攻防对抗追逃博弈深度强化学习 DDPG Attack -defense interaction Pursuit -evasion game Deep reinforcement learning DDPG

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1赵秀娜,袁泉,马宏绪,黄茜薇.机动弹头中段突防姿态的搜索算法研究[J].航天控制,2007,25(4):13-16. 被引量：3
2李龙跃,刘付显,史向峰,梅颖颖.导弹攻防对抗中追逃对策模型与配点求解法[J].系统工程与电子技术,2016,38(5):1067-1073. 被引量：5
3张克,刘永才,关世义.多智能体系统在导弹攻防对抗仿真中应用的可行性研究[J].战术导弹技术,2001(6):59-65. 被引量：8

二级参考文献13

1雍恩米,唐国金,罗亚中.弹道导弹中段机动突防制导问题的仿真研究[J].导弹与航天运载技术,2005(4):13-18. 被引量：18
2钱方,周健,邹鹏.分布式系统中的OO技术:OMG的CORBA[J].计算机科学,1996,23(2):76-79. 被引量：8
3程国采.弹道导弹制导方法与最优控制[M].长沙:国防科技大学出版社,1987.. 被引量：19
4韩京清.拦截问题中的导引率[M].国防工业出版社,1977. 被引量：1
5Shinar J,Steinberg D.Analysis of Optimal Evasive Maneuvers Based on Linearized Two-dimensional Kinematic Model[C].AIAA-76-1979,AIAA Guidance Navigation and Control Conference.1976:546-554. 被引量：1
6Shinar J,Shima T.A Game Theoretic Interceptor Guidance Law for Ballistic Missile Defense[M].1996:2780-2785. 被引量：1
7Guelman M.Qualitative Study of a Planar Pursuit Evasion Game in the Atmosphere[J].Journal of Guidance.1990,13:1136-1142. 被引量：1
8Shinar J.Requirements for a New Guidance Law Against Maneuvering Tactical Ballistic Missiles[R].N97-31922,AD-A328964,1997. 被引量：1
9贾沛然.远程导弹弹道学[M].国防科技大学出版社,1993. 被引量：1
10刘弘,曾广周,林宗楷.软件Agent的构筑[J].计算机科学,1998,25(2):24-28. 被引量：32

共引文献13

1高文坤,张克,殷志宏.基于Agent的多精确制导武器协同攻击效能评估研究[J].系统仿真学报,2008,20(2):546-549. 被引量：7
2关世义.飞行力学研究的新进展——飞行器攻防对抗研究评述[J].中国科学（E辑）,2009,39(3):568-574. 被引量：4
3张克,高文坤,关世义,殷志宏.攻防对抗仿真在武器装备体系论证中的若干问题研究[J].中国科学（E辑）,2009,39(3):583-589. 被引量：8
4吕艳,李彬,周华.一种基于零射程线的变轨方向选择方法[J].弹箭与制导学报,2016,36(2):18-20.
5李龙跃,刘付显,史向峰,王菊.导弹追逃博弈微分对策建模与求解[J].系统工程理论与实践,2016,36(8):2161-2168. 被引量：3
6王靖瑶.卫星导航定位技术在高空气象探测系统中的应用研究[J].自动化与仪器仪表,2016(9):96-98.
7周诚,李伟伟,马媛媛,李千目.基于马尔可夫攻防模型的电力信息光网安全策略加固[J].科学技术与工程,2017,17(11):79-83. 被引量：3
8赵琳,周俊峰,刘源,郝勇.三维空间“追-逃-防”三方微分对策方法[J].系统工程与电子技术,2019,41(2):322-335. 被引量：3
9郑健,陈建,朱琨.基于多智能体强化学习的无人集群协同设计[J].指挥信息系统与技术,2020,11(6):26-31. 被引量：9
10樊博璇,陈桂明,林洪涛.弹道导弹中段反应式机动突防规避策略[J].兵工学报,2022,43(1):69-78. 被引量：4

同被引文献81

1王雨琪,宁国栋,王晓峰,郝明瑞,王江华.基于微分对策的临近空间飞行器机动突防策略[J].航空学报,2020(S02):69-78. 被引量：14
2刘鲁华,汤国建,余梦伦.圆轨道近程自主交会轨道设计[J].宇航学报,2007,28(3):653-658. 被引量：13
3Draguna VRABIE,Frank LEWIS.Adaptive dynamic programming for online solution of a zero-sum differential game[J].控制理论与应用（英文版）,2011,9(3):353-360. 被引量：10
4Amanda LAMPTON,John VALASEK,Mrinal KUMAR.Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J].控制理论与应用（英文版）,2011,9(3):431-439. 被引量：1
5查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
6张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
7方有培,汪立萍,赵霜.从改进型“爱国者”看TBM突防技术[J].航天电子对抗,2006,22(4):5-7. 被引量：2
8吴启星,张为华.弹道导弹中段机动突防研究[J].宇航学报,2006,27(6):1243-1247. 被引量：12
9张秋华,赵小津,孙毅.空间飞行器在视线坐标系中的追逃界栅[J].航天控制,2007,25(1):26-30. 被引量：8
10闫双卡,谭守林,滕和平,王剑.提高巡航导弹突防能力的技术途径[J].飞航导弹,2009(4):26-29. 被引量：5

引证文献12

1方俊逸,陈国良.追捕条件下旋翼无人机逃脱方法研究[J].数字制造科学,2023(2):114-119.
2徐东宇,王淳宝,赵硕,叶东.多星博弈拦截Nash和Pareto策略研究[J].航天控制,2019,37(4):41-46. 被引量：1
3张秦浩,敖百强,张秦雪.Q-learning强化学习制导律[J].系统工程与电子技术,2020,42(2):414-419. 被引量：21
4吴子沉,胡斌.基于态势认知的无人机集群围捕方法[J].北京航空航天大学学报,2021,47(2):424-430. 被引量：10
5朱雅萌,张海瑞,周国峰,梁卓,吕瑞.一种基于深度强化学习的机动博弈制导律设计方法[J].航天控制,2022,40(3):28-36. 被引量：2
6何湘远,尘军,郭昊,余卓阳,田博.基于深度强化学习的高速飞行器攻防博弈[J].航天控制,2022,40(4):76-83. 被引量：2
7闫博为,杜润乐,班晓军,周荻.基于深度Q网络的多智能体逃逸算法设计[J].导航定位与授时,2022,9(6):40-47.
8马少捷,惠俊鹏,王宇航,张旋.变形飞行器深度强化学习姿态控制方法研究[J].航天控制,2022,40(6):3-10. 被引量：1
9王琪,廖志忠.在线自适应动态规划计算智能博弈导引律[J].航天控制,2022,40(6):39-45. 被引量：1
10樊博璇,陈桂明,韩磊,李冰.导弹突防后弹道机动调整策略强化学习[J].国防科技大学学报,2024,46(2):94-103.

二级引证文献38

1范之琳,杨洪勇,韩艺琳.基于强化学习的多智能体系统目标围捕控制[J].航空学报,2023,44(S01):236-245. 被引量：3
2方洋旺,邓天博,符文星.智能制导律研究综述[J].无人系统技术,2020,3(6):36-42. 被引量：4
3柳絮润,姚文杰.基于Policy Gradient的自动驾驶仪控制参数设计[J].自动化与仪器仪表,2021(2):1-4. 被引量：1
4岳杰顺,权晓波,叶舒然,王静竹,王一伟.水下发射水动力的多尺度预测网络研究[J].力学学报,2021,53(2):339-351. 被引量：4
5刘峰,魏瑞轩,丁超,姜龙亭,李天.面向多机协同的Att-MADDPG围捕控制方法设计[J].空军工程大学学报（自然科学版）,2021,22(3):9-14. 被引量：3
6汪韧,惠俊鹏,俞启东,李天任,杨奔.基于LSTM模型的飞行器智能制导技术研究[J].力学学报,2021,53(7):2047-2057. 被引量：5
7朱建文,赵长见,李小平,包为民.基于强化学习的集群多目标分配与智能决策方法[J].兵工学报,2021,42(9):2040-2048. 被引量：22
8侯贤乐,李辉,王壮,吴昭欣,文瀚.基于DDPG算法的导弹末制导律设计[J].战术导弹技术,2021(4):110-116. 被引量：3
9张阳康,孙晨,泮斌峰.行星软着陆GPS有模型强化学习制导方法[J].飞控与探测,2021,4(5):34-43. 被引量：2
10裴培,何绍溟,王江,林德福.一种深度强化学习制导控制一体化算法[J].宇航学报,2021,42(10):1293-1304. 被引量：25

1商巍,赵涛,环夏,陈明,陈世富.导弹武器系统协同作战研究[J].战术导弹技术,2018(2):31-35. 被引量：20
2苗涛,杨毅,南英.导弹动态可攻击区实时在线算法研究[J].飞行力学,2018,36(2):39-43. 被引量：8
3王军,周厚成.步步惊心之追逃“六部曲”[J].派出所工作,2018,0(C01):5-7.
4谢经纬,陈万春.基于概率模型的攻防效能估算与仿真分析[J].导弹与航天运载技术,2017(4):1-5. 被引量：1
5简讯[J].西安电子科技大学学报,2018,45(6):62-62.
6杨永刚,王天林,赵岩.高素质士兵方阵快速崛起[J].解放军生活,2018,0(12):14-14.
7杨贤聪.基于单片机的光电循迹小车设计[J].电子技术与软件工程,2019(2):246-246. 被引量：3
8于大玮(编辑).追捕网络小偷[J].少先队员（知识路）,2019,0(1):30-32.
9李国豪.基于3D CNN-DDPG端到端无人驾驶控制[J].电子设计工程,2018,26(22):156-159. 被引量：4
10王晓东.国际追逃追赃视野下的我国刑事缺席审判制度[J].法律适用,2018,0(23):28-39. 被引量：19

航天控制

2018年第6期

浏览历史

内容加载中请稍等...

基于深度强化学习的追逃博弈算法被引量：12

参考文献3

二级参考文献13

共引文献13

同被引文献81

引证文献12

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的追逃博弈算法 被引量：12

参考文献3

二级参考文献13

共引文献13

同被引文献81

引证文献12

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的追逃博弈算法被引量：12