行星软着陆GPS有模型强化学习制导方法被引量：2

Guidance Method of Planetary Soft Landing with GPSModel-Based Reinforcement Learning

下载PDF

导出

摘要由于距离地球较远、测控延时误差较大、飞行环境十分复杂且难以提前预测,行星软着陆的自主制导技术目前面临着水平位置估计困难、导航参考信息匮乏、复杂地形着陆困难等挑战。针对行星软着陆存在的困难和挑战,提出了基于引导策略搜索算法的有模型强化学习制导方法,实现了着陆器在初始状态受到扰动时无需重新规划,仍能在满足约束条件的情况下降落在指定位置。该方法首先将迭代线性二次调节器作为控制器,产生初始轨迹;其次,利用多层神经网络拟合制导策略;最后,利用控制器监督策略学习,进而收敛,产生可行策略。针对行星表面软着陆的仿真验证结果显示,该算法仅通过几次循环,即可实现初始状态变化的快速软着陆。该方法一方面表明了基于有模型强化学习的数据的高效利用率,另一方面也证明了强化学习方法在深空探测领域中具有广阔的应用前景。 Due to the distance from the earth,the large delay error in measurement and control system,the complicated flight environment and the difficulty in predicting in advance,the autonomous guidance technology for planetary soft landing currently has challenges such as difficult horizontal position estimation,lack of navigation reference information,and difficult terrain landing.A model-based reinforcement learning guidance method based on guided policy search(GPS)is proposed to this issue,which realizes that when the lander is disturbed in the initial state,there is no need to re-plan,and it can still fall to the specified condition under constraints.In this method,the iterative linear quadratic regulator is used as the controller to generate the initial trajectory;secondly,a multi-layer neural network is used to fit the guidance policy;finally,the controller supervises the policy learning and then converges to generate a feasible policy.This paper takes the soft landing of the planet surface as an example for simulation verification.The simulation results show that the algorithm can achieve soft landing rapidly with the changed initial state only through a few training.On the one hand,it shows the efficient use of data based on model-based reinforcement learning;on the other hand,it also proves that the reinforcement learning method has broad application prospects in the field of deep space exploration.

作者张阳康孙晨泮斌峰 ZHANG Yangkang;SUN Chen;PAN Binfeng(School of Astronautics,Northwestern Polytechnical University,Xi an,710072;National Key Laboratory of Aerospace Flight Dynamics,Xi an,710072)

机构地区西北工业大学航天学院航天飞行动力学技术国家级重点实验室

出处《飞控与探测》 2021年第5期34-43,共10页 Flight Control & Detection

基金装备预研实验室基金(6142210200312)。

关键词迭代线性二次调节器引导策略搜索有模型强化学习行星软着陆 iterative Linear Quadratic Regulator(iLQR) Guided Policy Search(GPS) model-based reinforcement learning planetary soft landing

分类号 TN911.73 [电子电信—通信与信息系统] TP391.9 [电子电信—信息与通信工程]

引文网络
相关文献

参考文献9

1叶斌龙,赵健楠,黄俊.美国2020火星车着陆区遴选进展及对2020中国火星任务着陆探测部分的一些思考[J].深空探测学报,2017,4(4):310-324. 被引量：2
2张瑶..火星探测器动力下降段软着陆制导研究[D].哈尔滨工业大学,2018:
3崔平远,秦同,朱圣英.火星动力下降自主导航与制导技术研究进展[J].宇航学报,2020,41(1):1-9. 被引量：18
4Xinfu Liu,Ping Lu,Binfeng Pan.Survey of convex optimization for aerospace applications[J].Astrodynamics,2017,1(1):23-40. 被引量：36
5Lin Cheng,Zhenbo Wang,Fanghua Jiang.Real-time control for fuel-optimal Moon landing based on an interactive deep reinforcement learning algorithm[J].Astrodynamics,2019,3(4):375-386. 被引量：9
6孙光余..强化学习及其在空中拦截中的应用[D].沈阳工业大学,2004:
7张秦浩,敖百强,张秦雪.Q-learning强化学习制导律[J].系统工程与电子技术,2020,42(2):414-419. 被引量：21
8李天任,杨奔,汪韧,惠俊鹏.基于Q-Learning算法的再入飞行器制导方法[J].战术导弹技术,2019,0(5):44-49. 被引量：10
9张勃..探月飞船返回再入与月面软着陆制导技术研究[D].西北工业大学,2017:

二级参考文献25

1王大轶,黄翔宇,关轶峰,马兴瑞.基于IMU配以测量修正的月球软着陆自主导航研究[J].宇航学报,2007,28(6):1544-1549. 被引量：14
2Amanda LAMPTON,John VALASEK,Mrinal KUMAR.Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J].控制理论与应用（英文版）,2011,9(3):431-439. 被引量：1
3张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
4葛媛,布朋生,刘强.模糊强化学习在机器人导航中的应用[J].信息技术,2009,33(10):127-130. 被引量：5
5崔平远,朱圣英,崔祜涛.小天体软着陆自主光学导航与制导方法研究[J].宇航学报,2009,30(6):2159-2164. 被引量：13
6李惠峰,谢陵.基于预测校正方法的RLV再入制导律设计[J].北京航空航天大学学报,2009,35(11):1344-1348. 被引量：24
7冯军华,崔祜涛,崔平远,田阳.行星表面陨石坑检测与匹配方法[J].航空学报,2010,31(9):1858-1863. 被引量：21
8崔平远,冯军华,朱圣英,崔祜涛.基于三维地形匹配的月球软着陆导航方法研究[J].宇航学报,2011,32(3):470-476. 被引量：14
9张晶晶,周德云,张堃.一种基于强化学习的UAV目标搜索算法[J].计算机应用研究,2011,28(10):3659-3661. 被引量：4
10CHEN ChunLin,DONG DaoYi,LI Han-Xiong,TARN Tzyh-Jong.Hybrid MDP based integrated hierarchical Q-learning[J].Science China(Information Sciences),2011,54(11):2279-2294. 被引量：9

共引文献83

1宋征宇,王聪.运载火箭返回着陆在线轨迹规划技术发展[J].宇航总体技术,2019,0(6):1-12. 被引量：19
2Wei DONG,Qiuqiu WEN,Qunli XIA,Shengjiang YANG.Multiple-constraint cooperative guidance based on two-stage sequential convex programming[J].Chinese Journal of Aeronautics,2020,33(1):296-307. 被引量：11
3金小千.原发性输尿管癌12例报告[J].实用癌症杂志,2000,15(1):36-36.
4刘延杰,朱圣英,崔平远.序列凸优化的小天体附着轨迹优化[J].宇航学报,2018,29(2):177-183. 被引量：16
5宋征宇,王聪,巩庆海.运载火箭上升段推力下降故障的自主轨迹规划方法[J].中国科学：信息科学,2019,49(11):1472-1487. 被引量：30
6E ZhiBo,GUZZETTI Davide.Multi-revolution low-thrust trajectory optimization using symplectic methods[J].Science China(Technological Sciences),2020,63(3):506-519. 被引量：5
7马卫华,禹春梅,路坤锋,柳嘉润,司文杰,李文婷.“会学习”运载火箭的制导控制技术[J].航天控制,2020,38(2):3-8. 被引量：15
8程林,蒋方华,李俊峰.深度学习在飞行器动力学与控制中的应用研究综述[J].力学与实践,2020,42(3):267-276. 被引量：18
9刘洁,董献洲,韩维,王昕炜,刘纯,贾珺.采用牛顿迭代保辛伪谱算法的舰载机甲板路径规划[J].浙江大学学报（工学版）,2020,54(9):1827-1838. 被引量：8
10王越,王彪,王汛,潘辰安,姚佩雯,李晨帆,李勃.火星探测任务着陆区选址和地质分析[J].深空探测学报（中英文）,2020,7(4):371-383. 被引量：3

同被引文献25

1吴宏鑫,刘一武,刘忠汉,解永春.Characteristic modeling and the control of flexible structure[J].Science in China(Series F),2001,44(4):278-291. 被引量：19
2陆平,敬忠良,胡士强.载人航天持续发展所需的先进制导控制关键技术[J].载人航天,2011,17(5):25-32. 被引量：7
3崔平远,乔栋,朱圣英,高艾.行星着陆探测中的动力学与控制研究进展[J].航天器环境工程,2014,31(1):1-8. 被引量：8
4张洪华,关轶峰,黄翔宇,李骥,赵宇,于萍,张晓文,杨巍,梁俊,王大轶.嫦娥三号着陆器动力下降的制导导航与控制[J].中国科学：技术科学,2014,44(4):377-384. 被引量：44
5汤涛,周涛.不确定性量化的高精度数值方法和理论献给林群教授80华诞[J].中国科学：数学,2015,45(7):891-928. 被引量：30
6于大腾,王华,周晚萌.考虑空间几何关系的反交会规避机动方法[J].国防科技大学学报,2016,38(6):89-94. 被引量：6
7于大腾,王华,孙福煜.考虑潜在威胁区的航天器最优规避机动策略[J].航空学报,2017,38(1):281-289. 被引量：11
8胡越,罗东阳,花奎,路海明,张学工.关于深度学习的综述与讨论[J].智能系统学报,2019,14(1):1-19. 被引量：141
9袁利,黄煌.空间飞行器智能自主控制技术现状与发展思考[J].空间控制技术与应用,2019,45(4):7-18. 被引量：21
10胡军.自适应预测制导:一种统一的制导方法[J].空间控制技术与应用,2019,45(4):53-63. 被引量：8

引证文献2

1陆鹏飞,王悦,石恒,汤亮.基于深度神经网络的航天器反交会逃逸方法[J].空间控制技术与应用,2022,48(5):56-66. 被引量：1
2刘云昭,王明明,董淼,罗建军.月/火着陆制导方法与考虑不确定性的研究进展[J].飞控与探测,2023,6(6):1-22.

二级引证文献1

1张超,王磊,黄元.面向空间威胁自主规避的航天器资源调度方法[J].空间控制技术与应用,2023,49(2):58-67.

1朱煜.循序渐进,学会预测——三年级上册第四单元整体解读[J].小学语文教学,2021(19):5-6.
2汪虹余,张彧,杨恒,穆楠.基于蚁群优化算法的弱光图像显著性目标检测[J].计算机应用,2021,41(10):2970-2978. 被引量：9
3王恒宜,汪飞.小电容应用下的三角形联结级联H桥STATCOM建模和最优控制器设计[J].电气工程学报,2021,16(3):25-32. 被引量：3
4陈仁祥,周君,胡小林,韩兴波,朱孙科,张晓.基于深度Q学习和连续小波变换的旋转机械故障诊断方法[J].振动工程学报,2021,34(5):1092-1100. 被引量：21
5张明,徐琴.低插入损耗的8 GHz~18 GHz CMOS无源延时线设计[J].电子器件,2021,44(5):1041-1046. 被引量：1
6张瑞林,陈灵,陈燕,周玥,陆宇洁.宿迁市企业创新的影响因素探究[J].内蒙古科技与经济,2021(18):50-51.
7王延灵,卜忱,王建锋,芦士光,冯帅.8m低速风洞虚拟飞行试验技术研究[J].飞行力学,2021,39(5):71-76. 被引量：1
8李玉琼,童蕾,严涵,尤悦,卢钰茜,刘慧.河水-地下水交互带沉积物中抗生素和代谢产物提取方法优化及其分布特征[J].环境科学,2021,42(11):5294-5302. 被引量：3
9钱宇,叶亮.民航运输飞机重着陆研究综述[J].科学技术与工程,2021,21(31):13211-13220. 被引量：4
10刘阳同,殷永霞,孙东华.耐高温复合材料在火星探测器着陆器减速伞筒盖结构上的应用[J].宇航材料工艺,2021,51(5):115-118.

飞控与探测

2021年第5期

浏览历史

内容加载中请稍等...

行星软着陆GPS有模型强化学习制导方法被引量：2

参考文献9

二级参考文献25

共引文献83

同被引文献25

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

行星软着陆GPS有模型强化学习制导方法 被引量：2

参考文献9

二级参考文献25

共引文献83

同被引文献25

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

行星软着陆GPS有模型强化学习制导方法被引量：2