基于鲁棒观测器的深度强化学习垂直起降运载器姿态稳定研究

Robust observer-based deep reinforcement learning for attitude stabilization of vertical takeoff and landing vehicle

下载PDF

导出

摘要针对考虑弹性振动、模型不确定干扰下的垂直起降运载器姿态稳定问题,将鲁棒观测器和深度强化学习中的近端策略优化算法相结合,研究了一种基于鲁棒观测器的近端策略优化(robust observer-based proximal policy optimization,ROB-PPO)方法。该方法设计鲁棒观测器重构受弹性振动干扰的运载器姿态信息,将鲁棒观测器与运载器动力学模型组成环境,将鲁棒观测器得到的重构姿态作为深度强化学习算法的状态,使得深度强化学习智能体与之不断交互,从而训练智能体控制运载器姿态稳定。仿真结果表明,所研究的ROB-PPO算法相较于目前常用的自适应模糊比例-积分-微分(proportional-integral-derivative,PID)算法鲁棒性更强,收敛速度更快。最后,在自主研制的垂直起降运载器上验证了所提出算法有效性。 A robust observer-based proximal policy optimization(ROB-PPO)control method,which combines a robust observer and a proximal policy optimization in the deep reinforcement learning algorithm,is studied for the attitude stabilization problem of vertical takeoff and landing vehicles under the consideration of elastic vibration and model uncertainty disturbance.The method designs the robust observer to reconstruct the carrier attitude information disturbed by elastic vibration,composes the environment of the robust observer and the carrier dynamics model,and takes the reconstructed attitude obtained by the robust observer as the state of the deep reinforcement learning algorithm,so that the deep reinforcement learning intelligent body continuously interacts with it,thus training the intelligent body to control the carrier attitude stabilization.The simulation results show that the studied ROB-PPO algorithm is more robust and converges faster than the adaptive fuzzy proportional-integral-derivative(PID)algorithm commonly used today.Finally,the effectiveness of the proposed algorithm is verified on a self-developed vertical takeoff and landing vehicle.

作者李彦铃罗飞舟葛致磊 LI Yanling;LUO Feizhou;GE Zhilei(School of Astronautics,Northwestern Polytechnical University,Xi’an 710072,China;China Academy of Launch Vehicle Technology,Beijing 100076,China)

机构地区西北工业大学航天学院中国运载火箭技术研究院

出处《系统工程与电子技术》 EI CSCD 北大核心 2024年第3期1038-1047,共10页 Systems Engineering and Electronics

关键词垂直起降运载器姿态控制鲁棒观测器深度强化学习 vertical takeoff and landing vehicle attitude control robust observer deep reinforcement learning

分类号 V448.113 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献7

1贾振宇,刘子龙.一种通过强化学习的四旋翼姿态控制算法[J].小型微型计算机系统,2021,42(10):2074-2078. 被引量：4
2WAN Kaifang,LI Bo,GAO Xiaoguang,HU Zijian,YANG Zhipeng.A learning-based flexible autonomous motion control method for UAV in dynamic unknown environments[J].Journal of Systems Engineering and Electronics,2021,32(6):1490-1508. 被引量：3
3裴培,何绍溟,王江,林德福.一种深度强化学习制导控制一体化算法[J].宇航学报,2021,42(10):1293-1304. 被引量：25
4章胜,周攀,何扬,黄江涛,刘刚,唐骥罡,贾怀智,杜昕.基于深度强化学习的空战机动决策试验[J].航空学报,2023,44(10):117-130. 被引量：5
5徐世东..挠性航天器振动抑制及姿态模糊控制方法研究[D].哈尔滨工业大学,2018:
6李学锋著..运载火箭飞行控制系统设计与验证[M].北京:国防工业出版社,2014:199.
7付宇鹏,邓向阳,何明,朱子强,张立民.基于强化学习的固定翼飞机姿态控制方法[J].控制与决策,2023,38(9):2505-2510. 被引量：1

二级参考文献33

1郭妍,吴美平,唐康华,王雪莹.基于积分反步法的四旋翼飞行器控制设计[J].智能科学与技术学报,2019,0(2):133-139. 被引量：4
2董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：11
3查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
4王嘉,高正红.飞机航路飞行的自动飞行仿真[J].飞行力学,2008,26(1):75-78. 被引量：8
5钟友武,柳嘉润,杨凌宇,申功璋.自主近距空战中机动动作库及其综合控制系统[J].航空学报,2008,29(B05):114-121. 被引量：23
6舒怀林.PID神经元网络对强耦合带时延多变量系统的解耦控制[J].控制理论与应用,1998,15(6):920-924. 被引量：56
7董卓宁,张汝麟,陈宗基,周锐.Study on UAV Path Planning Approach Based on Fuzzy Virtual Force[J].Chinese Journal of Aeronautics,2010,23(3):341-350. 被引量：12
8薛羽,庄毅,张友益,倪思如,赵学健.基于启发式自适应离散差分进化算法的多UCAV协同干扰空战决策[J].航空学报,2013,34(2):343-351. 被引量：22
9张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：19
10黄诘,张友安,刘永新.一种有撞击角和视场角约束的运动目标的偏置比例导引算法[J].宇航学报,2016,37(2):195-202. 被引量：34

共引文献33

1邵会兵,詹韬,付京博.弱模型依赖通用智能姿态控制技术[J].上海航天（中英文）,2022,39(4):66-75. 被引量：3
2李博皓,安旭曼,杨晓飞,吴云洁,李国飞.攻击角度约束下的分布式强化学习制导方法[J].宇航学报,2022,43(8):1061-1069. 被引量：3
3武天才,王宏伦,刘一恒,任斌,余跃.基于深度强化学习与高度速率反馈的再入制导方法[J].无人系统技术,2022,5(4):1-13. 被引量：2
4杨顿,杨帅,于洋,王琪.基于深度强化学习的复杂地形适应机器人设计与实验[J].宇航学报,2022,43(9):1176-1185. 被引量：1
5张远,黄万伟,聂莹,路坤锋.一种高速可变形飞行器智能变形决策方法[J].宇航学报,2022,43(12):1665-1675. 被引量：1
6田欣然,邵星灵,张飞.基于非线性自抗扰的四旋翼姿态控制[J].无人系统技术,2022,5(6):86-93. 被引量：1
7吴健发,魏春岭,张海博.航天器反应式碎片规避动作规划方法[J].宇航学报,2023,44(2):221-232. 被引量：4
8郭建国,梁乐成,周敏,蒋瑞民.高速飞行器俯冲段制导控制一体化综述[J].航空兵器,2023,30(1):1-10. 被引量：2
9胥彪,赵琛钰,李爽,朱东方.基于深度强化学习的高超声速飞行器动态面控制方法[J].飞控与探测,2023,6(1):15-23. 被引量：1
10唐进,梁彦刚,白志会,黎克波.基于DQN的旋翼无人机着陆控制算法[J].系统工程与电子技术,2023,45(5):1451-1460. 被引量：1

1张伟,邱秉钊,高升.基于Lipschitz非线性系统的早期微弱FDAI[J].计算机仿真,2023,40(10):445-451.
2李亚梅,李莉,屈晖,高春燕.血脂NT-proBNP及心电图在早期鉴别诊断不完全川崎病与感染性疾病中的临床意义[J].黑龙江中医药,2023,52(3):11-13.
3赵莉,李炜,李亚洁.自适应事件触发通信机制下机理解析与数据驱动融合的ICPS双重安全控制[J].控制与决策,2024,39(1):206-218.
4苗凌童,卢翼.基于PID的大面积建筑室内恒温性自整定控制[J].计算机仿真,2023,40(12):369-373.
5徐俣长,张扬,叶志龙,谢凤英,臧云朝,杨光,袁洪.一种结合角距特征的改进栅格星图识别算法[J].导航定位与授时,2024,11(1):97-105.
6鲁宇,杨颜博.改进孪生网络无人机跟踪算法在牛场中的应用[J].黑龙江畜牧兽医,2024(2):33-42.
7杨桂华,戴志诚.基于机器视觉的铝塑泡罩药品包装检测研究[J].电子测量技术,2023,46(20):140-147.
8韩爱国,宋福豪,田韶鹏,张纯瑞.燃料电池系统建模与供气系统控制方法[J].江苏大学学报（自然科学版）,2024,45(2):147-153.
9金之帆,杨会君,张建锋.基于改进指数幂趋近律的机械臂轨迹跟踪控制[J].计算机仿真,2023,40(12):476-480. 被引量：1
10吉建华,苗长云,李现国,刘意,姬政海.基于PSO带式输送机PID控制器参数智能整定的适应度函数设计[J].机械工程学报,2023,59(22):444-456. 被引量：4

系统工程与电子技术

2024年第3期

浏览历史

内容加载中请稍等...

基于鲁棒观测器的深度强化学习垂直起降运载器姿态稳定研究

参考文献7

二级参考文献33

共引文献33

相关作者

相关机构

相关主题

浏览历史