基于模糊强化学习的双轮机器人姿态平衡控制被引量：9

Attitude balance control of two-wheeled robot based on fuzzy reinforcement learning

下载PDF

导出

摘要针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题,提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法。首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型。然后,在此基础上设计表格型强化学习算法,实现机器人的稳定平衡控制。最后,针对算法存在的控制精度不高和控制器输出离散等问题,采用模糊理论泛化动作空间,改善控制精度,并使控制输出连续。仿真实验表明,相较于传统强化学习方法,所提方法能够显著提高控制精度,且可以有效抑制外界干扰力矩对系统的影响,保证系统具有一定的抗干扰能力。 In order to solve the inherent problem of static instability of monorail two-wheel robot under resting conditions,a control method of monorail two-wheel robot based on fuzzy reinforcement learning(Fuzzy-Q in short)is proposed.Firstly,the Lagrange method is used to establish the system dynamics model with control moment gyro.And then,on this basis,the tabular reinforcement learning algorithm is designed to realize the stable balance control of the robot.Finally,In order to solve the problems of low control accuracy and discretization of controller output,the fuzzy theory is used to generalize the action space,improve the control accuracy and make the control output continuous.The simulation results show that compared with the traditional reinforcement learning methods,the proposed Fuzzy-Q method can significantly improve the control accuracy,effectively inhibit the influence of external interference torque on the system,and ensure that the system has a great anti-interference capability.

作者闫安陈章董朝阳何康辉 YAN An;CHEN Zhang;DONG Chaoyang;HE Kanghui(School of Aeronautic Science and Engineering,Beihang University,Beijing 100191,China;Department of Automation,Tsinghua University,Beijing 100084,China)

机构地区北京航空航天大学航空科学与工程学院清华大学自动化系

出处《系统工程与电子技术》 EI CSCD 北大核心 2021年第4期1036-1043,共8页 Systems Engineering and Electronics

基金国家自然科学基金(61833016,61873295) 航空人工智能专项基金(2018ZA51003)资助课题。

关键词强化学习模糊强化学习模糊算法控制力矩陀螺单轨双轮机器人 reinforcement learning fuzzy reinforcement learning fuzzy algorithm control moment gyro monorail two-wheeled robot

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献11

1张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
2郭磊,黄用华,廖启征,魏世民.自平衡自行车机器人的运动学分析[J].北京邮电大学学报,2011,34(6):99-102. 被引量：14
3李润泽,张宇飞,陈海昕.超临界机翼多目标气动优化设计的策略与方法[J].航空学报,2020,41(5):160-170. 被引量：7
4蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
5宁一高,岳明,许媛,于紫龙.基于IMU/UWB的两轮自平衡车轨迹跟踪控制器设计与实现[J].控制与决策,2019,34(12):2635-2641. 被引量：6
6贾英宏,赵楠,徐世杰.控制力矩陀螺驱动的空间机器人轨迹跟踪控制[J].北京航空航天大学学报,2014,40(3):285-291. 被引量：7
7张晓路,李斌,常健,唐敬阁.水下滑翔蛇形机器人滑翔控制的强化学习方法[J].机器人,2019,41(3):334-342. 被引量：8
8邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：29
9王囡囡,熊佳铭,刘才山.自行车动力学建模及稳定性分析研究综述[J].力学学报,2020,52(4):917-927. 被引量：3
10Xinxing LI,Zhihong PENG,Lei JIAO,Lele XI,Junqi CAI.Online adaptive Q-learning method for fully cooperative linear quadratic dynamic games[J].Science China(Information Sciences),2019,62(12):148-161. 被引量：7

二级参考文献82

1Draguna VRABIE,Frank LEWIS.Adaptive dynamic programming for online solution of a zero-sum differential game[J].控制理论与应用（英文版）,2011,9(3):353-360. 被引量：10
2李成革,黄剑,王永骥.轮式倒立摆系统的动态面控制研究[J].华中科技大学学报（自然科学版）,2013,41(S1):25-28. 被引量：2
3谭苗,吴益飞,陈扬,郭毓.电磁导引的两轮自平衡移动机器人设计[J].华中科技大学学报（自然科学版）,2013,41(S1):249-253. 被引量：9
4王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
5魏彤,房建成.磁悬浮控制力矩陀螺的动框架效应及其角速率前馈控制方法研究[J].宇航学报,2005,26(1):19-23. 被引量：33
6刘延柱.自行车的受控运动[J].力学与实践,1995,17(4):39-42. 被引量：14
7王澄泓,汪希平,吴明贵.电磁推力轴承刚度非线性的研究[J].机械科学与技术,2005,24(9):1058-1061. 被引量：3
8俞建成,张奇峰,吴利红,张艾群.水下滑翔机器人运动调节机构设计与运动性能分析[J].机器人,2005,27(5):390-395. 被引量：22
9田希晖,房建成,刘刚.一种磁悬浮飞轮增益预调交叉反馈控制方法[J].北京航空航天大学学报,2006,32(11):1299-1303. 被引量：13
10魏彤,房建成.磁悬浮控制力矩陀螺动框架效应的FXLMS自适应精确补偿控制方法仿真研究[J].宇航学报,2006,27(6):1205-1210. 被引量：9

共引文献124

1朱威,郭宪,方勇纯,张学有.可重构模块化蛇形机器人研制及多运动模态研究[J].信息与控制,2020,49(1):69-77. 被引量：12
2孔德肖,王甲一,李俊萩,张晴晖,强振平.基于四元数的两轮自平衡车控制系统研究[J].电子测量技术,2023,46(21):49-54.
3窦春红,黄明键,王中华,王新江.倒立摆系统及其控制策略研究现状[J].中南大学学报（自然科学版）,2003,34(z1):96-99.
4周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
5蔡增威,刘德春,张晓华.一种基于鲁棒性设计的一阶倒立摆双闭环控制方法[J].自动化技术与应用,2004,23(4):11-15. 被引量：4
6王瑞霞,孙亮,阮晓刚.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140. 被引量：4
7张玉梅,阮晓钢.一种生长型神经网络的倒立摆控制方案[J].微计算机信息,2005,21(11S):91-93. 被引量：1
8徐学军,伍铁斌,李文.基于混沌PID的倒立摆控制[J].湘潭师范学院学报（自然科学版）,2006,28(1):15-19. 被引量：1
9张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
10王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3

同被引文献77

1安长俊,周家婕.基于模糊控制倒立板自适应控制研究[J].冶金管理,2020(19):29-30. 被引量：1
2黄加俊,卿兆波,张珠耀,李想.基于激光SLAM的全方位移动机器人控制系统设计[J].科技通报,2020(7):81-85. 被引量：19
3洪振宇,赵冲,张志旭,张聪,彭松伟.机场行李装载机器人的轨迹规划研究[J].机械设计,2020,37(3):101-106. 被引量：7
4彭苗娇,吴惠松,林麒,周凡桂,柳汀,王晓光.考虑绳阻尼的绳系并联机器人动力学特性分析[J].北京航空航天大学学报,2020,46(2):304-313. 被引量：3
5常钢,魏生民,张建龙.基于有向图的站坪控制仿真建模技术研究[J].航空计算技术,2006,36(3):108-110. 被引量：1
6沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
7郭文成,师五喜,郭利进.一类不确定非线性系统的自适应模糊控制[J].系统工程与电子技术,2010,32(2):351-354. 被引量：6
8赵欣,欧剑.一种模糊控制器的设计方法[J].绵阳师范学院学报,2011,30(5):29-34. 被引量：1
9朱新平,汤新民,韩松臣.A-SMGCS滑行道冲突预测与避免控制[J].南京航空航天大学学报,2011,43(4):504-510. 被引量：23
10钱志鸿,刘丹.蓝牙技术数据传输综述[J].通信学报,2012,33(4):143-151. 被引量：75

引证文献9

1王宽田,李鹏,周光祥.基于径向基神经网络的爬壁机器人姿态调节控制方法[J].国外电子测量技术,2023,42(2):60-65.
2疏利生,李桂芳,嵇胜.基于强化学习的航空器机场智能静态路径规划[J].航空工程进展,2021,12(3):65-70. 被引量：6
3鲍广喜.二级倒立摆DE优化控制[J].太原师范学院学报（自然科学版）,2021,20(3):43-47.
4韩明仁,王玉峰.基于强化学习的全电推进卫星变轨优化方法[J].系统工程与电子技术,2022,44(5):1652-1661. 被引量：1
5孙家辉,吴涛.基于模糊控制的智能家居控制系统研究与设计[J].现代电子技术,2022,45(16):161-164. 被引量：5
6陈恺丰,田博睿,李和清,赵晨阳,陆祖兴,李新德,邓勇.基于DDPG算法的双轮腿机器人运动控制研究[J].系统工程与电子技术,2023,45(4):1144-1151. 被引量：6
7董慧,张华.基于运动微分方程的搬运机器人姿态控制器设计[J].机械与电子,2023,41(3):50-54.
8刘畅.不同负载电压的欠驱动移动机器人姿态平衡控制[J].江西电力职业技术学院学报,2023,36(3):9-11.
9吴彦宝,乔立春,陈楠,郭阳.CTU机器人装载轨迹自适应模糊滑模控制方法[J].自动化与仪表,2023,38(6):51-56.

二级引证文献18

1崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14.
2夏正洪,贾鑫磊.离港航空器滑出时间的BP神经网络预测模型[J].航空工程进展,2022,13(2):99-106. 被引量：3
3鲁力,刘晨宇.雷暴天气下的仪表进近航段航线规划研究[J].航空工程进展,2022,13(2):150-158.
4苏庭文,徐川,朱新平.机场机动区滑行道运行方案设计及仿真评估[J].航空工程进展,2022,13(4):155-161.
5向征,何雨阳,全志伟.流量拥堵空域内一种基于Q-Learning算法的改航路径规划[J].科学技术与工程,2022,22(32):14494-14501.
6李俊圣,岳龙飞,左家亮,俞利新,赵家乐.基于深度强化学习的多无人机协同进攻作战智能规划[J].航空工程进展,2022,13(6):40-49. 被引量：1
7吴丽琴.现代电子技术在灯光控制中的应用探讨[J].光源与照明,2023(1):36-38. 被引量：2
8姚江昕,邓为权.航空活塞发动机起动过程喷油参数的模糊控制研究[J].现代电子技术,2023,46(11):131-138.
9李游,吕微露.基于IDL通用接口的智能家居语音交互控制系统设计[J].现代电子技术,2023,46(17):57-60. 被引量：1
10刘育玮,程玉强,吴建军.航天推进系统中的智能控制方法研究进展[J].航空学报,2023,44(15):187-206. 被引量：2

1龚事引,李丹.基于粒子群优化的磁悬浮球系统的模糊强化学习控制[J].石河子科技,2021(1):41-43. 被引量：3
2黄强,唐杰,林立,王源明,朱群峰.双闭环PID控制的两轮平衡小车设计与实现[J].邵阳学院学报（自然科学版）,2020,17(3):35-39. 被引量：5
3祁凯,韦晓玉,郑瑞.基于系统动力学模型的政务短视频网络舆情动力演化分析[J].情报理论与实践,2021,44(3):115-121. 被引量：26
4熊雪婷.某妇幼保健院278例患者微信用药咨询的分析与体会[J].中国医药科学,2020,10(24):245-247.
5俞建荣,张业帅,马丽梅,刘强,徐康.新型双圈无刷直流电机智能PID控制[J].航天控制,2021,39(1):26-31. 被引量：3
6齐成龙.基于达索平台CAA架构的桥梁基础BIM建模及审核工具开发[J].结构工程师,2020,36(6):214-220. 被引量：8
7徐留明,吴金文,于磊磊.基于自适应模糊算法的电气设备温度控制技术[J].浙江水利水电学院学报,2021,33(1):74-78. 被引量：6
8李威,鲁铁定,贺小星,刘瑞.Prophet模型在GNSS坐标时间序列中的插值分析[J].大地测量与地球动力学,2021,41(4):362-367. 被引量：2
9朱德文.双轿厢电梯动态运行的强化学习算法配置[J].中国电梯,2021,32(4):25-32.
10金瑜,李冬咏,郑丽,叶敏慧,熊焱青,李维维.老年病人下肢肌肉力量训练依从性影响因素分析[J].全科护理,2021,19(8):1136-1139.

系统工程与电子技术

2021年第4期

浏览历史

内容加载中请稍等...

基于模糊强化学习的双轮机器人姿态平衡控制被引量：9

参考文献11

二级参考文献82

共引文献124

同被引文献77

引证文献9

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于模糊强化学习的双轮机器人姿态平衡控制 被引量：9

参考文献11

二级参考文献82

共引文献124

同被引文献77

引证文献9

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于模糊强化学习的双轮机器人姿态平衡控制被引量：9