基于强化学习的倒立摆分数阶梯度下降RBF控制被引量：2

Reinforcement learning based fractional gradient descent RBF neural network control of inverted pendulum

导出

摘要为了提高强化学习的控制性能,提出一种基于分数梯度下降RBF神经网络的强化学习算法.通过评价神经网络和执行神经网络组成强化学习系统,利用神经网络记忆和联想,学会控制倒立摆,提高控制精度,使误差趋于零,直至学习成功,并证明闭环系统的稳定性.通过倒立摆的物理实验发现,当分数阶阶数较大,微分的作用更显著,对角速度和速度的控制效果更好,角速度和速度的均方误差和平均绝对误差较小;当分数阶阶数较小,积分的作用更显著,对倾斜角和位移的控制效果更好,因此倾斜角和位移的均方误差和平均绝对误差较小.仿真实验的结果表明,所提算法动态响应好,超调量小,调整时间短,精度高,泛化性能好.它优于基于RBF神经网络的强化学习算法和传统强化学习算法,能有效地加快梯度下降法的收敛速度,提高其控制性能.在引入适当的干扰后,所提算法能够快速地自我调节并恢复稳定状态,控制器的鲁棒性和动态性能满足实际要求. In order to improve the control performance of reinforcement learning,a reinforcement learning algorithm based on the fractional gradient descent RBF neural network is proposed.Based on the evaluation neural network and action neural network,the reinforcement learning system uses neural network memory and association,and learns to control the inverted pendulum.The control accuracy is improved with the error tending to zero until the learning is successful.The stability of the closed-loop system is proved.The physical experiment of inverted pendulum is carried out.It is pointed that when the fractional order is large,the differential effect is more significant,the control effect of diagonal velocity and velocity is better,and the mean square error and mean absolute error of angular velocity and velocity are smaller.When the fractional order is small,the effect of integral is more significant,and the control effect on tilt angle and displacement is better.The results indicate that the algorithm has good dynamic response,small overshoot,short adjustment time,high precision and good generalization performance.It is superior to the reinforcement learning algorithm based on the RBF neural network and the traditional reinforcement learning algorithm.It can effectively accelerate the convergence speed of the gradient descent method and improve its control performance.After introducing appropriate disturbance,the controller can quickly self-adjust and recover the stable state.The robustness and dynamic performance of the controller meet the actual requirements.

作者薛晗邵哲平方琼林刘晓佳 XUE Han;SHAO Zhe-ping;FANG Qiong-lin;LIU Xiao-jia(Institute of Navigation,Jimei University,Xiamen 361021,China)

机构地区集美大学航海学院

出处《控制与决策》 EI CSCD 北大核心 2021年第1期125-134,共10页 Control and Decision

基金国家自然科学基金项目(51579114) 福建省自然科学基金项目(2018J05085).

关键词强化学习径向基神经网络倒立摆分数阶梯度下降神经网络控制 reinforcement learning RBF neural network inverted pendulum fractional order gradient descent neural network control

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1Quan Liu,Xin Zhou,Fei Zhu,Qiming Fu,Yuchen Fu.Experience Replay for Least-Squares Policy Iteration[J].IEEE/CAA Journal of Automatica Sinica,2014,1(3):274-281. 被引量：1

同被引文献16

1赵文龙,曹博,杜浩藩,彭洁.USB控制器CY7C68013在便携式倒立摆中的应用[J].实验室研究与探索,2011,30(8):41-44. 被引量：4
2韩亚军.基于线性二次最优LQR的直线倒立摆控制系统研究分析[J].电气传动自动化,2012,34(3):22-25. 被引量：3
3彭继慎,刘盼,宋立业.倒立摆的神经网络自适应滑模控制[J].控制工程,2018,25(11):1976-1981. 被引量：14
4党宏社,陶亚凡,张选德.基于混合注意力与强化学习的文本摘要生成[J].计算机工程与应用,2020,56(1):185-190. 被引量：7
5王婧.基于图学习的社会网络图像标签排序算法[J].计算机工程与设计,2020,41(2):417-424. 被引量：2
6王志晟,张雪敏,梅生伟.基于非线性状态依赖Riccati方程的直线倒立摆一致性控制[J].控制理论与应用,2020,37(4):739-746. 被引量：2
7于树友,褚建新,王银敏.一阶旋转倒立摆输出反馈控制[J].实验技术与管理,2020,37(3):165-170. 被引量：7
8李锋,陈勇,王家序,汤宝平.基于强化学习单元匹配循环神经网络的滚动轴承状态趋势预测[J].计算机集成制造系统,2020,26(8):2050-2059. 被引量：4
9潘培贤,邹兆年,李发明.历史图上基于CSR结构的PageRank算法[J].计算机科学,2020,47(9):88-93. 被引量：1
10易磊,张蓉,邓春花,尹仕.基于直线倒立摆的自控实验平台研究[J].实验技术与管理,2021,38(1):99-104. 被引量：7

引证文献2

1韩治国,陈能祥,许锦,李伟.基于BP神经网络的倒立摆智能控制研究[J].实验技术与管理,2021,38(6):101-106. 被引量：10
2陈娜.基于图神经网络的复杂网络关键节点检测算法[J].无线电工程,2023,53(1):64-72. 被引量：1

二级引证文献11

1杜克拯,乔纯上,夏竹君.基于BP神经网络的气测录井解释方法[J].石油和化工设备,2021,24(12):24-27. 被引量：1
2宋吉超,宋卓宇,周成才,杨金森.智能化高空作业平台安全控制策略研究[J].现代工业经济和信息化,2022,12(5):65-66. 被引量：2
3石转转,郭开玺,张品,张占东.基于MPC的二阶倒立摆稳定控制[J].自动化与仪表,2022,37(9):13-19. 被引量：3
4董如意,刘亚男.改进遗传算法及其在倒立摆控制中应用研究[J].吉林化工学院学报,2022,39(9):33-36. 被引量：2
5方杰,张杰,马娟,田翔,于秀针,冯斌.基于神经网络PID算法的优化饲料配制系统[J].新疆农业科学,2023,60(4):1003-1010.
6郭欣,殷子龙,陈瑛,吴玉佳.基于改进PSO-BP神经网络的教学质量评价模型[J].现代电子技术,2023,46(12):146-152. 被引量：4
7刘佳伟,宋楠,董文琦,曹玉波.倒立摆控制系统优化与实时仿真[J].化工自动化及仪表,2023,50(4):453-458.
8郑嘉龙,杨鸽.基于BP神经网络的DMA漏损定位仿真实验设计[J].大学物理实验,2023,36(6):93-97. 被引量：1
9杨迪,冀明,张博,杨凯,李军伟.基于无向加权的智能用电指挥系统重要节点检测技术研究[J].粘接,2024,51(3):181-184.
10段宇,付莹贞,苏涛勇,肖金平,刘子杰,彭翼杰.基于滚球倒立摆模型对新型自平衡车载人研究[J].机械设计与制造工程,2024,53(3):34-38.

1闫茹玉,刘学亮.结合自底向上注意力机制和记忆网络的视觉问答模型[J].中国图象图形学报,2020,25(5):993-1006. 被引量：13
2刘辉(文/图).《失踪女孩》:正义不应缺席[J].检察风云,2020(13):96-96.
3温海茹,陈雯柏.一种基于DCNN-LSTM混合模型的RUL预测方法[J].兵器装备工程学报,2020,41(12):87-92. 被引量：5
4杨晶晶,陈天丽,吴雅兰,覃宏涛.神经元活动基因编码指示剂的研究进展[J].基因组学与应用生物学,2020(9):3996-4002. 被引量：1
5周绍洪,刘世荣.涂布纸色相调整方法及其影响因素[J].纸和造纸,2020,39(6):1-3. 被引量：1
6范志成.一种基于TRIZ的定向定位夹紧装置的研究[J].科技成果管理与研究,2021(1):49-51.

控制与决策

2021年第1期

浏览历史

内容加载中请稍等...

基于强化学习的倒立摆分数阶梯度下降RBF控制被引量：2

参考文献1

同被引文献16

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于强化学习的倒立摆分数阶梯度下降RBF控制 被引量：2

参考文献1

同被引文献16

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于强化学习的倒立摆分数阶梯度下降RBF控制被引量：2