期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于环境反馈机制的四足机器人运动技能学习
1
作者 张思远 朱晓庆 +2 位作者 阮晓钢 李春阳 刘鑫源 《控制与决策》 EI CSCD 北大核心 2024年第5期1461-1468,共8页
哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励... 哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励引导的强化学习算法(DSG-SAC),利用环境中的状态反馈机制来引导四足机器人进行有效探索,可以提高四足机器人仿生步态学习效果,并提高训练效率.在该算法中,策略网络与评价网络先近似拟合期望状态观测与当前状态的误差,再经过当前状态的正反馈后输出评价函数与动作,使四足机器人朝着期望的方向动作.将所提出算法在四足机器人上进行验证,通过实验结果可知,所提出的算法能够完成四足机器人的仿生步态学习.进一步,设计消融实验来探讨超参数温度系数和折扣因子对算法的影响,实验结果表明,改进后的算法具有比单纯的SAC算法更加优越的性能. 展开更多
关键词 强化学习 四足机器人 仿生步态学习 环境探索 状态反馈引导
原文传递
基于状态反馈的导弹非线性H_2/H_∞鲁棒制导律
2
作者 桑保华 《弹道学报》 EI CSCD 北大核心 2009年第4期56-59,共4页
为了研究导弹导引规律的鲁棒性,将L2增益理论与H∞控制方法相结合,视导弹在追踪平面内的非线性运动学问题为有限时间内的混合H2/H∞问题.基于非线性二次型两人非零和微分对策理论,通过解李雅普诺夫稳定意义下的一对耦合哈密顿-雅可比偏... 为了研究导弹导引规律的鲁棒性,将L2增益理论与H∞控制方法相结合,视导弹在追踪平面内的非线性运动学问题为有限时间内的混合H2/H∞问题.基于非线性二次型两人非零和微分对策理论,通过解李雅普诺夫稳定意义下的一对耦合哈密顿-雅可比偏微分不等式,得到了弹目相对运动的状态反馈纳什平衡点,由此得到了一种新型鲁棒制导律.仿真结果表明,与基于L2增益理论的鲁棒制导律相比,该制导中具有更小的H2性能指标,较H∞制导律具有更强的鲁棒性. 展开更多
关键词 导弹 状态反馈 鲁棒制导律 混合H2/H∞ 两人非零和微分对策 纳什平衡点
下载PDF
Three-dimensional nonlinear H_2/H_∞ guidance law based upon approach of solving the state feedback Nash balance point
3
作者 桑保华 姜长生 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2010年第3期383-388,共6页
Based upon the theory of the nonlinear quadric two-person nonzero-sum differential game,the fact that the time-limited mixed H2/H∞ control problem can be turned into the problem of solving the state feedback Nash bal... Based upon the theory of the nonlinear quadric two-person nonzero-sum differential game,the fact that the time-limited mixed H2/H∞ control problem can be turned into the problem of solving the state feedback Nash balance point is mentioned. Upon this,a theorem about the solution of the state feedback control is given,the Lyapunov stabilization of the nonlinear system under this control is proved,too. At the same time,this solution is used to design the nonlinear H2/H∞ guidance law of the relative motion between the missile and the target in three-dimensional(3D) space. By solving two coupled Hamilton-Jacobi partial differential inequalities(HJPDI),a control with more robust stabilities and more robust performances is obtained. With different H∞ performance indexes,the correlative weighting factors of the control are analytically designed. At last,simulations under different robust performance indexes and under different initial conditions and under the cases of intercepting different maneuvering targets are carried out. All results indicate that the designed law is valid. 展开更多
关键词 nonlinear system mixed H2/H∞ control state feedback Nash balance point two-person nonzero-sum differential game three-dimensional guidance law
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部