基于强化学习的类人机器人步行参数训练算法被引量：1

Walking Parameters Training Algorithm of Humanoid Robot Based on Reinforcement Learning

下载PDF

导出

摘要基于轨迹规划的类人机器人在合理的参数组合下可实现快速稳定的行走。为优化步行参数,提出一种基于强化学习的步行参数训练算法。对步行参数进行降阶处理,利用强化学习算法优化参数,并设置奖惩机制。在Robocup3D仿真平台上进行实验,结果证明了该算法的有效性。 Aiming at optimizing walking parameters for quick and stable walking of humanoid robot based on trajectory planning method, this paper presents a walking parameters training algorithm based on reinforcement learning. By decreasing the number of walking parameters, the reinforcement learning is applied to optimize these parameters, and the reward and punishment mechanism is given. Experimental results show that the algorithm is feasible in the RoboCup3D simulation platform.

作者梁志伟朱松豪

机构地区南京邮电大学自动化学院东南大学复杂工程系统测量与控制教育部重点实验室

出处《计算机工程》 CAS CSCD 2012年第8期13-15,共3页 Computer Engineering

基金江苏省高校自然科学基金资助项目(10KJB510014) 国家青年自然科学基金资助项目(61104216 60805032) 东南大学复杂工程系统测量与控制教育部重点实验室开放课题基金资助项目(2010A003) 教育部博士点新教师基金资助项目(20103223120003)

关键词类人机器人步行参数强化学习奖惩机制 humanoid robot walking parameter reinforcement learning reward and punishment mechanism

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1孙焘,刘勇,冯林.基于关键帧相似性的仿人机器人步态规划[J].计算机工程,2011,37(13):166-168. 被引量：1
2Huang Qiang,Yokoi K,Kajita S.Planning Walking Patterns for a Biped Robot[J].IEEE Trans.on Robotics and Automation,2001,17(3):280-289. 被引量：1
3Collins S,Wisse M,Ruina A.A Three-dimensional Passive-dynamic Walking Robot with Two Legs and Knees[J].Inter-national Journal of Robotics Research,2001,20(7):607-615. 被引量：1
4Marina L,Sloan R.Reinforcement Learning via Approximation of the Q-function[J].Journal of Experimental and Theoretical Arti-ficial Intelligence,2010,22(3):219-235. 被引量：1
5梶田秀司.类人机器人[M].管贻生,译.北京:清华大学出版社,2007. 被引量：1

二级参考文献4

1胡凌云,孙增圻.双足机器人步态控制研究方法综述[J].计算机研究与发展,2005,42(5):728-733. 被引量：36
2Capi G, Nasu Y, Barolli L, et al. Real Time Gait Generation for Autonomous Humanoid Robots: A Case Study for Walking[J]. Robotics and Autonomous Systems, 2003, 42(2): 107-116. 被引量：1
3汤卿,熊蓉,褚健.基于最优化线性搜索的稳定步态规划方法[J].控制理论与应用,2008,25(4):661-664. 被引量：8
4肖乐,常晋义.仿人机器人下楼梯的自适应模糊控制方法[J].计算机工程,2009,35(13):193-195. 被引量：6

同被引文献1

1夏辉,贾智平,张志勇,Edwin H-M Sha.移动Ad Hoc网络中基于链路稳定性预测的组播路由协议[J].计算机学报,2013,36(5):926-936. 被引量：36

引证文献1

1黄庆东,石斌宇,郭民鹏,袁润芝,陈晨.基于Q-learning的分布式自适应拓扑稳定性算法[J].电子科技大学学报,2020,49(2):262-268. 被引量：3

二级引证文献3

1彭艺,朱桢以,魏翔,谢钊萍.一种基于强化Q学习的跳频交会算法[J].通信技术,2021,54(8):1820-1826. 被引量：1
2张晓慧,张千福,张才俊,林鸿,余锦河.基于随机游走模型的系统运行日志分布式查询方法[J].电子设计工程,2022,30(21):100-103.
3郭方洪,何通,吴祥,董辉,刘冰.基于分布式深度强化学习的微电网实时优化调度[J].控制理论与应用,2022,39(10):1881-1889. 被引量：4

1韩庆瑶,伏冬孝,张志远,赵长梅.双足机器人步行参数对行走稳定性的影响[J].电子世界,2013(11):70-71.
2张慧卿,赵群飞,马培荪,缑正,郑承毅.两足步行椅机器人步行参数对稳定性的影响分析[J].机械科学与技术,2007,26(2):202-205.
3印元军,郭效廷.双足步行机器人下肢最小机构的设计与实现[J].现代计算机（中旬刊）,2015(8):77-80. 被引量：1
4姚千燕,杨宜民.RoboCup3D仿真系统中的机器人自定位方法[J].计算机与现代化,2011(12):141-143. 被引量：2
5张润梅,施国强.Robocup仿真3D世界模型的设计[J].安徽建筑工业学院学报（自然科学版）,2007,15(5):82-85. 被引量：1
6傅汉霖,操凤萍.RoboCup3D机器人定位研究综述[J].电脑知识与技术,2016,0(4):172-174.
7姚千燕.Robocup3D仿真机器人截球技术的研究[J].山东工业技术,2015(11):52-53.
8李军,王润孝,冯华山,赵国斌.四足机器人静步态直线行走规划研究[J].计算机仿真,2009,26(6):183-186. 被引量：3
9冼进,毕盛,庄钟杰.机器人步态算法仿真研究[J].科学技术与工程,2011,11(21):5066-5069. 被引量：2
10赵业锦.受限视觉下RoboCup3D中机器人的定位[J].电子测试,2010,21(4):81-85. 被引量：3

计算机工程

2012年第8期

浏览历史

内容加载中请稍等...

基于强化学习的类人机器人步行参数训练算法被引量：1

参考文献5

二级参考文献4

同被引文献1

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于强化学习的类人机器人步行参数训练算法 被引量：1

参考文献5

二级参考文献4

同被引文献1

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于强化学习的类人机器人步行参数训练算法被引量：1