基于深度强化学习与旋量法的机械臂路径规划被引量：2

Path planning of manipulator based on deep reinforcement learning and screw method

下载PDF

导出

摘要深度强化学习在机械臂路径规划的应用中仍面临样本需求量大和获取成本高的问题.针对这些问题,本文基于数据增强的思路,提出了深度强化学习与旋量法的融合算法.本算法通过旋量法将与环境交互所得的自然轨迹进行有效复制,使深度强化学习样本利用率和算法训练效率得到提高;复制轨迹的同时对被控物体、障碍物等环境元素进行同步复制,以此提高机械臂在非结构环境中的泛化性能.最后,在具备物理模拟引擎的Mujoco仿真平台中,通过Fetch机械臂和UR5机械臂在非结构化环境下进行实验对比分析,结果表明了本文算法对于提升深度强化学习样本利用率和机械臂模型泛化性能的可行性及有效性. The application of deep reinforcement learning in manipulator path planning still faces the problems of large sample demand and high acquisition cost.Aiming at these problems,a fusion algorithm of deep reinforcement learning and screw method based on the idea of data enhancement is proposed in this paper.In this algorithm,the natural trajectory from interaction with environment is effectively copied by the screw method,which improves the sample utilization of deep reinforcement learning and the training efficiency of the algorithm.Environmental elements such as the controlled objects and obstacles are synchronously copied while copying trajectories to improve the generalization performance of the robotic arm in non-structural environments.Finally,experimental comparisons are carried out by Fetch manipulator and UR5 manipulator in the unstructured environment in the Mujoco simulation platform with physical simulation engine.The results show that the proposed algorithm is feasible and effective to improve sample utilization of deep reinforcement learning and generalization performance of the manipulator model.

作者王寅王永华尹泽中万频 WANG Yin;WANG Yong-hua;YIN Ze-zhong;WAN Pin(College of Automation,Guangdong University of Technology,Guangzhou Guangdong 510006,China)

机构地区广东工业大学自动化学院

出处《控制理论与应用》 EI CAS CSCD 北大核心 2023年第3期516-524,共9页 Control Theory & Applications

基金国家自然科学基金项目(61971147) 广东省研究生教育创新计划项目(2020JGXM040)资助。

关键词强化学习机械臂旋量法数据增强 reinforcement learning manipulator screw method data enhancement

分类号 TP241 [自动化与计算机技术—检测技术与自动化装置] TP18 [自动化与计算机技术—控制科学与工程]

引文网络
相关文献

参考文献2

1唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：92
2赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131

二级参考文献122

1MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533. 被引量：1
2SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489. 被引量：1
3AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102. 被引量：1
4TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219. 被引量：1
5SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998. 被引量：1
6KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232. 被引量：1
7KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293. 被引量：1
8LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451. 被引量：1
9BELLMAN R. Dynamic programming and Lagrange multipliers[J]. Proceedings of the National Academy of Sciences, 1956,42(10): 767 – 769. 被引量：1
10WERBOS P J. Advanced forecasting methods for global crisis warningand models of intelligence [J]. General Systems Yearbook, 1977,22(12): 25 – 38. 被引量：1

共引文献209

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：48
2姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
3舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
4卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
5高佳明,张丽,蒋梅.个税改革下资源型省份家庭金融资产投资决策研究[J].金融发展评论,2024(3):80-95.
6高志强,张荣荣.面向战术边缘的联合智能体系设计[J].火箭军工程大学学报,2021(3):19-23.
7庄宝玲,陈文列.偶发分枝杆菌的超微结构初步观察[J].福建医药杂志,2000,22(1):181-182. 被引量：2
8程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：121
9张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
10侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：39

同被引文献19

1杜明博,梅涛,陈佳佳,赵盼,梁华为,黄如林,陶翔.复杂环境下基于RRT的智能车辆运动规划算法[J].机器人,2015,37(4):443-450. 被引量：99
2李洋,徐达.基于引力自适应步长RRT的双臂机器人协同路径规划[J].机器人,2020,42(5):606-616. 被引量：36
3陈满意,张桥,张弓,梁济民,侯至丞,杨文林,徐征,王建.多障碍环境下机械臂避障路径规划[J].计算机集成制造系统,2021,27(4):990-998. 被引量：34
4何亚辉.基于改进蚁群算法的物流配送路径规划算法[J].计算机与数字工程,2021,49(5):920-924. 被引量：9
5王芸博.基于改进正余双弦算法的电商物流配送路径规划[J].太原学院学报（自然科学版）,2021,39(2):68-74. 被引量：1
6房立金,吴政翰,王怀震.基于改进RRT^(*)FN算法的机械臂多场景运动规划[J].中国机械工程,2021,32(21):2590-2597. 被引量：10
7许万,杨晔,余磊涛,朱力.一种基于改进RRT*的全局路径规划算法[J].控制与决策,2022,37(4):829-838. 被引量：33
8绳红强,黄海英,崔毅刚.基于A*蚁群融合算法的避障路径规划研究[J].机电工程技术,2022,51(7):45-49. 被引量：12
9杨婕妤,崔秀娟,颜洁.生鲜农产品冷链物流配送问题及路径规划--以S公司为例[J].物流科技,2022,45(17):147-152. 被引量：3
10石宪闪,苗鸿宾,张伟.基于改进粒子群算法的六自由度机械臂时间最优轨迹规划[J].机床与液压,2023,51(1):20-25. 被引量：13

引证文献2

1解晓乐.基于深度强化学习的智慧物流园区长途配送路径规划方法[J].广州航海学院学报,2024,32(1):30-34.
2刘玉炜,王义娜,杨俊友.基于蚁群-双向RRT节点剔除的机械臂路径规划方法[J].机器人技术与应用,2024(6):20-27.

1朱明,朱嘉慧.平稳电路的分类与旋量法解算[J].电工技术,2023(3):85-96. 被引量：4
2韩玉辉,刘宁.UR5机器人焊接轨迹规划及运动学分析[J].现代制造技术与装备,2023,59(2):18-20.
3肖权,郭斌,向国菲,马丛俊,廖亮,佃松宜.基于随机采样的多段柔性机械臂路径规划[J].组合机床与自动化加工技术,2023(3):28-34. 被引量：2
4李康宇,王西峰,徐斌,姬丽娟,耿牛牛.非结构化环境下基于外观的闭环检测研究综述[J].机器人,2023,45(2):238-256. 被引量：3
5吴茵.斯克拉夫的瓶子巡逻[J].英语画刊（高级）,2023(9):8-8.
6刘华.苗绣文本的叙事功能和意义[J].大众文艺（学术版）,2023(2):87-89.
7高春艳,陶渊,吕晓玲,张明路.非结构化环境下巡检机器人环境感知技术研究综述[J].传感器与微系统,2023,42(4):10-13. 被引量：3
8朱小梅,张锦,于航.“生态文明建设思想”指导的工程伦理课程思政元素分析[J].吉林教育,2023(5):65-66. 被引量：1
9宋德萱,童晓泉,周伊利.百叶型外遮阳对建筑光热能耗影响的优化探讨[J].住宅科技,2023,43(2):35-41. 被引量：2
10刘新,尹康达,寇海川.基于GA-GRNN的地震震级预测模型[J].华北地震科学,2023,41(2):37-42. 被引量：1

控制理论与应用

2023年第3期

浏览历史

内容加载中请稍等...

基于深度强化学习与旋量法的机械臂路径规划被引量：2

参考文献2

二级参考文献122

共引文献209

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习与旋量法的机械臂路径规划 被引量：2

参考文献2

二级参考文献122

共引文献209

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习与旋量法的机械臂路径规划被引量：2