基于Transformer的机器人像素级抓取位姿检测

Pixel-level grasping pose detection for robots based on Transformer

下载PDF

导出

摘要机器人抓取检测一直是机器人领域的研究热点,但机器人在复杂环境下执行多物体抓取任务时面临位姿估计不准确的问题。为了解决这一问题,提出了一种基于Transformer的抓取检测模型——PTGNet(pyramid Transformer grasp network)。PTGNet采用具有金字塔池化结构和多头自注意力机制的Transformer模块,其中,金字塔池化结构能够对特征图进行分割和池化,以捕获不同层次的语义信息并降低计算复杂度,多头自注意力机制通过强大的特征提取能力有效地提取全局信息,使得PTGNet更适用于视觉抓取任务。为了验证PTGNet的性能,基于不同数据集对PTGNet进行训练和测试,并在仿真和真实物理环境下基于PTGNet开展机械臂抓取实验。结果表明,PTGNet在Cornell数据集和Jacquard数据集上的准确率分别为98.2%和94.8%,表现出具有竞争力的优异性能;在多目标数据集下,相比于其他检测模型,PTGNet具有优秀的泛化能力;在PyBullet仿真环境下开展的单对象和多对象抓取实验中,机械臂的平均抓取成功率分别达到了98.1%和96.8%;在真实物理环境下开展的多对象抓取实验中,机械臂的平均抓取成功率为93.3%。实验结果验证了PTGNet在复杂环境中预测多物体抓取位姿的有效性和优越性。 Robot grasping detection has always been a research focus in the field of robotics,but the robot faces the problem of inaccurate pose estimation when performing multi-object grasping tasks in complex environments.In order to improve this problem,a Transformer based grasping detection model called PTGNet(pyramid Transformer grasp network)was proposed.The PTGNet adopted Transformer modules with pyramid pooling structure and multi-head self-attention mechanism.The pyramid pooling structure could segment and pool feature maps to capture semantic information at different levels and reduce computational complexity,and the multi-head self-attention mechanism effectively extracted global information through powerful feature extraction capabilities,making PTGNet more suitable for visual grasping tasks.In order to verify the performance of the PTGNet,the training and testing for PTGNet were conducted based on different datasets,and the robot arm grasping experiments based on PTGNet were carried out in both simulated and real physical environments.The results showed that the accuracy of PTGNet on Cornell dataset and Jacquard dataset was 98.2%and 94.8%,respectively,showing excellent competitive performance.Compared with other detection models,the PTGNet had excellent generalization ability in multi-target datasets.In the single-object and multi-object grasping experiments conducted in the PyBullet simulation environment,the average grasping success rate of the robot arm reached 98.1%and 96.8%,respectively.In the multi-object grasping experiments conducted in the real physical environment,the average grasping success rate of the robot arm was 93.3%.The experimental results demonstrate the effectiveness and superiority of PTGNet in predicting multi-object grasping pose in complex environment.

作者俞青松徐向荣刘胤真 YU Qingsong;XU Xiangrong;LIU Yinzhen(School of Mechanical Engineering,Anhui University of Technology,Maanshan 243032,China)

机构地区安徽工业大学机械工程学院

出处《工程设计学报》 CSCD 北大核心 2024年第2期238-247,共10页 Chinese Journal of Engineering Design

基金国家重点研发计划资助项目(2017YFE0113200)。

关键词 TRANSFORMER 金字塔池化抓取检测多头自注意力 Transformer pyramid pooling grasp detection multi-head self-attention

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1卢进南,刘扬,王连捷,杨润坤,丁振志.基于改进Mask Scoring R-CNN的铲齿磨损检测研究[J].工程设计学报,2022,29(3):309-317. 被引量：3
2李明,鹿朋,朱龙,朱美强,邹亮.基于RGB-D融合的密集遮挡抓取检测[J].控制与决策,2023,38(10):2867-2874. 被引量：6
3楚红雨,冷齐齐,张晓强,常志远,邵延华.融入注意力机制的多模特征机械臂抓取位姿检测[J].控制与决策,2024,39(3):777-785. 被引量：5

二级参考文献15

1蔡彪,沈宽,付金磊,张理泽.基于Mask R-CNN的铸件X射线DR图像缺陷检测研究[J].仪器仪表学报,2020,41(3):61-69. 被引量：40
2曹辉,杨理践,刘俊甫,刘斌.基于数据融合的小波变换漏磁异常边缘检测[J].仪器仪表学报,2019,40(12):71-79. 被引量：29
3薛岚燕,刘杜鹃,陈艺慧.基于Canny边缘检测和外观特征的微血管瘤检测方法[J].现代电子技术,2017,40(6):103-108. 被引量：10
4冯家文,张立民,邓向阳.基于多源融合FCN的图像分割[J].计算机应用研究,2018,35(9):2877-2880. 被引量：10
5刘政怡,段群涛,石松,赵鹏.基于多模态特征融合监督的RGB-D图像显著性检测[J].电子与信息学报,2020,42(4):997-1004. 被引量：16
6宋浒,张利,许梦晗,胡心颖.基于形态学和小波变换的图像边缘检测方法[J].西南大学学报（自然科学版）,2020,42(4):105-111. 被引量：19
7秦晓飞,盛凯,朱玥,杨勇,赵刚,贾程,李成名,鲁小东,周坚风.基于注意力模型的人脸关键点检测算法[J].光学仪器,2020,42(2):45-49. 被引量：4
8李晖晖,周康鹏,韩太初.基于CReLU和FPN改进的SSD舰船目标检测[J].仪器仪表学报,2020,41(4):183-190. 被引量：42
9陈晓文,刘光帅,刘望华,李旭瑞.结合LoG边缘检测和增强局部相位量化的模糊图像识别[J].计算机科学,2020,47(12):197-204. 被引量：10
10刘亚欣,王斯瑶,姚玉峰,杨熹,钟鸣.机器人抓取检测技术的研究现状[J].控制与决策,2020,35(12):2817-2828. 被引量：25

共引文献8

1卢进南,刘扬,王连捷,黎洛.基于改进YOLOX的电铲铲齿断裂检测方法[J].电子测量与仪器学报,2023,37(5):46-57. 被引量：3
2刘怡然,李丽君,杜月云.Delaunay三角剖分的汽车螺旋锥齿轮磨损检测[J].机械设计与制造,2024(1):285-288.
3孙先涛,江汪洋,陈文杰,陈伟海,智亚丽.基于感兴趣区域的物体抓取位姿检测[J].系统工程与电子技术,2024,46(6):1867-1877.
4张蕾,张森晖,严松,袁媛.基于深度学习的目标检测及机械臂抓取[J].西安工程大学学报,2024,38(4):65-72.
5孙先涛,闻勇,陈文杰,智亚丽,胡祥涛,陈伟海.基于语义分割与旋转目标检测的机器人抓取位姿估计[J].控制与决策,2024,39(9):2913-2922.
6陈仁祥,邱天然,杨黎霞,张芷僮,夏亮.基于空间信息聚合的遮挡目标抓取位姿检测[J].光学精密工程,2024,32(18):2792-2802.
7王勇,李邑灵,苗夺谦,安春艳,袁鑫林.基于Transformer-CNN混合架构的跨模态融合抓取检测[J].控制与决策,2024,39(11):3607-3616.
8陈泳斌,程良伦.基于多物理特征的抓取检测方法[J].动力系统与控制,2024,13(2):45-53. 被引量：1

1王利祥,郭向伟,卢明星.FPN算法在视觉感知机器人抓取控制的应用研究[J].机械设计与制造,2024(4):303-307.
2张少乐,雷涛,王营博,周强,薛明园,赵伟强.基于多尺度金字塔Transformer的人群计数方法[J].智能系统学报,2024,19(1):67-78.
3李钰龙,梁新武.融合注意力机制和多任务学习的机器人抓取检测算法[J].哈尔滨工业大学学报,2023,55(12):9-17. 被引量：2
4Xiaofei QIN,Wenkai HU,Chen XIAO,Changxiang HE,Songwen PEI,Xuedian ZHANG.Attention-based efficient robot grasp detection network[J].Frontiers of Information Technology & Electronic Engineering,2023,24(10):1430-1444. 被引量：2
5燕硕,李建松,唐昌松.基于神经网络的工业机器人视觉抓取系统设计[J].计算机测量与控制,2024,32(4):201-209. 被引量：1
6丁威,夏哲,舒江鹏,叶建龙,项贻强.基于负压吸附爬壁机器人和Transformer的混凝土桥塔裂缝识别检测[J].中国公路学报,2024,37(2):53-64. 被引量：1
7石敏,路昊,李兆歆,朱登明,王兆其.Accurate Robotic Grasp Detection with Angular Label Smoothing[J].Journal of Computer Science & Technology,2023,38(5):1149-1161.
8何志鹏.基于全局渲染的特征金字塔网络目标检测算法[J].兰州工业学院学报,2024,31(2):24-28.
9Xinyang Song,Zhen Hua,Jinjiang Li.GMTS: GNN-based multi-scale transformer siamese network for remote sensing building change detection[J].International Journal of Digital Earth,2023,16(1):1685-1706.

工程设计学报

2024年第2期

浏览历史

内容加载中请稍等...

基于Transformer的机器人像素级抓取位姿检测

参考文献3

二级参考文献15

共引文献8

相关作者

相关机构

相关主题

浏览历史