深度强化学习结合图注意力模型求解TSP问题被引量：2

Deep reinforcement learning combined with graph attention model to solve TSP

下载PDF

导出

摘要旅行商问题(Traveling Salesman Problem,TSP)是组合最优化问题(Combinatorial Optimization Problem,COP)中的经典问题,多年以来一直被反复研究.近年来深度强化学习(Deep Reinforcement Learning,DRL)在无人驾驶、工业自动化、游戏等领域的广泛应用,显示了强大的决策力和学习能力.结合DRL和图注意力模型,通过最小化路径长度求解TSP问题.改进REINFORCE算法,训练行为网络参数,可以有效地减小方差,防止局部最优;在编码结构中采用位置编码(Positional Encoding,PE),使多重的初始节点在嵌入的过程中满足平移不变性,可以增强模型的稳定性;进一步结合图神经网络(Graph Neural Network,GNN)和Transformer架构,首次将GNN聚合操作处理应用到Transformer的解码阶段,有效捕捉图上的拓扑结构及点与点之间的潜在关系.实验结果显示,模型在100-TSP问题上的优化效果超越了目前基于DRL的方法和部分传统算法. Traveling Salesman Problem(TSP) is a classic problem in Combinatorial Optimization Problem(COP),which has been repeatedly studied for many years. In recent years,Deep Reinforcement Learning(DRL)has been widely applied in driverless,industrial automation,game and other fields,showing strong decision-making and learning ability. In this paper,DRL and graph attention model are combined to solve TSP by minimizing the path length. Specifically,the behavioral network parameters are trained by an improved REINFORCE algorithm to effectively reduce the variance and prevent local optima;Positional Encoding(PE) is used to the encoding structure to make the multiple node satisfy translation invariance during the embedding process and enhance the stability of the model. Further,we combine Graph Neural Network(GNN) and Transformer architecture,and apply GNN aggregate operation processing to transformer decoding stage for the first time,which effectively capture the topological structure of the graph and the potential relationships between points. The experimental results show that the optimization effect of the model on the 100-TSP problem surpasses the current DRL-based methods and some traditional algorithms.

作者王扬陈智斌杨笑笑吴兆蕊 Wang Yang;Chen Zhibin;Yang Xiaoxiao;Wu Zhaorui(Faculty of Science,Kunming University of Science and Technology,Kunming,650000,China)

机构地区昆明理工大学理学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2022年第3期420-429,共10页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(11761042)。

关键词深度强化学习旅行商问题图注意力模型图神经网络组合最优化 Deep Reinforcement Learning(DRL) Travel Salesman Problem(TSP) graph attention model Graph Neural Network(GNN) Combinatorial Optimization(CO)

分类号 O22 [理学—运筹学与控制论] TP18 [理学—数学]

引文网络
相关文献

参考文献1

1林敏,刘必雄,林晓宇.带Metropolis准则的混合离散布谷鸟算法求解旅行商问题[J].南京大学学报（自然科学版）,2017,53(5):972-983. 被引量：11

二级参考文献17

1罗雪晖,杨烨,李霞.改进混合蛙跳算法求解旅行商问题[J].通信学报,2009,30(7):130-135. 被引量：93
2刘波,蒙培生.采用基于模拟退火的蚁群算法求解旅行商问题[J].华中科技大学学报（自然科学版）,2009,37(11):26-30. 被引量：19
3冀俊忠,黄振,刘椿年,代启国.基于多粒度的旅行商问题描述及其蚁群优化算法[J].计算机研究与发展,2010,47(3):434-444. 被引量：19
4杜占玮,杨永健,孙永雄,张池军.基于互信息的混合蚁群算法及其在旅行商问题上的应用[J].东南大学学报（自然科学版）,2011,41(3):478-481. 被引量：9
5刘荷花,崔超,陈晶.一种改进的遗传算法求解旅行商问题[J].北京理工大学学报,2013,33(4):390-393. 被引量：36
6王李进,尹义龙,钟一文.逐维改进的布谷鸟搜索算法[J].软件学报,2013,24(11):2687-2698. 被引量：89
7张永韡,汪镭,吴启迪.动态适应布谷鸟搜索算法[J].控制与决策,2014,29(4):617-622. 被引量：72
8吴斌,史忠植.一种基于蚁群算法的TSP问题分段求解算法[J].计算机学报,2001,24(12):1328-1333. 被引量：247
9于莹莹,陈燕,李桃迎.改进的遗传算法求解旅行商问题[J].控制与决策,2014,29(8):1483-1488. 被引量：157
10吴新杰,王静文,黄国兴,刘延东.一种求解旅行商问题的改进蛙跳算法[J].小型微型计算机系统,2015,36(5):1078-1081. 被引量：7

共引文献10

1谢聪.求解TSP问题的改进离散蝴蝶优化算法[J].数学的实践与认识,2020,0(1):173-182. 被引量：7
2陈雷,张红梅,张向利.自适应动态邻域布谷鸟混合算法求解TSP问题[J].计算机工程与应用,2018,54(23):42-50. 被引量：4
3张毅伟,贲可荣.基于状态图测试的迁移路径生成方法[J].计算机科学与探索,2019,13(6):961-972. 被引量：4
4裴小兵,于秀燕,王尚磊.混合帝国竞争算法求解旅行商问题[J].浙江大学学报（工学版）,2019,53(10):2003-2012. 被引量：9
5樊丹,史晋娜,许霞.基于改进遗传算法的研学旅行线路优化与实现[J].四川旅游学院学报,2019(6):36-40. 被引量：1
6楚学伟.混合粒子群算法在动态车间调度中的应用[J].无线互联科技,2020,17(7):155-157. 被引量：2
7贾政方,贾宏俊.离散布谷鸟算法的建筑能耗数据智能监测系统[J].西安工程大学学报,2020,34(2):110-116. 被引量：6
8武雪琪.一种新型煤矿底板破坏深度预测模型[J].煤矿现代化,2021(1):113-117.
9刘子文,虞莉娟,苏义鑫,赵耀,石柱.基于Web应用前端行为模型的测试用例生成[J].计算机科学,2023,50(7):18-26. 被引量：1
10陈雅琴,王鹏.基于优化算法量子动力学框架的势垒估计准则[J].计算机应用,2024,44(4):1180-1186.

同被引文献8

1吴雷,方卿.基于改进粒子群算法的学习路径优化方法[J].系统科学与数学,2016,36(12):2272-2281. 被引量：10
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：456
3唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：89
4王芳,饶德坤,游静,夏清松.基于改进蚁群算法的带硬时间窗的接送机场服务路径优化研究[J].系统科学与数学,2019,39(1):76-89. 被引量：15
5王原,陈名,邢立宁,吴亚辉,马武彬,赵宏.用于求解旅行商问题的深度智慧型蚁群优化算法[J].计算机研究与发展,2021,58(8):1586-1598. 被引量：20
6李珺,段钰蓉,郝丽艳,张维维.混合优化算法求解同时送取货车辆路径问题[J].计算机科学与探索,2022,16(7):1623-1632. 被引量：18
7杨笑笑,柯琳,陈智斌.深度强化学习求解车辆路径问题的研究综述[J].计算机工程与应用,2023,59(5):1-13. 被引量：4
8李珍萍,焦鹏博,韩倩倩,房勇.成品油二次配送库存-路径优化模型与两阶段算法[J].系统科学与数学,2023,43(5):1120-1137. 被引量：1

引证文献2

1杨笑笑,柯琳,陈智斌.深度强化学习求解车辆路径问题的研究综述[J].计算机工程与应用,2023,59(5):1-13. 被引量：4
2柯琳,杨笑笑,陈智斌.一种带泛化性能的动态混合模型求解大范围TSP问题[J].系统科学与数学,2024,44(1):31-44.

二级引证文献4

1王文豪,殷旅江,鄢曹政,牟光远.基于文献计量和知识图谱的电动车辆路径问题研究综述[J].计算机工程与应用,2024,60(2):46-62. 被引量：1
2柯琳,杨笑笑,陈智斌.一种带泛化性能的动态混合模型求解大范围TSP问题[J].系统科学与数学,2024,44(1):31-44.
3王骊,翁慧颖,孙小江.基于图注意力机制的车辆路径问题研究[J].信息技术与信息化,2024(2):122-125.
4孙红冉,施彦.基于Dijsktra-PSO算法求解城市配送路线优化问题研究[J].现代信息科技,2024,8(8):156-160.

1周欣,谢耀华,王润民,郑兵兵.基于自注意力模型的图像去雾算法[J].现代电子技术,2022,45(19):37-43.
2马英洪,江凌云.多基站下基于DRL的RAN切片资源分配[J].计算机应用研究,2022,39(9):2791-2798. 被引量：3
3Wenjun Li,Siyang Zhang,Guangwei Wu,Aldosary Saad,Amr Tolba,Gwang-jun Kim.A Sustainable WSN System with Heuristic Schemes in IIoT[J].Computers, Materials & Continua,2022(9):4215-4231.
4吴静,谢辉,姜火文.图神经网络推荐系统综述[J].计算机科学与探索,2022,16(10):2249-2263. 被引量：16
5段大高,白宸宇,韩忠明,熊海涛.基于多传递影响力的社交媒体谣言检测方法[J].计算机工程,2022,48(10):138-145. 被引量：2
6张帅,高旻,文俊浩,熊庆宇,唐旭.基于自监督学习的去流行度偏差推荐方法[J].电子学报,2022,50(10):2361-2371. 被引量：2
7张晨.基于图神经网络的多模态视觉表征技术研究[J].西安文理学院学报（自然科学版）,2022,25(3):38-42. 被引量：1
8吕立新.面向传感器网络的无线节点智能定位优化算法[J].西安文理学院学报（自然科学版）,2022,25(3):33-37.
9陈岚,文斌,贺南,陈乐,李琪.基于融合模型动态权值的气温预测[J].电子测量技术,2022,45(15):68-74. 被引量：5
10宋旭晖,于洪涛,李邵梅.基于图注意力网络字词融合的中文命名实体识别[J].计算机工程,2022,48(10):298-305. 被引量：6

南京大学学报（自然科学版）

2022年第3期

浏览历史

内容加载中请稍等...

深度强化学习结合图注意力模型求解TSP问题被引量：2

参考文献1

二级参考文献17

共引文献10

同被引文献8

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

深度强化学习结合图注意力模型求解TSP问题 被引量：2

参考文献1

二级参考文献17

共引文献10

同被引文献8

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

深度强化学习结合图注意力模型求解TSP问题被引量：2