基于深度强化学习的方法求解带时间窗的旅行商问题

Solving the traveling salesman problem with time window based on deep reinforcement learning

下载PDF

导出

摘要带时间窗的旅行商问题(traveling salesman problem with time window, TSPTW)是旅行商问题的一个变种,在物资配送等方面有大量的应用。传统方法的求解时间较长且泛化性较差,为提高TSPTW的求解效率,将求解过程建模为马尔科夫决策过程,定义了状态、动作、奖励,提出了一种基于深度强化学习的Transformer加指针网络的组合模型,通过多头注意力对输入的特征进行编码,采用指针网络求出解的概率分布,所提深度学习网络通过强化学习算法进行训练。实验结果表明:所提方法对比传统的启发式求解算法,可以得到更高质量的解,相较于求解器和启发式算法,有超过数10倍的提升效果,且易于将模型拓展到不同规模的问题上。 The Traveling Salesman Problem with Time Window(TSPTW),widely applied in material distribution,is a variant of the traveling salesman problem.To remedy such problems as long solution time and poor generalization of the traditional method as well as to to improve the solution efficiency of TSPTW,this paper models the solution process as a Markov decision process,defines the state,action and reward,and proposes a deep reinforcement learning based Transformer+pointer network model,which encodes the input features through multi-head attention,and employs the pointer network to work out the probability distribution of the solution.The deep learning network is trained by reinforcement learning algorithm.The experimental results show the proposed method obtains higher quality solutions compared with the traditional heuristic algorithms.Moreover,it markedly improves the final results and easily transfers the model to other problems of different scales compared with solvers and traditional heuristic algorithms.

作者江明刘志威 JIANG Ming;LIU Zhiwei(School of Internet Economics and Business,Fujian University of Technology,Fuzhou 350118,China;School of Transportation,Fujian University of Technology,Fuzhou 350118,China)

机构地区福建理工大学互联网经贸学院福建理工大学交通运输学院

出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2023年第12期260-266,共7页 Journal of Chongqing University of Technology：Natural Science

基金国家社会科学基金项目(22BGL007) 福建省社会科学基金项目(FJ2020B038) 福建省习近平新时代中国特色社会主义思想研究中心项目(GY-S21118)。

关键词带时间窗的旅行商深度强化学习组合优化注意力机制 traveling salesman with time window deep reinforcement learning combined optimization attention mechanism

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1程琳,张晨皓,于新莲,杜明洋,任姿蓉.基于马尔可夫决策过程的出租车寻客路径优化[J].武汉理工大学学报,2022,44(5):40-46. 被引量：2

二级参考文献6

1郑运鹏,赵刚,刘健.基于出租车GPS数据的交通热区识别方法[J].北京信息科技大学学报（自然科学版）,2016,31(1):43-47. 被引量：8
2郑林江,赵欣,蒋朝辉,邓建国,夏冬,刘卫宁.基于出租车轨迹数据的城市热点出行区域挖掘[J].计算机应用与软件,2018,35(1):1-8. 被引量：24
3曲昭伟,王鑫,宋现敏,夏英集,袁咪莉.基于出租车GPS大数据的城市热点出行路段识别方法[J].交通运输系统工程与信息,2019,19(2):238-246. 被引量：21
4高瞻,余辰,向郑涛,陈宇峰.基于网格化的出租车空载寻客路径推荐[J].计算机应用与软件,2019,36(5):281-288. 被引量：6
5徐志锋,于欢,何兵.基于GPS轨迹数据的深圳市居民出行热点研究[J].科技创新与应用,2020,0(1):50-52. 被引量：2
6龙雪琴,周萌,赵欢,张学宇.基于网络核密度的网约车上下客热点识别[J].交通运输系统工程与信息,2021,21(3):86-93. 被引量：8

共引文献1

1陈春源,陈鹏.基于双模态信息的出租车需求预测[J].武汉理工大学学报,2024,46(5):110-116.

1林凌,谈之奕.排序模型七十年[J].数学建模及其应用,2023,12(4):95-106.
2王芮.启发式算法在交通领域的应用研究[J].科技与创新,2024(1):9-14.
3冯晨,游晓明,刘升.结合竞争交互策略和淘汰重组机制的异构多蚁群算法[J].系统仿真学报,2024,36(1):232-248. 被引量：1
4王永,吕致为.基于基因库求解旅行商问题的遗传算法[J].计算机应用研究,2023,40(11):3262-3268. 被引量：3
5汪晴,徐光明,邓连波,许景.基于出行距离的城市轨道交通补贴优化模型[J].铁道科学与工程学报,2023,20(7):2689-2697. 被引量：1
6张伯雷,马艳琴,刘林.基于值分布多智能体强化学习的无人机协同方法[J].现代雷达,2023,45(12):94-101.
7凌琛.考虑能耗的无人机路径规划及海洋捕食者算法求解[J].自动化技术与应用,2024,43(1):5-8.
8徐文强,周扬名,王喆.带冲突图的着色旅行商问题模型与算法[J].计算机工程与应用,2024,60(1):135-144.
9林晖,王杉.考虑设备转换成本的MRI检查预约调度优化[J].系统管理学报,2024,33(1):59-75.
10樊新海,张传清,朱俊臻.利用改进鹈鹕优化算法求解TSP问题[J].装甲兵学报,2023(3):113-117.

重庆理工大学学报（自然科学）

2023年第12期

浏览历史

内容加载中请稍等...

基于深度强化学习的方法求解带时间窗的旅行商问题

参考文献1

二级参考文献6

共引文献1

相关作者

相关机构

相关主题

浏览历史