基于多智能体增强学习的公交驻站控制方法被引量：6

Bus holding control method in public transit systems with multiagent reinforcement learning

下载PDF

导出

摘要车辆驻站是减少串车现象和改善公交服务可靠性的常用且有效控制策略,其执行过程需要在随机交互的系统环境中进行动态决策。考虑实时公交运营信息的可获得性,研究智能体完全合作环境下公交车辆驻站增强学习控制问题,建立基于多智能体系统的单线公交控制概念模型,描述学习框架下包括智能体状态、动作集、收益函数、协调机制等主要元素,采用hysteretic Q-learning算法求解问题。仿真实验结果表明该方法能有效防止串车现象并保持单线公交服务系统车头时距的均衡性。 Vehicle holding is a commonly used strategy among a variety of control strategies in transit operation for improving transit service reliability, whose implementation needs dynamic decision-making in an interactive and stochastic system environment. This paper introduces a novel use of a reinforcement learning framework to obtain vehicle holding autonomous control strategy in cooperative multi-agent system. Transit operation control model is developed based on multi-agent system. In the multi-agent reinforcement learning framework, each bus is modeled as an independent agent with learning abilities, for which the state, actions and reward are defined and a coordination mechanism for multiple bus agents is designed to obtain a joint holding actions. The hysteretic Q-learning algorithm is used to solve this holding problem. From the simulation experiments, the results illustrate that the proposed approach is able to prevent buses from bunching and regulate bus headway.

作者陈春晓陈治亚陈维亚

机构地区中南大学交通运输工程学院西安电子科技大学

出处《计算机工程与应用》 CSCD 北大核心 2015年第17期8-13,27,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.61203162) 湖南省哲学社会科学基金(No.13YBB153) 湖南省教育厅科学研究项目(No.14C0763)

关键词驻站多智能体增强学习多智能体系统控制策略 bus holding multi-agent reinforcement learning multi-agent system control strategy

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献29

1Osuna E E,Newell G F.Control strategies for an ideali- zed public transportation system[J].Transportation Sci- ence, 1972,6( 1 ) : 52-72. 被引量：1
2Barnett A.On controlling randomness in transit operations[J]. Transportation Science, 1974,8 (2) : 102-116. 被引量：1
3Abkowitz M, Eiger A, Engelstein I.Opfimal control of head- way variation on transit routes[J].Joumal of Advanced Transportation, 1986,20( 1 ) : 73-88. 被引量：1
4Eberlein X J,Wilson N H M, Bemstein D.The holding problem with real-time information available[J].Transpor- tation Science, 2001,35 ( 1 ) : l- 18. 被引量：1
5Sun A, Hickman M.The holding problem at multiple hold- ing stations[M].Berlin, Heidelberg: Springer, 2008: 339-359. 被引量：1
6Delgado F, Mufloz J C, Giesen R, et al.Real-time controlof buses in a transit corridor based on vehicle holding and boarding limits[J].Transportation Research Record: Journal of the Transportation Research Board, 2009: 59-67. 被引量：1
7Chen Q, Adida E, Lin J.Implementation of an iterative headway-based bus holding strategy with real-time infor- mation[J].Public Transport,2013,4(3) : 165-186. 被引量：1
8Mufloz J C,Cort6s C E,Giesen R,et al.Comparison of dynamic control strategies for transit operations[J].Trans- portation Research Part C : Emerging Technologies, 2013, 28:101-113. 被引量：1
9黄溅华,葛芳,张国伍.公共交通实时控制模型研究[J].系统工程理论与实践,2001,21(5):129-131. 被引量：11
10黄溅华,张国伍.公共交通实时放车调度方法研究[J].系统工程理论与实践,2001,21(3):107-111. 被引量：18

<12 3 >

二级参考文献74

1孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：12
2滕靖,杨晓光.APTS下城市公交枢纽调度问题的实用优化方法研究[J].系统工程,2004,22(8):78-82. 被引量：8
3张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
4DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
5高波,费奇.从现实世界到MAS世界——基于MAS理论的复杂系统建模思想探讨[J].科学学研究,2005,23(2):179-183. 被引量：10
6王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
7谢玉洁,韩宝明,许惠花.城市轨道交通与地面常规公交的客运一体化[J].都市快轨交通,2006,19(1):32-34. 被引量：30
8北京市公共交通总公司组织.运营调度管理[M].北京:中国劳动出版社,1994.. 被引量：1
9黄溅华中国系统工程学会.基于神经网络的公交线路交通量的预测方法.系统工程与可持续发展战略[M].北京:科学技术文献出版社,1998.. 被引量：1
10Dessouky M,Hall R,Nowroozi A,Mourikas K. Bus dispatching at timed transfer transit stations using bus tracking technology[J]. Transportation Research(Part C),1999,7:187～208. 被引量：1

<12 3 4 5…8 >

共引文献94

1朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
2郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
3宋瑞,赵航.基于机会约束的公交调度研究[J].数学的实践与认识,2005,35(1):89-95. 被引量：6
4张淑军,孟庆春,吴槟,费云瑞.移动机器人智能寻线导航与策略控制[J].控制与决策,2005,20(5):529-532. 被引量：6
5宋一超,熊桂喜,刘维.基于BRMS的公交车辆调度系统[J].计算机与现代化,2005(10):121-123. 被引量：2
6滕靖,杨晓光.APTS下快速公交实时控制-调度方法研究[J].系统工程理论与实践,2006,26(2):138-143. 被引量：13
7滕靖,杨晓光.APTS下公共汽车单线路实时控制方法[J].同济大学学报（自然科学版）,2006,34(6):744-747. 被引量：5
8冯树民,陈洪仁.公交车辆配置量计算方法研究[J].交通运输系统工程与信息,2006,6(3):79-81. 被引量：5
9潘家毅,赵永祥.基于DHT的P2P网络的查询延迟改进技术及其研究进展[J].中国新通信,2006,8(21):50-54.
10李维明,赵卫强,贾丽芳,位伟伟.公交车的调度优化研究[J].交通科技与经济,2007,9(1):91-93. 被引量：2

<12 3 4 5…10 >

同被引文献10

1马晓磊,沈宣良,张钊,栾森,陈汐.基于拉格朗日松弛算法的自动驾驶公交调度优化研究[J].中国公路学报,2019,32(12):10-24. 被引量：16
2任华玲,高自友.动态公交网络设计的双层规划模型及算法研究[J].系统工程理论与实践,2007,27(5):82-89. 被引量：18
3张明辉,牛惠民.一种用于计算城市公交时刻表的复合遗传算法[J].计算机工程与应用,2011,47(20):210-213. 被引量：5
4龙琼,胡列格,张谨帆,喻杰.突发事件下公交车辆快速动态滞站调度算法[J].中国公路学报,2013,26(2):154-159. 被引量：2
5张曼,李文权.Factors affecting headway regularity on bus routes[J].Journal of Southeast University(English Edition),2013,29(1):99-102. 被引量：5
6周康,何世伟,宋瑞.基于出行行为的公交网络多目标优化方法[J].公路交通科技,2015,32(6):123-129. 被引量：8
7徐光明,史峰,罗湘,秦进.基于策略均衡分配的公交线网规划优化方法[J].交通运输系统工程与信息,2015,15(3):140-145. 被引量：9
8陈春晓,陈治亚,陈维亚.基于模糊逻辑的单线路公交实时控制方法[J].公路交通科技,2016,33(9):141-147. 被引量：5
9安实,张昕明,王健.基于随机决策的公交车辆滞站策略[J].科学技术与工程,2016,16(28):115-119. 被引量：3
10王敏,陈峰,张磊石.具有反向学习能力的串车调度算法研究[J].交通运输系统工程与信息,2019,19(2):102-107. 被引量：6

引证文献6

1刘晓飞,陈维亚,吴良江.基于多智能体的公交线网动态优化系统[J].信息系统工程,2017,30(5):160-160.
2陈维亚,刘晓飞,吴良江.数据驱动的公交网络动态优化调整方法[J].交通运输系统工程与信息,2017,17(6):114-119. 被引量：6
3何胜学.基于多级前瞻式仿真的公交串车防治方法[J].科学技术与工程,2018,18(16):134-141. 被引量：1
4何胜学.防治公交串车的近似动态规划法[J].计算机应用研究,2018,35(9):2624-2627. 被引量：2
5何胜学.双线单换乘区条件下公交串车的驻站防治方法[J].交通运输工程与信息学报,2019,17(3):133-143. 被引量：3
6顾九春,马加金,尚春琳.基于自适应动态规划的公交串车防治方法研究[J].交通工程,2023,23(1):123-128.

二级引证文献10

1严凌,张静,梁士栋,赵天羽.缓解公交串车现象的有限信号优先控制方法[J].中国水运（下半月）,2021,21(3):62-64.
2吴良江.基于数据驱动智能公交调度系统研究[J].物流科技,2019,42(6):104-105. 被引量：1
3孙雪岩,曹洪宇.基于数据驱动的公交调度优化分析[J].数码设计,2021,10(10):145-145.
4周日彪,庞明宝,王雄杰.基于K-shell的特大城市公交换乘优惠与线网规划协同优化[J].公路交通科技,2021,38(6):141-148. 被引量：3
5赵琥,冯树民,廖嘉雯,慈玉生.车路协同环境下重叠线路公交车速诱导策略[J].中国公路学报,2021,34(7):42-53. 被引量：8
6李利华,曹慧琪,邓亚军,邢璐,靳竹喧.基于站点群体聚集性客流的公交串车调度优化[J].中国公路学报,2023,36(2):203-215.
7薄坤,杨正.暴雨内涝下公交应急方案评价方法[J].上海海事大学学报,2023,44(1):68-72. 被引量：1
8马洪生,李雪芹,许京鹏,王文宪.城市多模式公共交通网络优化及仿真[J].计算机仿真,2024,41(9):96-100.
9朱建全,朱文凯,刘海欣,陈嘉俊,曾恺,刘明波.近似动态规划在电力系统优化运行中的应用综述[J].电力系统自动化,2024,48(22):1-21. 被引量：1
10付龙虎,周文平.基于CCD镜头的公交车无人驾驶停车系统[J].科技通报,2019,35(4):142-145.

1王帅.基于两层Q-Learning算法的多智能体协作方法研究[J].煤矿机电,2013,34(5):74-76.
2任艳斐,张军锋.煤矿井下移动机器人路径规划的算法优化[J].煤炭技术,2013,32(7):80-82. 被引量：2
3徐学东.基于Q-learning算法的煤矿井下移动机器人路径规划[J].煤炭技术,2013,32(2):105-106. 被引量：4
4望安全,陈宗海,文锋.一种基于强化学习的控制算法研究[J].计算机仿真,2003,20(11):42-44. 被引量：1
5石伟.浅谈校企合作环境下职校计算机基础课的教学改革[J].科技信息,2012(22):49-50.
6李佳奇,党建武.一种基于车头时距交通信号的模糊控制系统[J].兰州交通大学学报,2011,30(6):80-84.
7周富丽,刘红.基于RFID智能公交系统的设计[J].物联网技术,2015,5(7):62-63. 被引量：2
8成典华.车头时距交通信号的模糊控制系统的研究[J].科技与企业,2014(2):298-299.
9李佳奇,党建武.基于车头时距交通信号的模糊控制系统[J].电气传动自动化,2012,34(1):22-26.
10罗全恒,李佳奇.基于车头时距交通信号的模糊控制系统的研究[J].微型机与应用,2012,31(2):87-89. 被引量：2

<12 >

计算机工程与应用

2015年第17期

基于多智能体增强学习的公交驻站控制方法被引量：6

参考文献29

二级参考文献74

共引文献94

同被引文献10

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

基于多智能体增强学习的公交驻站控制方法 被引量：6

参考文献29

二级参考文献74

共引文献94

同被引文献10

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

微信扫一扫：分享

基于多智能体增强学习的公交驻站控制方法被引量：6