针对传统控制方法下的智能网联车辆(connected and autonomous vehicle,CAV)在动态交通环境中通行能耗较高且效率较低等问题,研究了基于强化学习的CAV通行控制方法,旨在降低车辆能源消耗,提升车辆通行效率以及行驶舒适度。通过考虑CAV...针对传统控制方法下的智能网联车辆(connected and autonomous vehicle,CAV)在动态交通环境中通行能耗较高且效率较低等问题,研究了基于强化学习的CAV通行控制方法,旨在降低车辆能源消耗,提升车辆通行效率以及行驶舒适度。通过考虑CAV与交叉口信控系统的信息交互和物理环境,收集信号相位和信号配时(SPaT)以及前车速度和位置等信息,构建强化学习框架的状态空间。以电池能量回收的上限作为边界条件,建立CAV的行驶能耗模型,并基于车辆行驶的关键特征指标,如单位时间电能能耗、通行距离以及加速度变化率,设计多目标加权奖励函数。利用层次分析法确定各指标的权重,进而采用深度确定性策略梯度算法对模型进行训练,并通过梯度下降方法对算法参数进行调整和更新。采用SUMO平台开展仿真实验,实验结果表明:在设计的算法控制下的CAV各方面行驶性能最为均衡,相较于DQN算法电能消耗和加速度变化率均值分别降低了9.22%和18.77%;相较于Krauss跟驰模型行程时间缩短了8.39%。本研究提出的CAV通行控制方法在降低车辆能耗、提高行驶效率和舒适性等方面具有较好的可行性和有效性。展开更多
针对传统强化学习算法在现实场景下训练难以实现的问题,提出一种基于离线强化学习的自适应车辆交叉口生态驾驶控制策略.首先,将车辆油耗与行驶距离作为复合奖励函数的一部分,构造了V2I(vehicle-to-infrastructure)下的车辆交叉口马尔可...针对传统强化学习算法在现实场景下训练难以实现的问题,提出一种基于离线强化学习的自适应车辆交叉口生态驾驶控制策略.首先,将车辆油耗与行驶距离作为复合奖励函数的一部分,构造了V2I(vehicle-to-infrastructure)下的车辆交叉口马尔可夫决策过程.通过在SUMO仿真软件中利用GLOSA系统收集少量训练数据,基于BCQ(batch-constrained deep Q-learning)算法进行离线训练,解决了离线数据与真实场景下分布偏移的问题.将模型部署在仿真环境,实验结果表明,在单交叉口与多交叉口情景,几乎不牺牲车辆机动性的前提下,能耗经济性可以分别提升25.14%和11.49%.此外,对不同V2I通信距离进行分析,发现随着通信距离的增加,算法控制效果与稳定性均有所提升,为工程实践提供了借鉴.展开更多
文摘针对传统控制方法下的智能网联车辆(connected and autonomous vehicle,CAV)在动态交通环境中通行能耗较高且效率较低等问题,研究了基于强化学习的CAV通行控制方法,旨在降低车辆能源消耗,提升车辆通行效率以及行驶舒适度。通过考虑CAV与交叉口信控系统的信息交互和物理环境,收集信号相位和信号配时(SPaT)以及前车速度和位置等信息,构建强化学习框架的状态空间。以电池能量回收的上限作为边界条件,建立CAV的行驶能耗模型,并基于车辆行驶的关键特征指标,如单位时间电能能耗、通行距离以及加速度变化率,设计多目标加权奖励函数。利用层次分析法确定各指标的权重,进而采用深度确定性策略梯度算法对模型进行训练,并通过梯度下降方法对算法参数进行调整和更新。采用SUMO平台开展仿真实验,实验结果表明:在设计的算法控制下的CAV各方面行驶性能最为均衡,相较于DQN算法电能消耗和加速度变化率均值分别降低了9.22%和18.77%;相较于Krauss跟驰模型行程时间缩短了8.39%。本研究提出的CAV通行控制方法在降低车辆能耗、提高行驶效率和舒适性等方面具有较好的可行性和有效性。
文摘针对传统强化学习算法在现实场景下训练难以实现的问题,提出一种基于离线强化学习的自适应车辆交叉口生态驾驶控制策略.首先,将车辆油耗与行驶距离作为复合奖励函数的一部分,构造了V2I(vehicle-to-infrastructure)下的车辆交叉口马尔可夫决策过程.通过在SUMO仿真软件中利用GLOSA系统收集少量训练数据,基于BCQ(batch-constrained deep Q-learning)算法进行离线训练,解决了离线数据与真实场景下分布偏移的问题.将模型部署在仿真环境,实验结果表明,在单交叉口与多交叉口情景,几乎不牺牲车辆机动性的前提下,能耗经济性可以分别提升25.14%和11.49%.此外,对不同V2I通信距离进行分析,发现随着通信距离的增加,算法控制效果与稳定性均有所提升,为工程实践提供了借鉴.