针对智能车路径规划过程中常存在动态环境感知预估不足的问题,使用基于蒙特卡罗深度策略梯度学习(Monte Carlo prediction deep deterministic policy gradient, MCPDDPG)的智能车辆路径规划方法,设计一种基于环境感知预测、行为决策和...针对智能车路径规划过程中常存在动态环境感知预估不足的问题,使用基于蒙特卡罗深度策略梯度学习(Monte Carlo prediction deep deterministic policy gradient, MCPDDPG)的智能车辆路径规划方法,设计一种基于环境感知预测、行为决策和控制序列生成的框架,实现实时的决策和规划,并输出连续的车辆控制序列.首先,利用序贯蒙特卡罗预估他车行为状态量;然后,设计基于强化Q学习的行为决策方法,使智能车辆实时预知碰撞风险,采取合理的规避策略;最后,构建深度策略梯度学习网络框架,获取智能车辆规划路径的最优轨迹序列.实验结果表明,所提方法能够缓解环境感知的预估不足问题,提升智能车辆行为决策的快速性,保障路径规划的主动安全,并输出连续的轨迹序列,为智能车辆导航控制提供前提.展开更多
文摘针对智能车路径规划过程中常存在动态环境感知预估不足的问题,使用基于蒙特卡罗深度策略梯度学习(Monte Carlo prediction deep deterministic policy gradient, MCPDDPG)的智能车辆路径规划方法,设计一种基于环境感知预测、行为决策和控制序列生成的框架,实现实时的决策和规划,并输出连续的车辆控制序列.首先,利用序贯蒙特卡罗预估他车行为状态量;然后,设计基于强化Q学习的行为决策方法,使智能车辆实时预知碰撞风险,采取合理的规避策略;最后,构建深度策略梯度学习网络框架,获取智能车辆规划路径的最优轨迹序列.实验结果表明,所提方法能够缓解环境感知的预估不足问题,提升智能车辆行为决策的快速性,保障路径规划的主动安全,并输出连续的轨迹序列,为智能车辆导航控制提供前提.