具有自进化能力的自动驾驶换道策略有望在复杂开放的交通环境中提升性能,以应对更多的未知场景。时序差分学习模型预测控制(Temporal difference learning for model predictive control,TD-MPC)结合有模型和无模型强化学习方法的优势,...具有自进化能力的自动驾驶换道策略有望在复杂开放的交通环境中提升性能,以应对更多的未知场景。时序差分学习模型预测控制(Temporal difference learning for model predictive control,TD-MPC)结合有模型和无模型强化学习方法的优势,具有学习效率高、性能优异的特点。基于此,为了提高自动驾驶换道策略的整体性能,提出基于TD-MPC的自动驾驶一体化换道策略。具体来说,针对自动换道问题,提出基于驾驶倾向网络的一体化自动驾驶换道策略架构,构建强化学习问题并设计完备的奖励函数,对决策规划优化问题进行统一求解。应用TD-MPC算法设计内部模型来预测未来状态和奖励,实现短时域内的局部轨迹优化,同时使用时序差分学习实现对长期汇报的估计,以得到驾驶倾向网络参数。所提出方法在高保真仿真环境中被验证,结果表明,所提出方法相比规则方案保证行驶效率,并且提高安全性和舒适性。同时与软演员-评论家算法(Soft actor critic,SAC)相比,实现了7~9倍的学习效率提升。展开更多
随着国产机组出口到“一带一路”国家,励磁系统建模和电力系统稳定器(power system stabilizer, PSS)试验在海外项目开展起来,对不同仿真软件建模提出了相关要求。对海外某300 MW机组基于ETAP软件进行励磁系统建模试验,与空载试验对比,...随着国产机组出口到“一带一路”国家,励磁系统建模和电力系统稳定器(power system stabilizer, PSS)试验在海外项目开展起来,对不同仿真软件建模提出了相关要求。对海外某300 MW机组基于ETAP软件进行励磁系统建模试验,与空载试验对比,验证模型正确性。PSS参数整定主要利用Matlab完成,计算励磁系无补偿特性,进行PSS参数整定,利用根轨迹方法确认PSS的临界增益,最终完成ETAP励磁系统模型及PSS参数计算。展开更多
文摘具有自进化能力的自动驾驶换道策略有望在复杂开放的交通环境中提升性能,以应对更多的未知场景。时序差分学习模型预测控制(Temporal difference learning for model predictive control,TD-MPC)结合有模型和无模型强化学习方法的优势,具有学习效率高、性能优异的特点。基于此,为了提高自动驾驶换道策略的整体性能,提出基于TD-MPC的自动驾驶一体化换道策略。具体来说,针对自动换道问题,提出基于驾驶倾向网络的一体化自动驾驶换道策略架构,构建强化学习问题并设计完备的奖励函数,对决策规划优化问题进行统一求解。应用TD-MPC算法设计内部模型来预测未来状态和奖励,实现短时域内的局部轨迹优化,同时使用时序差分学习实现对长期汇报的估计,以得到驾驶倾向网络参数。所提出方法在高保真仿真环境中被验证,结果表明,所提出方法相比规则方案保证行驶效率,并且提高安全性和舒适性。同时与软演员-评论家算法(Soft actor critic,SAC)相比,实现了7~9倍的学习效率提升。
文摘随着国产机组出口到“一带一路”国家,励磁系统建模和电力系统稳定器(power system stabilizer, PSS)试验在海外项目开展起来,对不同仿真软件建模提出了相关要求。对海外某300 MW机组基于ETAP软件进行励磁系统建模试验,与空载试验对比,验证模型正确性。PSS参数整定主要利用Matlab完成,计算励磁系无补偿特性,进行PSS参数整定,利用根轨迹方法确认PSS的临界增益,最终完成ETAP励磁系统模型及PSS参数计算。