基于持续强化学习的自动驾驶赛车决策算法研究被引量：1

Decision making based on continual reinforcement learning for autonomous racing

下载PDF

导出

摘要赛道形状与路面材质变化对自动驾驶赛车的行为决策带来了严峻挑战。为应对道路间的动力学差异,本文提出一种基于持续强化学习(CRL)的高速赛车决策算法。该算法将不同道路看作独立任务。算法的第1训练阶段负责提取描述不同任务上赛车动力学的低维特征,从而计算出任务间的相似性关系。算法的第2训练阶段负责为策略学习过程提供2个持续强化学习约束:其一是权重正则化约束,策略网络中对于旧任务重要的权重将在新任务学习期间被限制更新,其限制力度由任务相似性自适应调节;其二是奖励函数约束,鼓励在新任务学习期间策略的旧任务性能不下降。设计不同任务排序下的赛车实验和持续强化学习评价指标以评估算法性能。实验结果表明,所提算法能在既不存储旧任务数据也不扩展策略网络的条件下获得比基准方法更出色的驾驶性能。 The variety of road shapes and materials presents a serious decision-making challenge for high-speed autonomous racing.To address the issue of dynamics gap between various roads,a decision-making algorithm based on continual reinforcement learning(CRL)is proposed.These roads are considered as different tasks.The first training stage of the algorithm extracts low-dimension task features that can characterize the vehicle dynamics on different roads.These features are used to compute the task similarity.The second training stage of the algorithm provides two CRL constraints for policy learning.One is the weight regularization constraint,which restricts the updates of policy weights that are important for old tasks.This restriction is adaptively regulated by task similarity.The other is the reward constraint,which encourages no performance degradation on old tasks while the policy is learning a new task.Racing experiments with different task sequences and CRL metrics are set to evaluate the algorithm.The results show that the proposed algorithm outperforms baselines without storing old tasks’data or expanding policy network size.

作者牛京玉胡瑜李玮韩银和 NIU Jingyu;HU Yu;LI Wei;HAN Yinhe(Research Center for Intelligent Computing Systems,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院计算技术研究所智能计算机研究中心中国科学院大学

出处《高技术通讯》 CAS 北大核心 2024年第1期1-14,共14页 Chinese High Technology Letters

基金国家自然科学基金(62176250,62003323) 中国科学院计算技术研究所计算机体系结构国家重点实验室创新项目(CARCH5203,CARCH5406)资助。

关键词强化学习(RL) 持续学习行为决策自动驾驶赛车动力学特征提取 reinforcement learning(RL) continual learning decision making autonomous racing dynamics feature extraction

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

同被引文献2

1于士杰,马冲,陈见哲.基于学习的自动驾驶换道决策算法研究进展[J].汽车实用技术,2023,48(24):189-194. 被引量：2
2黄志杰,杨广柱,方正.智能汽车自动驾驶路径跟踪控制算法的应用分析[J].汽车维修与保养,2024(2):77-78. 被引量：1

引证文献1

1邱钰,刘亚菲,李娟.数学算法在汽车自动驾驶系统中的应用[J].时代汽车,2024(9):29-31.

1李鹏飞,季广伟,宋恒林.起重机械制动器异常安装隐患分析[J].哈尔滨铁道科技,2023(2):14-16.
2冯畅,宦冬,陈逊,郭小烨,伍安旭.踏面清扫装置轻量化缸体设计及研制[J].轨道交通材料,2023,2(3):17-21. 被引量：1
3杨茹芸,马静.一种融合知识与Res-ViT的特征增强多模态情感识别模型[J].数据分析与知识发现,2023,7(11):14-25.
4杨程,车文刚.基于多门混合专家网络的情感分析与文本摘要多任务模型[J].现代电子技术,2024,47(1):94-99.
5唐国亮,徐尤峰.基于机器学习的电网客服语音智能检测系统的设计与实现[J].微型电脑应用,2024,40(1):217-219.
6刁国诗.新能源汽车复合电能源系统设计优化[J].汽车测试报告,2023(19):59-61.
7李亚静,霍纬纲,丁磊.基于集成LSTM自编码器的多维时间序列异常检测[J].计算机应用与软件,2024,41(1):285-290.
8固特异技术融合采埃孚提升安全并增强车辆驾驶性能[J].橡塑技术与装备,2024,50(2):4-4.
9刘乐,刘卫勇,朱娅娟,李婷婷.不同类型锁骨下动脉盗血综合征的血流动力学比较[J].蚌埠医学院学报,2023,48(12):1730-1733.
10邹永攀,王丹阳,王丹,郑灿林,宋奇峰,朱毓正,范长河,伍楷舜.基于多源域对抗迁移学习的可穿戴情绪识别技术[J].计算机学报,2024,47(2):266-286.

高技术通讯

2024年第1期

浏览历史

内容加载中请稍等...

基于持续强化学习的自动驾驶赛车决策算法研究被引量：1

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于持续强化学习的自动驾驶赛车决策算法研究 被引量：1

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于持续强化学习的自动驾驶赛车决策算法研究被引量：1