期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
改进TD3算法在四旋翼无人机避障中的应用 被引量:9
1
作者 唐蕾 刘广钟 《计算机工程与应用》 CSCD 北大核心 2021年第11期254-259,共6页
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradi... 为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。 展开更多
关键词 双延迟深度确定性策略梯度(td3) 优先经验回放 避障 四旋翼无人机
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
2
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
基于强化学习的固体氧化物燃料电池输出电压自抗扰控制研究
3
作者 管超骏 雷正玲 +3 位作者 霍海波 王芳 姚国全 刘涛 《发电技术》 CSCD 2024年第6期1163-1172,共10页
【目的】为提升固体氧化物燃料电池(solid oxide fuel cell,SOFC)系统性能及寿命,以100 kW SOFC系统为研究对象,探究在保证输出电压跟踪性能的同时,通过强化学习不断调整控制器系数以实现最佳的综合性能。【方法】建立基于机理的SOFC输... 【目的】为提升固体氧化物燃料电池(solid oxide fuel cell,SOFC)系统性能及寿命,以100 kW SOFC系统为研究对象,探究在保证输出电压跟踪性能的同时,通过强化学习不断调整控制器系数以实现最佳的综合性能。【方法】建立基于机理的SOFC输出电压系统模型,采用改进型的非线性自抗扰控制器(nonlinear active disturbance rejection control,NLADRC),通过控制输入燃气流量,使输出电压很好地跟踪参考值。考虑到传统的单通道控制器无法同时满足多个目标,但若采用双通道控制器则会导致系统复杂性、成本和故障风险增加,提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的改进型非线性自抗扰控制器,对非线性误差反馈控制律系数进行实时调节和优化。【结果】所设计控制器可在不违反燃料利用约束的情况下提高SOFC输出电压跟踪性能。【结论】所设计控制器具备适应性强、稳定性高和能克服不确定性等优点,为实际SOFC系统的输出电压控制器设计提供理论参考。 展开更多
关键词 固体氧化物燃料电池(SOFC) 双延迟深度确定性策略梯度(td3) 非线性自抗扰控制器(NLADRC) 燃料利用率 非线性误差反馈控制律 输出电压跟踪 不确定性
下载PDF
基于深度强化学习的综合能源系统低碳经济调度
4
作者 崔在兴 应雨龙 +1 位作者 李靖超 王新友 《南京信息工程大学学报》 CAS 北大核心 2024年第5期599-607,共9页
综合能源系统(IES)能够实现多种能源形式的供应,但同时排放的大量CO_(2)也影响着周边环境.针对综合能源系统的低碳经济调度问题,本文提出一种基于双延迟深度确定性策略梯度(TD3)算法的优化调度策略.首先,以调度运行成本最小为目标函数,... 综合能源系统(IES)能够实现多种能源形式的供应,但同时排放的大量CO_(2)也影响着周边环境.针对综合能源系统的低碳经济调度问题,本文提出一种基于双延迟深度确定性策略梯度(TD3)算法的优化调度策略.首先,以调度运行成本最小为目标函数,建立考虑碳捕集技术和电转气技术的包含电、热、冷多能互补的综合能源系统模型;其次,引入碳交易机制,提高优化调度策略节能减排的积极性;然后,根据强化学习框架设计优化模型的状态空间、动作空间和奖励函数等,利用TD3算法中的智能体与环境互动,学习综合能源系统的运行策略;最后,利用历史数据对TD3算法的智能体进行训练,并对比线性规划和粒子群算法在不同场景下进行算例分析.结果表明,本文所提方法可以减少综合能源系统运行时的碳排放和运行成本,能够实现综合能源系统的低碳经济调度. 展开更多
关键词 碳捕获系统 电转气 深度强化学习 双延迟深度确定性策略梯度 综合能源系统 碳交易机制
下载PDF
扩展目标跟踪中基于深度强化学习的传感器管理方法
5
作者 张虹芸 陈辉 张文旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1417-1431,共15页
针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测... 针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测马尔科夫决策过程(Partially observed Markov decision process,POMDP)理论框架下,给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)算法的扩展目标跟踪传感器管理的基本方法;其次,利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance,GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益,对扩展目标多特征估计信息进行综合评价,进而以信息增益作为TD3算法奖励函数的构建;然后,通过推导出的奖励函数,进行基于深度强化学习的传感器管理方法的最优决策;最后,通过构造扩展目标跟踪优化仿真实验,验证了所提方法的有效性. 展开更多
关键词 传感器管理 扩展目标跟踪 深度强化学习 双延迟深度确定性策略梯度 信息增益
下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
6
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 双延迟深度确定性策略梯度(td3) Softmax深层双确定性策略梯度(SD3) 强化学习
下载PDF
基于改进TD3的MEC多任务计算卸载
7
作者 于波 毛鑫浩 《计算机系统应用》 2023年第12期95-103,共9页
在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只... 在多用户多任务场景下,使用传统的决策算法去对短时间内接踵而来的任务进行计算卸载决策,已经不能满足用户对决策效率和资源利用率的要求.因此有研究提出使用深度强化学习算法来进行卸载决策以满足各种场景下的需求,但是这些算法大多只考虑卸载优先的策略,这种策略使用户设备(UE)被大量闲置.我们提高了移动边缘计算(MEC)服务器和用户设备(UE)的资源利用率,降低计算卸载的错误率,提出了一种本地优先和改进TD3(twin delayed deep deterministic policy gradient)算法相结合的决策卸载模型,并设计了仿真实验,通过实验证明该模型确实可以提高MEC服务器和UE的资源利用率并降低错误率. 展开更多
关键词 移动边缘计算 计算卸载 双延迟深度确定性策略梯度(td3) 资源分配
下载PDF
基于改进TD3算法的无人机轨迹规划
8
作者 牟文心 时宏伟 《计算机系统应用》 2024年第12期197-209,共13页
深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能... 深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能够更好地引导无人机有效避开障碍物并且快速接近目标点.仿真结果表明,算法的改进可以有效提高网络的训练效率以及在复杂场景中的航迹规划表现,同时能够在不同初始电量的情况下都能够灵活调整策略,做到在能耗和迅速抵达目的地之间的有效平衡. 展开更多
关键词 深度强化学习 无人机 航迹规划 人工势场 双延迟深度确定性策略梯度算法
下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:2
9
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
下载PDF
基于深度强化学习的轨迹跟踪横向控制研究 被引量:2
10
作者 张炳力 佘亚飞 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第7期865-872,共8页
针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场... 针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。 展开更多
关键词 自动驾驶 轨迹跟踪 深度强化学习 双延迟深度确定性策略梯度(td3)算法 奖励函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部