-
题名基于斯蒂芬森价值迭代的改进DDPG算法
- 1
-
-
作者
张秋娟
宋文广
李博文
-
机构
长江大学计算机科学学院
-
出处
《计算机工程与设计》
北大核心
2024年第12期3607-3614,共8页
-
基金
国家科技重大专项基金项目(2021DJ1006)
湖北省科技示范基金项目(2019ZYYD016)
2020年新疆维吾尔自治区创新人才建设专项基金项目(2020D01A132)。
-
文摘
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。
-
关键词
深度强化学习
深度确定性策略梯度
连续控制任务
价值迭代
经验回放
累积奖励
注意力经验回放
-
Keywords
deep reinforcement learning
deep deterministic policy gradient
continuous control tasks
value iteration
experience replay
cumulative reward
attentive experience replay
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于离线模型预训练学习的改进DDPG算法
- 2
-
-
作者
张茜
王洪格
倪亮
-
机构
中原工学院计算机学院
-
出处
《计算机工程与设计》
北大核心
2022年第5期1451-1458,共8页
-
基金
河南省科技攻关计划基金项目(222102210281、182102210130)
国家留学基金项目(201908410281)
河南省高校重点科研基金项目(21A520053)。
-
文摘
针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。
-
关键词
深度确定性策略梯度
离线模型
预训练学习
深度双Q网络
累积奖励
-
Keywords
DDPG
offline model
pre-training learning
DDQN
cumulative rewards
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-