-
题名基于斯蒂芬森价值迭代的改进DDPG算法
- 1
-
-
作者
张秋娟
宋文广
李博文
-
机构
长江大学计算机科学学院
-
出处
《计算机工程与设计》
北大核心
2024年第12期3607-3614,共8页
-
基金
国家科技重大专项基金项目(2021DJ1006)
湖北省科技示范基金项目(2019ZYYD016)
2020年新疆维吾尔自治区创新人才建设专项基金项目(2020D01A132)。
-
文摘
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。
-
关键词
深度强化学习
深度确定性策略梯度
连续控制任务
价值迭代
经验回放
累积奖励
注意力经验回放
-
Keywords
deep reinforcement learning
deep deterministic policy gradient
continuous control tasks
value iteration
experience replay
cumulative reward
attentive experience replay
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-