期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于斯蒂芬森价值迭代的改进DDPG算法
1
作者 张秋娟 宋文广 李博文 《计算机工程与设计》 北大核心 2024年第12期3607-3614,共8页
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。 展开更多
关键词 深度强化学习 深度确定性策略梯度 连续控制任务 价值迭代 经验回放 累积奖励 注意力经验回放
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部