期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于斯蒂芬森价值迭代的改进DDPG算法
1
作者 张秋娟 宋文广 李博文 《计算机工程与设计》 北大核心 2024年第12期3607-3614,共8页
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。 展开更多
关键词 深度强化学习 深度确定性策略梯度 连续控制任务 价值迭代 经验回放 累积奖励 注意力经验回放
下载PDF
基于离线模型预训练学习的改进DDPG算法
2
作者 张茜 王洪格 倪亮 《计算机工程与设计》 北大核心 2022年第5期1451-1458,共8页
针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作... 针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。 展开更多
关键词 深度确定性策略梯度 离线模型 预训练学习 深度双Q网络 累积奖励
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部