检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到2篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于斯蒂芬森价值迭代的改进DDPG算法: 1; 作者张秋娟宋文广李博文《计算机工程与设计》北大核心 2024年第12期3607-3614,共8页; 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 展开更多; 关键词深度强化学习深度确定性策略梯度连续控制任务价值迭代经验回放累积奖励注意力经验回放; 下载PDF 职称材料

基于离线模型预训练学习的改进DDPG算法: 2; 作者张茜王洪格倪亮《计算机工程与设计》北大核心 2022年第5期1451-1458,共8页; 针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作... 展开更多; 关键词深度确定性策略梯度离线模型预训练学习深度双Q网络累积奖励; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部