检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到3篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于情节经验回放的深度确定性策略梯度方法被引量：8: 1; 作者张建行刘全《计算机科学》 CSCD 北大核心 2021年第10期37-43,共7页; 强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 展开更多; 关键词深度确定性策略梯度连续控制任务经验回放累积回报分类经验回放; 下载PDF 职称材料

基于斯蒂芬森价值迭代的改进DDPG算法: 2; 作者张秋娟宋文广李博文《计算机工程与设计》北大核心 2024年第12期3607-3614,共8页; 针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处... 展开更多; 关键词深度强化学习深度确定性策略梯度连续控制任务价值迭代经验回放累积奖励注意力经验回放; 下载PDF 职称材料

基于相似度约束的双策略蒸馏深度强化学习方法被引量：1: 3; 作者徐平安刘全《计算机科学》 CSCD 北大核心 2023年第1期253-261,共9页; 策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量... 展开更多; 关键词深度强化学习策略蒸馏相似度约束知识迁移连续控制任务; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部