-
题名基于情节经验回放的深度确定性策略梯度方法
被引量:8
- 1
-
-
作者
张建行
刘全
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
-
出处
《计算机科学》
CSCD
北大核心
2021年第10期37-43,共7页
-
基金
国家自然科学基金(61772355,61702055,61502323,61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏省高校优势学科建设工程资助项目。
-
文摘
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。
-
关键词
深度确定性策略梯度
连续控制任务
经验回放
累积回报
分类经验回放
-
Keywords
Deep deterministic policy gradient
continuous control tasks
Experience replay
Cumulative reward
Classifying experience replay
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于斯蒂芬森价值迭代的改进DDPG算法
- 2
-
-
作者
张秋娟
宋文广
李博文
-
机构
长江大学计算机科学学院
-
出处
《计算机工程与设计》
北大核心
2024年第12期3607-3614,共8页
-
基金
国家科技重大专项基金项目(2021DJ1006)
湖北省科技示范基金项目(2019ZYYD016)
2020年新疆维吾尔自治区创新人才建设专项基金项目(2020D01A132)。
-
文摘
针对DDPG算法的值函数迭代学习收敛缓慢以及经验利用率低的问题,提出一种基于Steffensen价值迭代和注意力经验回放的DDPG算法。将Steffensen迭代法应用于价值迭代过程,提高其收敛速度;采用基于注意力的经验回放机制,计算智能体当前所处状态与经验中状态的相似性,优先采样相似度高的经验,使智能体专注学习包含当前策略频繁访问的状态的经验。在PyBullet环境的6个连续动作控制任务中进行实验,其结果表明,相比DDPG算法、TD3算法、CDLR-DDPG算法和EER-DDPG算法,所提算法收敛更快,性能更好。
-
关键词
深度强化学习
深度确定性策略梯度
连续控制任务
价值迭代
经验回放
累积奖励
注意力经验回放
-
Keywords
deep reinforcement learning
deep deterministic policy gradient
continuous control tasks
value iteration
experience replay
cumulative reward
attentive experience replay
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于相似度约束的双策略蒸馏深度强化学习方法
被引量:1
- 3
-
-
作者
徐平安
刘全
-
机构
苏州大学计算机科学与技术学院
软件新技术与产业化协同创新中心
吉林大学符号计算与知识工程教育部重点实验室
苏州大学江苏省计算机信息处理技术重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2023年第1期253-261,共9页
-
基金
国家自然科学基金(61772355,61702055)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏高校优势学科建设工程资助项目。
-
文摘
策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量的计算资源,因此双策略蒸馏框架(Dual Policy Distillation,DPD)被提出,其不再依赖于教师策略,而是维护两个学生策略互相进行知识迁移。然而,若其中一个学生策略无法通过自我学习超越另一个学生策略,或者两个学生策略在蒸馏后趋于一致,则结合DPD的深度强化学习算法会退化为单一策略的梯度优化方法。针对上述问题,给出了学生策略之间相似度的概念,并提出了基于相似度约束的双策略蒸馏框架(Similarity Constrained Dual Policy Distillation,SCDPD)。该框架在知识迁移的过程中,动态地调整两个学生策略间的相似度,从理论上证明了其能够有效提升学生策略的探索性以及算法的稳定性。实验结果表明,将SCDPD与经典的异策略和同策略深度强化学习算法结合的SCDPD-SAC算法和SCDPD-PPO算法,在多个连续控制任务上,相比经典算法具有更好的性能表现。
-
关键词
深度强化学习
策略蒸馏
相似度约束
知识迁移
连续控制任务
-
Keywords
Deepre inforcement learning
Policy distillation
Similarity constraint
Knowledge transfer
continuous control tasks
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-