-
题名采用分类经验回放的深度确定性策略梯度方法
被引量:12
- 1
-
-
作者
时圣苗
刘全
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第7期1816-1823,共8页
-
基金
国家自然科学基金(61772355,61702055,61876217,62176175)
江苏高校优势学科建设工程项目资助。
-
文摘
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能.
-
关键词
连续控制任务
深度确定性策略梯度
经验回放
分类经验回放
-
Keywords
Continuous control task
deep deterministic policy gradient(DDPG)
experience replay
classifying experience replay
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于情节经验回放的深度确定性策略梯度方法
被引量:8
- 2
-
-
作者
张建行
刘全
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
-
出处
《计算机科学》
CSCD
北大核心
2021年第10期37-43,共7页
-
基金
国家自然科学基金(61772355,61702055,61502323,61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏省高校优势学科建设工程资助项目。
-
文摘
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。
-
关键词
深度确定性策略梯度
连续控制任务
经验回放
累积回报
分类经验回放
-
Keywords
Deep deterministic policy gradient
Continuous control tasks
experience replay
Cumulative reward
classifying experience replay
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-