-
题名一种平衡探索和利用的优先经验回放方法
被引量:1
- 1
-
-
作者
张佳能
李辉
吴昊霖
王壮
-
机构
四川大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2022年第5期179-185,共7页
-
基金
全军装备预研项目(31505550302)。
-
文摘
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。
-
关键词
强化学习
经验回放
优先采样
利用
探索
软演员-评论家算法
-
Keywords
Reinforcement learning
Experience replay
Priority sampling
Exploitation
Exploration
Soft actor-critic algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-