期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
强化学习中动态ε的贪婪探索策略
1
作者 孔燕 曹俊豪 +1 位作者 杨智超 芮烨锋 《信息技术》 2024年第7期60-64,70,共6页
随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(A... 随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(ACDD),能够平衡强化学习中的探索和利用问题。DEG将状态输入到ACDD框架得到优势值来自动调整ε的值,从而保持探索和利用之间的更好平衡。该实验在多臂老虎机任务中对DEG进行测试,将累计平均奖励和最优动作选择率作为评估标准。与一些广泛使用的方法相比,DEG可以达到更高的平均累积奖励和最优动作选择率,并提高了性能。 展开更多
关键词 深度强学习 探索和利用 动态化ε Dueling Actor-Critic框架 多臂老虎机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部