期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种二阶TD Error快速Q(λ)算法 被引量:5
1
作者 傅启明 刘全 +3 位作者 孙洪坤 高龙 李瑾 王辉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 展开更多
关键词 强化学习 马尔科夫决策过程 二阶td ERROR 资格迹 Q(λ)算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部