-
题名一种二阶TD Error快速Q(λ)算法
被引量:5
- 1
-
-
作者
傅启明
刘全
孙洪坤
高龙
李瑾
王辉
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2013年第3期282-292,共11页
-
基金
国家自然科学基金项目(No.61070223
61103045
+4 种基金
61272005
61170020)
江苏省自然科学基金项目(No.BK2012616)
江苏省高校自然科学研究项目(No.09KJA520002
09KJB520012)资助
-
文摘
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.
-
关键词
强化学习
马尔科夫决策过程
二阶td
ERROR
资格迹
Q(λ)算法
-
Keywords
Reinforcement Learning, Markov Decision Process, Second Order td Error, EligibilityTrace, Q ( A ) Algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-