-
题名基于连续时间半马尔可夫决策过程的Option算法
被引量:2
- 1
-
-
作者
唐昊
张晓艳
韩江洪
周雷
-
机构
合肥工业大学计算机与信息学院
合肥工业大学电气与自动化工程学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第9期2027-2037,共11页
-
基金
国家自然科学基金(61174188,71231004,61374158)
国家国际科技合作项目(2011FA10440)
+1 种基金
教育部新世纪优秀人才计划项目(NCET-11-0626)
高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~
-
文摘
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.
-
关键词
连续时间半Markov决策过程
分层强化学习
Q学习
-
Keywords
Continuous-Time Semi-Markov Decision Process (CT-SMDP)
hierarchical rein-forcement learning (hrl)
Q-learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-