期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
1
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部