期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
平均报酬模型的多步强化学习算法 被引量:4
1
作者 胡光华 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期660-664,共5页
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的... 讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 . 展开更多
关键词 R学习 强化学习算法 平均报酬模型 机器学习
下载PDF
基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制 被引量:10
2
作者 余涛 袁野 《电力系统自动化》 EI CSCD 北大核心 2010年第21期27-33,共7页
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学... 提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学习算法与基于折扣报酬模型的Q(λ)学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R(λ)控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线"模仿学习"所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R(λ)控制器的学习效率及其在实际电力系统中的应用性。 展开更多
关键词 控制性能标准(CPS) 自动发电控制(AGC) 平均报酬模型 R(λ)学习 模仿学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部