期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
平均报酬模型的多步强化学习算法
被引量:
4
1
作者
胡光华
吴沧浦
《控制理论与应用》
EI
CAS
CSCD
北大核心
2000年第5期660-664,共5页
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的...
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .
展开更多
关键词
R学习
强化学习算法
平均
报酬
模型
机器学习
下载PDF
职称材料
基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制
被引量:
10
2
作者
余涛
袁野
《电力系统自动化》
EI
CSCD
北大核心
2010年第21期27-33,共7页
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学...
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学习算法与基于折扣报酬模型的Q(λ)学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R(λ)控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线"模仿学习"所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R(λ)控制器的学习效率及其在实际电力系统中的应用性。
展开更多
关键词
控制性能标准(CPS)
自动发电控制(AGC)
平均
报酬
模型
R(λ)学习
模仿学习
下载PDF
职称材料
题名
平均报酬模型的多步强化学习算法
被引量:
4
1
作者
胡光华
吴沧浦
机构
北京理工大学自动控制系
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2000年第5期660-664,共5页
基金
国家自然科学基金!(6 96 740 0 5 )
文摘
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .
关键词
R学习
强化学习算法
平均
报酬
模型
机器学习
Keywords
reinforcement learning
temporal difference learning
Markov decision processes
R-learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制
被引量:
10
2
作者
余涛
袁野
机构
华南理工大学电力学院
出处
《电力系统自动化》
EI
CSCD
北大核心
2010年第21期27-33,共7页
基金
国家自然科学基金资助项目(50807016)
广东省自然科学基金资助项目(9151064101000049)
中央高校基本科研业务费专项资金资助项目(2009ZM0251)~~
文摘
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学习算法与基于折扣报酬模型的Q(λ)学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R(λ)控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线"模仿学习"所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R(λ)控制器的学习效率及其在实际电力系统中的应用性。
关键词
控制性能标准(CPS)
自动发电控制(AGC)
平均
报酬
模型
R(λ)学习
模仿学习
Keywords
control performance standard(CPS)
automatic generation control(AGC)
average reward model
R(λ)-learning
imitation-learning
分类号
TM76 [电气工程—电力系统及自动化]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
平均报酬模型的多步强化学习算法
胡光华
吴沧浦
《控制理论与应用》
EI
CAS
CSCD
北大核心
2000
4
下载PDF
职称材料
2
基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制
余涛
袁野
《电力系统自动化》
EI
CSCD
北大核心
2010
10
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部