-
题名平均报酬模型强化学习理论、算法及应用
被引量:4
- 1
-
-
作者
黄炳强
曹广益
李建华
-
机构
上海交通大学自动化系
华东理工大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第18期18-19,39,共3页
-
文摘
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。
-
关键词
平均报酬强化学习
R学习
H学习
-
Keywords
average reward reinforcement learning
R-learning
H-learning
-
分类号
TP24
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于平均报酬模型的强化学习算法研究
被引量:1
- 2
-
-
作者
黄炳强
曹广益
费燕琼
王占全
-
机构
上海交通大学电子信息与电气工程学院
上海交通大学机械与动力工程学院
华东理工大学信息科学与工程学院
-
出处
《上海理工大学学报》
EI
CAS
北大核心
2006年第5期418-422,共5页
-
基金
国家自然科学基金资助项目(50305021)
-
文摘
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向.
-
关键词
平均报酬强化学习
R学习
H学习
LC学习
-
Keywords
average reward rein forcement learning
R-learning
H-learning
LC-leaning
-
分类号
TP24
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名可重入生产系统的平均报酬型强化学习调度
被引量:5
- 3
-
-
作者
柳长春
沈志江
于海斌
-
机构
中国科学院沈阳自动化研究所
-
出处
《信息与控制》
CSCD
北大核心
2004年第2期145-150,共6页
-
基金
国家自然科学基金资助项目 (699740 3 9)
-
文摘
在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优于两种熟知的优先权调度策略 .
-
关键词
可重入生产系统
平均报酬型强化学习调度
优化
调度策略
-
Keywords
average reward reinforcement learning
reentrant system
scheduling
temporal differences
-
分类号
O224
[理学—运筹学与控制论]
-