期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
强化学习系统及其基于可靠度最优的学习算法 被引量:3
1
作者 俞星星 阎平凡 《信息与控制》 CSCD 北大核心 1997年第5期332-339,共8页
归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念.针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度最优准则模型.分别结合随机逼近... 归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念.针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度最优准则模型.分别结合随机逼近理论和时间差分理论。 展开更多
关键词 强化学习系统 可靠度 学习算法 学习机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部