检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到3篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

平均报酬模型强化学习理论、算法及应用被引量：4: 1; 作者黄炳强曹广益李建华《计算机工程》 CAS CSCD 北大核心 2007年第18期18-19,39,共3页; 折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬... 展开更多; 关键词平均报酬强化学习 R学习 H学习; 下载PDF 职称材料

基于平均报酬模型的强化学习算法研究被引量：1: 2; 作者黄炳强曹广益 +1 位作者费燕琼王占全《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页; 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 展开更多; 关键词平均报酬强化学习 R学习 H学习 LC学习; 下载PDF 职称材料

可重入生产系统的平均报酬型强化学习调度被引量：5: 3; 作者柳长春沈志江于海斌《信息与控制》 CSCD 北大核心 2004年第2期145-150,共6页; 在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优... 展开更多; 关键词可重入生产系统平均报酬型强化学习调度优化调度策略; 下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部