期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
强化学习原理、算法及应用 被引量:19
1
作者 黄炳强 曹广益 王占全 《河北工业大学学报》 CAS 2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法... 强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 展开更多
关键词 强化学习 TD算法 Q-学习 r-学习
下载PDF
平均报酬模型的多步强化学习算法 被引量:4
2
作者 胡光华 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期660-664,共5页
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的... 讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 . 展开更多
关键词 r学习 强化学习算法 平均报酬模型 机器学习
下载PDF
平均报酬模型强化学习理论、算法及应用 被引量:4
3
作者 黄炳强 曹广益 李建华 《计算机工程》 CAS CSCD 北大核心 2007年第18期18-19,39,共3页
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬... 折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。 展开更多
关键词 平均报酬强化学习 r学习 H学习
下载PDF
基于平均报酬模型的强化学习算法研究 被引量:1
4
作者 黄炳强 曹广益 +1 位作者 费燕琼 王占全 《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向. 展开更多
关键词 平均报酬强化学习 r学习 H学习 LC学习
下载PDF
基于平均奖赏强化学习算法的零阶分类元系统 被引量:1
5
作者 臧兆祥 李昭 +1 位作者 王俊英 但志平 《计算机工程与应用》 CSCD 北大核心 2016年第21期14-20,48,共8页
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的... 零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。 展开更多
关键词 平均奖赏 强化学习 r-学习算法 学习分类元系统(LCS) 零阶分类元系统(ZCS) 多步学习问题
下载PDF
基于平均报酬强化学习的电梯群组调度研究 被引量:1
6
作者 宗群 孙正雅 宋超峰 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第21期4945-4948,共4页
针对电梯群控系统,建立基于平均报酬强化学习的优化调度模型。采用R-learning的平均报酬强化学习求解算法,在分析电梯群组调度问题特点的基础上,利用径向基函数神经网络解决行为值函数的存储与泛化问题,并结合电梯群组虚拟仿真环境进行... 针对电梯群控系统,建立基于平均报酬强化学习的优化调度模型。采用R-learning的平均报酬强化学习求解算法,在分析电梯群组调度问题特点的基础上,利用径向基函数神经网络解决行为值函数的存储与泛化问题,并结合电梯群组虚拟仿真环境进行验证。通过与两种典型的电梯群组调度算法进行比较,展示了平均报酬强化学习算法在处理具有吸收目标状态的大规模随机序贯决策问题的有效性及可行性。 展开更多
关键词 强化学习 rlearning 电梯群组调度 离散事件动态系统
下载PDF
推进信息技术与教学融合 建设智能化教学环境——日本R-learning案例分析及经验借鉴 被引量:2
7
作者 吴砥 《新课程教学(电子版)》 2015年第1期76-81,共6页
一、案例背景介绍日本机器人产业非常发达,日本研发了一些可以应用在教育领域的机器人,以促进机器人在教育中的应用,同时也促进日本教育信息化的变革与发展.比如日本一个小学研发了GENTORO系统,这个系统使用一个机器人和一个手持式投影... 一、案例背景介绍日本机器人产业非常发达,日本研发了一些可以应用在教育领域的机器人,以促进机器人在教育中的应用,同时也促进日本教育信息化的变革与发展.比如日本一个小学研发了GENTORO系统,这个系统使用一个机器人和一个手持式投影仪,让学生能够自己设计故事、讲述故事,就像创作一个电影一样.案例介绍了研究人员使用GENTORO系统对学生进行了试验,结果表明GENTORO系统能够帮助学生创造性地设计故事、 展开更多
关键词 日本教育 r-learning 案例分析 案例介绍 试验研究 投影技术 案例背景 学习活动 表达阶段 课堂教学创新
下载PDF
一种结合Tile Coding的平均奖赏强化学习算法
8
作者 王巍巍 陈兴国 高阳 《模式识别与人工智能》 EI CSCD 北大核心 2008年第4期446-452,共7页
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参... 平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准. 展开更多
关键词 强化学习 马尔可夫决策过程(MDP) r-学习 G-学习 平均奖赏
原文传递
基于R学习的合同网实时调度模型 被引量:1
9
作者 赵良辉 熊作贞 《计算机工程与应用》 CSCD 2014年第10期221-226,237,共7页
提出一种融入合同网运行机制的R学习方法,以此方法为核心构造Agent形成具有学习能力的实时调度模型。模型以最小化作业累计平均流动比为主要目标,同时借助对强化学习报酬的设计减小机器负载的不均衡性,实现对调度过程的双重优化;构造实... 提出一种融入合同网运行机制的R学习方法,以此方法为核心构造Agent形成具有学习能力的实时调度模型。模型以最小化作业累计平均流动比为主要目标,同时借助对强化学习报酬的设计减小机器负载的不均衡性,实现对调度过程的双重优化;构造实时调度实例投入测试的结果证明了模型的绩效。另外,一个包含强化学习Agent与无学习Agent的混合机器环境被构建并测试其性能,测试结果表明:在Agent之间借助强化学习过程形成了某种隐性的合作,正是这种合作保证了高质量实时调度方案的输出。 展开更多
关键词 r学习 合同网 多AGENT合作 实时调度
下载PDF
Assessment criteria for nonverbal interaction contents in r-learning
10
作者 CHOI Jong-hong LEE Jong-yun YOON Heung-seob 《Journal of Central South University》 SCIE EI CAS 2013年第9期2388-2398,共11页
r-learning,which is based on e-learning and u-learning,is defined as a learning support system that intelligent robots serve verbal and nonverbal interactions on ubiquitous computing environment.In order to guarantee ... r-learning,which is based on e-learning and u-learning,is defined as a learning support system that intelligent robots serve verbal and nonverbal interactions on ubiquitous computing environment.In order to guarantee the advantages of r-learning contents with no limits of timc and place and with nonverbal interaction which are not in e-learning contents,in recent years,assessment criteria for r-learning contents are urgently rcquired.Therefore,the reliable and valid assessment criteria were developed for nonverbal interaction contents in r-learning,and its detailed research content is as follows.First,assessment criteria for nonverbal interaction in r-learning contents will be specified into gesture,facial expression,semi-verbal message,distance,physical contact and time.Second,the validity of the developed assessment criteria will be proved by statistics.Consequently,the assessment criteria for nonverbal interaction contents will be helpful when choosing the better r-learning content and producing the better r-learning content,and the reliability of school education is improved ultimately. 展开更多
关键词 r-learning r-learning contents assessment criteria nonverbal interaction contents confirmatory factor analysis construct validity
下载PDF
基于改进NSGA-Ⅱ算法的柔性车间调度问题研究
11
作者 李政 于正林 邵长顺 《长春理工大学学报(自然科学版)》 2024年第2期44-52,共9页
研究了柔性车间调度中双目标调度优化问题,以最小化最大完工时间和最小化机器空载率为优化目标,基于生产机加车间产线建立数学模型。选取NSGA-Ⅱ(Non-dominated Sorting Genetic AlgorithmsⅡ,NSGA-Ⅱ)算法作为基础算法,在此基础上提出... 研究了柔性车间调度中双目标调度优化问题,以最小化最大完工时间和最小化机器空载率为优化目标,基于生产机加车间产线建立数学模型。选取NSGA-Ⅱ(Non-dominated Sorting Genetic AlgorithmsⅡ,NSGA-Ⅱ)算法作为基础算法,在此基础上提出基于反向学习的NSGA-Ⅱ算法(简称OBL-NSGA-Ⅱ),通过引入反向种群,增加种群的多样性,保证了解的质量,能够有效避免算法迭代过程中由于种群多样性降低导致算法陷入局部最优的问题。最后通过Matlab仿真软件进行了对比实验,验证了所提算法的有效性。 展开更多
关键词 NSGA-Ⅱ算法 反向学习 双目标调度优化 种群多样性
下载PDF
一种在线自适应控制马氏链的强化学习算法 被引量:3
12
作者 胡光华 胡光涛 《云南大学学报(自然科学版)》 CAS CSCD 2000年第1期9-12,共4页
讨论平均准则控制马氏链的强化学习算法.目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略.由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法.通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习... 讨论平均准则控制马氏链的强化学习算法.目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略.由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法.通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略.行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略. 展开更多
关键词 强化学习 自适应评判 马氏链 控制问题
原文传递
一种认知无线电系统的传输调度方案 被引量:1
13
作者 余艳英 朱江 张盛峰 《通信技术》 2009年第10期23-25,28,共4页
将认知无线电系统中的传输调度方案建模为一个约束马尔科夫决策过程(CMDP),即在满足缓存器内包数约束的情况下最小化发送数据包消耗的平均功率。因为在认知无线电系统中,环境参数无法预先得知,为此利用R学习来自适应地获取CMDP的近似最... 将认知无线电系统中的传输调度方案建模为一个约束马尔科夫决策过程(CMDP),即在满足缓存器内包数约束的情况下最小化发送数据包消耗的平均功率。因为在认知无线电系统中,环境参数无法预先得知,为此利用R学习来自适应地获取CMDP的近似最优策略。在仿真结果中,对基于R学习的传输调度方案的性能进行了比较和分析,结果显示该方案能适用于参数未知的环境且有效地降低平均功率。 展开更多
关键词 认知无线电 r学习 传输调度
原文传递
新工科物联网工程专业人才培养模式思考 被引量:22
14
作者 桂琼 程小辉 《高教学刊》 2018年第12期167-169,共3页
物联网工程专业是跨学科、跨领域的新型学科,作为新工科典型专业,如何构建新工科物联网工程专业人才培养模式?培养学科交叉融合、综合素质高、创新能力强、能胜任物联网行业发展需求的创新工程人才。文章从四个层面进行思考与探索:新工... 物联网工程专业是跨学科、跨领域的新型学科,作为新工科典型专业,如何构建新工科物联网工程专业人才培养模式?培养学科交叉融合、综合素质高、创新能力强、能胜任物联网行业发展需求的创新工程人才。文章从四个层面进行思考与探索:新工科-工程教育新理念;交叉与融合的课程体系;深度学习的教学模式;产学研深度合作。 展开更多
关键词 新工科 物联网工程 学科交叉融合 深度学习
下载PDF
基于R(λ)学习的孤岛微电网智能发电控制 被引量:15
15
作者 余涛 梁海华 周斌 《电力系统保护与控制》 EI CSCD 北大核心 2012年第13期7-13,共7页
通过研究各种分布式电源的发电特性,搭建了含风电、光伏发电、飞轮储能、小水电、微型燃气轮机与负荷的微电网负荷频率控制(Load Frequency Control,LFC)模型,其中小水电和微型燃气轮机为调频机组。将大型互联电网中的集中式自动发电控... 通过研究各种分布式电源的发电特性,搭建了含风电、光伏发电、飞轮储能、小水电、微型燃气轮机与负荷的微电网负荷频率控制(Load Frequency Control,LFC)模型,其中小水电和微型燃气轮机为调频机组。将大型互联电网中的集中式自动发电控制(Automatic Generation Control,AGC)原理引入微电网,并结合基于平均报酬模型的多步R(λ)学习算法,提出了一种孤岛运行模式下基于强化学习的AGC控制器,以实现对微网的智能发电控制与频率调整。仿真试验分析表明,与PI控制、Q学习和Q(λ)学习相比,所提出的R(λ)控制器具有快速收敛特性和良好的动态性能以及较强的模型适应性。 展开更多
关键词 r(λ)学习 智能发电控制 微电网 分布式电源 负荷频率控制
下载PDF
一种新型基于R-LWE的公钥密码体制 被引量:2
16
作者 白健 刘慧 +1 位作者 张若箐 杨亚涛 《北京电子科技学院学报》 2013年第2期46-49,共4页
格公钥密码体制由其可抵抗量子攻击以及运算简单的优点,已成为密码学界的研究热点。本文基于格理论中的环上的错误学习问题,设计了一种公钥密码体制,给出了该公钥密码体制的具体参数选择,密钥生成和加解密方法。另外,还对该方案的安全... 格公钥密码体制由其可抵抗量子攻击以及运算简单的优点,已成为密码学界的研究热点。本文基于格理论中的环上的错误学习问题,设计了一种公钥密码体制,给出了该公钥密码体制的具体参数选择,密钥生成和加解密方法。另外,还对该方案的安全性和效率进行分析,并将其与NTRU公钥密码体制进行了比较,指出了本方案的优势。 展开更多
关键词 密码学 后量子密码 格公钥密码 r—LWE 基于r—LWE公钥密码体制
下载PDF
以能力培养为导向的“飞行专业英语阅读”课程教学改革 被引量:1
17
作者 郭燕 《现代英语》 2020年第23期15-17,共3页
"飞行专业英语阅读"课是将飞行技术专业知识与英语语言紧密结合的一门交叉性课程,该课程对学生的知识架构以及语言应用技能的培养起到了重要支撑作用。文章分析了课程教学中存在的主要问题,结合专业培养目标,以语言+知识的应... "飞行专业英语阅读"课是将飞行技术专业知识与英语语言紧密结合的一门交叉性课程,该课程对学生的知识架构以及语言应用技能的培养起到了重要支撑作用。文章分析了课程教学中存在的主要问题,结合专业培养目标,以语言+知识的应用为核心,提出具体改革措施。实践结果表明通过教学改革后,学生的学习积极性显著提高,阅读能力明显增强。 展开更多
关键词 OBE理念 阅读能力 探究式学习 5E学习模式 教学改革
原文传递
基于极限学习机的航空旋转整流器故障诊断技术研究 被引量:2
18
作者 王潇雅 崔江 +1 位作者 唐军祥 叶纪青 《机械制造与自动化》 2017年第5期219-222,共4页
航空发电机是航空电源系统的核心部件,针对目前应用于航空发电机旋转整流器故障诊断中的人工智能算法存在诊断速度慢、参数选取困难等问题,将极限学习机引入到航空旋转整流器故障诊断领域。以航空三级式发电机为例,分析了旋转整流器的... 航空发电机是航空电源系统的核心部件,针对目前应用于航空发电机旋转整流器故障诊断中的人工智能算法存在诊断速度慢、参数选取困难等问题,将极限学习机引入到航空旋转整流器故障诊断领域。以航空三级式发电机为例,分析了旋转整流器的故障模式,在Matlab/Simulink中建立发电机模型并模拟旋转整流器故障模式。实验结果表明,极限学习机具有较高的诊断精度。与传统的故障诊断方法相比,它具有更优的诊断效率。 展开更多
关键词 航空发电机 旋转整流器 极限学习机 故障诊断
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部