期刊文献+
共找到829篇文章
< 1 2 42 >
每页显示 20 50 100
基于Q学习算法和BP神经网络的倒立摆控制 被引量:55
1
作者 蒋国飞 吴沧浦 《自动化学报》 EI CSCD 北大核心 1998年第5期662-666,共5页
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的... Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]的AHC(AdaptiveHeuristicCritic)等方法相比,具有更好的学习效果. 展开更多
关键词 q学习 BP网络 学习控制 倒立摆系统
下载PDF
基于深度强化学习的微能源网能量管理与优化策略研究 被引量:60
2
作者 刘俊峰 陈剑龙 +2 位作者 王晓生 曾君 黄倩颖 《电网技术》 EI CSCD 北大核心 2020年第10期3794-3803,共10页
面向多种可再生能源接入的微能源网,提出一种基于深度强化学习(deep reinforcement learning,DRL)的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQ network,DQN)对预测负荷、风/光等可再生能源功率输出和分时电价等环境信息... 面向多种可再生能源接入的微能源网,提出一种基于深度强化学习(deep reinforcement learning,DRL)的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQ network,DQN)对预测负荷、风/光等可再生能源功率输出和分时电价等环境信息进行学习,通过习得的策略集对微能源网进行能量管理,是一种模型无关基于价值的智能算法。首先,基于能量总线模型,建立了微能源网研究框架及设备模型。在深入阐述强化学习的框架、Q学习算法和DQN算法的基础理论的基础上,分析了提升DQN性能的经验回放机制与冻结参数机制,并以经济性为目标完成了微能源网能量管理与优化。通过对比不同参数的DQN算法及Q学习算法在微能源网能量管理中的表现,仿真结果展示了继承策略集后算法性能的提升,验证了深度强化学习相比启发式算法在微能源网能量管理应用的可行性和优越性。 展开更多
关键词 微能源网 能量管理 深度强化学习 q学习 深度q网络
下载PDF
基于多主体博弈与强化学习的并网型综合能源微网协调调度 被引量:59
3
作者 刘洪 李吉峰 +2 位作者 葛少云 张鹏 陈星屹 《电力系统自动化》 EI CSCD 北大核心 2019年第1期40-48,共9页
针对传统集中式优化调度方法难以全面反映综合能源微网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微网协调调度模型和方法。首先,针对并... 针对传统集中式优化调度方法难以全面反映综合能源微网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微网协调调度模型和方法。首先,针对并网型综合能源微网中横向电气热冷各子系统及纵向源网荷储等各环节的不同投资与运营主体,开展了多智能体划分;其次,针对可再生能源服务商、微网系统能源服务商、电动汽车用户等智能体,分别构建了各自的决策模型,并建立了以多智能体间利益均衡为目标的联合博弈决策模型;再次,针对多主体博弈这一高维决策难题,引入人工智能求解方法,提出了基于Nash博弈和强化学习算法的综合能源微网协调调度方法;最后,通过实例验证了所提模型和方法的有效性与实用性。 展开更多
关键词 综合能源微网 协调调度 多智能体 博弈理论 q学习
下载PDF
基于BP神经网络的双层启发式强化学习方法 被引量:38
4
作者 刘智斌 曾晓勤 +1 位作者 刘惠义 储荣 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期579-587,共9页
强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传... 强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传统强化学习过程的盲目性.作为定性层,高层由BP神经网络构成,它不需要由外界提供背景知识,利用Shaping技术,将在线获取的动态知识对底层基于表格的Q学习过程进行趋势性启发.算法利用资格迹技术训练神经网络以提高学习效率.NNHQL方法既发挥了标准Q学习的灵活性,又利用了神经网络的泛化性能,为解决较大状态空间下的强化学习问题提供了一个可行的方法.实验结果表明:该方法能够较好地提高强化学习的性能且具有明显的加速效果. 展开更多
关键词 NNH-qL 强化学习 q学习 神经网络 路径规划
下载PDF
基于Q学习的互联电网动态最优CPS控制 被引量:35
5
作者 余涛 周斌 陈家荣 《中国电机工程学报》 EI CSCD 北大核心 2009年第19期13-19,共7页
控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控... 控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控制策略的在线学习和动态优化决策。将CPS值作为包含AGC的电力系统"环境"所给的"奖励",依靠Q值函数与CPS控制动作形成的闭环反馈结构进行交互式学习,学习目标为使CPS动作从环境中获得的长期积累奖励值最大。提出一种实用的半监督群体预学习方法,解决了Q学习控制器在预学习试错阶段的系统镇定和快速收敛问题。仿真研究表明,引入基于Q学习的CPS控制可显著增强整个AGC系统的鲁棒性和适应性,有效提高了CPS的考核合格率。 展开更多
关键词 自动发电控制 q学习 马尔可夫决策过程 控制性能标准 最优控制
下载PDF
一种多移动机器人协作围捕策略 被引量:23
6
作者 苏治宝 陆际联 童亮 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第5期403-406,415,共5页
提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进... 提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进行加权求和获得综合行为,实现对移动目标的围捕.仿真实验获得了在不同条件下的围捕结果.结果表明,环境、hunter与prey的速度关系以及prey的逃跑策略对围捕效果都有影响. 展开更多
关键词 多机器人 围捕 状态聚类 q学习
下载PDF
多智能体系统中具有先验知识的Q学习算法 被引量:21
7
作者 杜春侠 高云 张文 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第7期981-984,共4页
为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行... 为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。 展开更多
关键词 机器学习 q学习 模糊综合决策 多智能体系统
原文传递
Q-learning强化学习制导律 被引量:21
8
作者 张秦浩 敖百强 张秦雪 《系统工程与电子技术》 EI CSCD 北大核心 2020年第2期414-419,共6页
在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行... 在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。 展开更多
关键词 比例制导 制导律 脱靶量 机动目标 强化学习 q学习 时序差分算法
下载PDF
基于协同最小二乘支持向量机的Q学习 被引量:20
9
作者 王雪松 田西兰 +1 位作者 程玉虎 易建强 《自动化学报》 EI CSCD 北大核心 2009年第2期214-219,共6页
针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘... 针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能. 展开更多
关键词 强化学习 q学习 协同 最小二乘支持向量机 映射
下载PDF
一种新的多智能体Q学习算法 被引量:13
10
作者 郭锐 吴敏 +2 位作者 彭军 彭姣 曹卫华 《自动化学报》 EI CSCD 北大核心 2007年第4期367-372,共6页
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择.同时对算法的收敛性和学习性能进... 针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择.同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力. 展开更多
关键词 多智能体 增强学习 q学习
下载PDF
不确定环境下模具制造项目群随机调度 被引量:14
11
作者 张沙清 陈新度 +1 位作者 陈庆新 陈新 《计算机集成制造系统》 EI CSCD 北大核心 2009年第7期1389-1396,共8页
为确保模具按时交货,通过分析模具制造项目工期、费用与报酬的不确定性,以及项目返修频繁的特点,建立了基于离散时间马尔可夫链的模具制造项目群随机演化模型,并提出了求解该随机动态规划模型的算法框架。通过启发式策略仿真和Q学习,有... 为确保模具按时交货,通过分析模具制造项目工期、费用与报酬的不确定性,以及项目返修频繁的特点,建立了基于离散时间马尔可夫链的模具制造项目群随机演化模型,并提出了求解该随机动态规划模型的算法框架。通过启发式策略仿真和Q学习,有效解决了"维数灾难"问题。最后结合示例阐述了该算法的执行过程,及其可行性与可靠性。 展开更多
关键词 模具制造 随机动态规划 马尔可夫链 启发式策略 仿真 q学习
下载PDF
基于社会关系的工作流任务分派策略研究 被引量:16
12
作者 余阳 王颍 +1 位作者 刘醒梅 陈健 《软件学报》 EI CSCD 北大核心 2015年第3期562-573,共12页
在工作流管理系统中,任务分派策略对工作流系统的性能影响较大,而人力资源社会属性的不稳定也给任务分派带来了挑战.一般的任务分派策略还存在以下问题:分派时只考虑候选资源的个体属性,忽略了流程中其他资源对候选资源的影响;需要为候... 在工作流管理系统中,任务分派策略对工作流系统的性能影响较大,而人力资源社会属性的不稳定也给任务分派带来了挑战.一般的任务分派策略还存在以下问题:分派时只考虑候选资源的个体属性,忽略了流程中其他资源对候选资源的影响;需要为候选资源预先设置能力指标,但预设指标很难与候选资源的实际情况吻合,错误的能力指标会导致将任务分派给不合适的资源,降低工作流系统的性能.为克服上述问题,基于不同的状态转移视角和奖励函数,提出了4种基于Q学习的任务分派算法.通过对比实验,论证了基于Q学习的任务分派算法在未预设资源能力的情况下仍能取得较好效果,且支持在任务分派过程中考虑社会关系的影响,使得平均案例完成时间进一步降低. 展开更多
关键词 工作流 任务分派 社会关系 q学习
下载PDF
基于强化学习的智能干扰算法研究 被引量:15
13
作者 杨鸿杰 张君毅 《电子测量技术》 2018年第20期49-54,共6页
智能干扰是认知电子战的一个重要研究领域,它能够使干扰机自主的学习干扰策略,从而对敌方通信链路进行有效干扰。提出了一种基于强化学习的智能干扰算法,将强化学习算法应用于干扰信道选择上,以达到对敌方通信链路进行跟踪干扰的目的。... 智能干扰是认知电子战的一个重要研究领域,它能够使干扰机自主的学习干扰策略,从而对敌方通信链路进行有效干扰。提出了一种基于强化学习的智能干扰算法,将强化学习算法应用于干扰信道选择上,以达到对敌方通信链路进行跟踪干扰的目的。仿真结果表明,在敌方通信电台为躲避干扰而更换通信信道的情况下,该智能干扰算法通过自主学习,能够有效的预测出通信方下一时刻的通信信道,从而给出有效的干扰策略。在敌方改变信道切换策略时,该算法也能够根据当前情况快速的进行自适应学习,从而给出应对当前情况的有效干扰策略。 展开更多
关键词 强化学习 智能干扰 通信对抗 认知电子战 q学习
下载PDF
基于Q学习的无人机三维航迹规划算法 被引量:15
14
作者 郝钏钏 方舟 李平 《上海交通大学学报》 EI CAS CSCD 北大核心 2012年第12期1931-1935,共5页
针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散... 针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性. 展开更多
关键词 无人机 三维航迹规划 启发信息 航迹约束 q学习
下载PDF
协同设计任务调度的多步Q学习算法 被引量:11
15
作者 陈圣磊 吴慧中 +1 位作者 肖亮 朱耀琴 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2007年第3期398-402,408,共6页
首先建立任务调度问题的目标模型,在分析Q学习算法的基础上,给出调度问题的马尔可夫决策过程描述;针对任务调度的Q学习算法更新速度慢的问题,提出一种基于多步信息更新值函数的多步Q学习调度算法.应用实例表明,该算法能够提高收敛速度,... 首先建立任务调度问题的目标模型,在分析Q学习算法的基础上,给出调度问题的马尔可夫决策过程描述;针对任务调度的Q学习算法更新速度慢的问题,提出一种基于多步信息更新值函数的多步Q学习调度算法.应用实例表明,该算法能够提高收敛速度,有效地解决任务调度问题. 展开更多
关键词 任务调度 协同设计 强化学习 q学习 多步q学习
下载PDF
一种低压电力线载波通信路由方法 被引量:14
16
作者 朱俊超 彭显刚 +2 位作者 杨永 李壮茂 郑凯 《电测与仪表》 北大核心 2018年第11期58-64,共7页
低压电力线载波通信信道常常表现出噪声干扰强、信号衰减大、时变性强,直接影响电力线载波通信的范围,降低电力线载波通信的可靠性。文中通过分析低压电力线网络拓扑结构,提出了一种基于Q学习和改进蚁群系统融合的电力线载波通信路由方... 低压电力线载波通信信道常常表现出噪声干扰强、信号衰减大、时变性强,直接影响电力线载波通信的范围,降低电力线载波通信的可靠性。文中通过分析低压电力线网络拓扑结构,提出了一种基于Q学习和改进蚁群系统融合的电力线载波通信路由方法。首先采用Q学习算法对电力线网络进行全局搜索得到各路径上信息素初始值;然后利用蚁群算法正反馈收敛机制以及改进后自适应调整搜索策略得到最优路由。将文中算法与两种蚂蚁系统算法进行仿真对比,结果表明,文中算法能更快地建立起网络中主节点到各从节点的路由,并能根据通信信道的变化动态的维护路由,具有很强的抗毁性和自愈性,提高了低压电力线载波通信的可靠性。 展开更多
关键词 电力线载波通信 q学习 蚁群系统 可靠性
下载PDF
不确定性环境下基于进化算法的强化学习 被引量:12
17
作者 刘海涛 洪炳熔 +1 位作者 朴松昊 王雪梅 《电子学报》 EI CAS CSCD 北大核心 2006年第7期1356-1360,共5页
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐... 不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法. 展开更多
关键词 部分可观察马尔可夫决策过程 q学习 MEMETIC算法 信度状态 隐状态
下载PDF
基于强化学习的边缘计算网络资源在线分配方法 被引量:12
18
作者 李燕君 蒋华同 高美惠 《控制与决策》 EI CSCD 北大核心 2022年第11期2880-2886,共7页
针对边缘计算应用对实时性的要求,引入软件定义网络和网络功能虚拟化技术对边缘计算网络进行重构.基于此,考虑以最大化长期平均实时任务处理成功率为目标的计算和通信资源在线分配问题.通过建立马尔可夫决策过程模型,提出基于Q学习的资... 针对边缘计算应用对实时性的要求,引入软件定义网络和网络功能虚拟化技术对边缘计算网络进行重构.基于此,考虑以最大化长期平均实时任务处理成功率为目标的计算和通信资源在线分配问题.通过建立马尔可夫决策过程模型,提出基于Q学习的资源在线分配方法.Q学习在状态动作空间较大时内存占用大且会发生维度灾难,鉴于此,进一步提出基于DQN的资源在线分配方法.实验结果表明,所提出算法能够较快收敛,且DQN算法相较于Q学习和其他基准方法能够获得更高的实时任务处理成功率. 展开更多
关键词 边缘计算 资源分配 实时任务 马尔可夫决策过程 q学习 深度强化学习
原文传递
基于强化学习的无人坦克对战仿真研究 被引量:13
19
作者 徐志雄 曹雷 陈希亮 《计算机工程与应用》 CSCD 北大核心 2018年第8期166-171,共6页
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用"同策略"迭代的Sarsa学习算法,代替传统的"异策略"Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分... 对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用"同策略"迭代的Sarsa学习算法,代替传统的"异策略"Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。 展开更多
关键词 多动机引导 q学习 Sarsa学习 无人坦克 对战仿真
下载PDF
强化学习算法在雷达智能抗干扰中的应用 被引量:12
20
作者 汪浩 王峰 《现代雷达》 CSCD 北大核心 2020年第3期40-44,48,共6页
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强... 雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。 展开更多
关键词 智能雷达 强化学习 干扰抑制 策略优化 q学习 Sarsa算法
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部