期刊文献+
共找到1,155篇文章
< 1 2 58 >
每页显示 20 50 100
强化学习理论、算法及应用 被引量:92
1
作者 张汝波 顾国昌 +1 位作者 刘照德 王醒策 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期637-642,共6页
强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然... 强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ; 展开更多
关键词 强化学习 学习理论 学习算法 机器学习 智能控制
下载PDF
基于深度强化学习的微能源网能量管理与优化策略研究 被引量:60
2
作者 刘俊峰 陈剑龙 +2 位作者 王晓生 曾君 黄倩颖 《电网技术》 EI CSCD 北大核心 2020年第10期3794-3803,共10页
面向多种可再生能源接入的微能源网,提出一种基于深度强化学习(deep reinforcement learning,DRL)的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQ network,DQN)对预测负荷、风/光等可再生能源功率输出和分时电价等环境信息... 面向多种可再生能源接入的微能源网,提出一种基于深度强化学习(deep reinforcement learning,DRL)的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQ network,DQN)对预测负荷、风/光等可再生能源功率输出和分时电价等环境信息进行学习,通过习得的策略集对微能源网进行能量管理,是一种模型无关基于价值的智能算法。首先,基于能量总线模型,建立了微能源网研究框架及设备模型。在深入阐述强化学习的框架、Q学习算法和DQN算法的基础理论的基础上,分析了提升DQN性能的经验回放机制与冻结参数机制,并以经济性为目标完成了微能源网能量管理与优化。通过对比不同参数的DQN算法及Q学习算法在微能源网能量管理中的表现,仿真结果展示了继承策略集后算法性能的提升,验证了深度强化学习相比启发式算法在微能源网能量管理应用的可行性和优越性。 展开更多
关键词 微能源网 能量管理 深度强化学习 q学习 深度q网络
下载PDF
基于改进强化学习的移动机器人路径规划方法 被引量:43
3
作者 徐晓苏 袁杰 《中国惯性技术学报》 EI CSCD 北大核心 2019年第3期314-320,共7页
随着移动机器人在各领域的应用与发展,对移动机器人路径规划能力提出了更高的要求。为了解决现有移动机器人利用强化学习方法进行路径规划时存在的收敛速度慢和规划出路径平滑度较差的问题,提出了一种改进的Q-learning 算法。首先,在Q... 随着移动机器人在各领域的应用与发展,对移动机器人路径规划能力提出了更高的要求。为了解决现有移动机器人利用强化学习方法进行路径规划时存在的收敛速度慢和规划出路径平滑度较差的问题,提出了一种改进的Q-learning 算法。首先,在Q值初始化的过程中引入人工势场法中的引力势场,以加快收敛速度。然后,调整移动机器人动作方向,增加动作步长,并在状态集中增加了方向因素,以提高规划路线的精度。最后,在栅格地图中,对所提出的算法进行了仿真验证。仿真结果表明,改进后的算法较传统的Q-learning 算法在路径规划的时间上减少了91%,并且规划出路径的平滑度提高了79%。 展开更多
关键词 路径规划 强化学习 人工势场 移动机器人 q-learning 算法
下载PDF
基于BP神经网络的双层启发式强化学习方法 被引量:38
4
作者 刘智斌 曾晓勤 +1 位作者 刘惠义 储荣 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期579-587,共9页
强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传... 强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传统强化学习过程的盲目性.作为定性层,高层由BP神经网络构成,它不需要由外界提供背景知识,利用Shaping技术,将在线获取的动态知识对底层基于表格的Q学习过程进行趋势性启发.算法利用资格迹技术训练神经网络以提高学习效率.NNHQL方法既发挥了标准Q学习的灵活性,又利用了神经网络的泛化性能,为解决较大状态空间下的强化学习问题提供了一个可行的方法.实验结果表明:该方法能够较好地提高强化学习的性能且具有明显的加速效果. 展开更多
关键词 NNH-qL 强化学习 q学习 神经网络 路径规划
下载PDF
基于Q学习的互联电网动态最优CPS控制 被引量:35
5
作者 余涛 周斌 陈家荣 《中国电机工程学报》 EI CSCD 北大核心 2009年第19期13-19,共7页
控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控... 控制性能标准(control performance standard,CPS)下互联电网自动发电控制(automatic generation control,AGC)系统是一个典型的不确定随机系统,应用基于马尔可夫决策过程(Markov decision process,MDP)理论的Q学习算法可有效地实现控制策略的在线学习和动态优化决策。将CPS值作为包含AGC的电力系统"环境"所给的"奖励",依靠Q值函数与CPS控制动作形成的闭环反馈结构进行交互式学习,学习目标为使CPS动作从环境中获得的长期积累奖励值最大。提出一种实用的半监督群体预学习方法,解决了Q学习控制器在预学习试错阶段的系统镇定和快速收敛问题。仿真研究表明,引入基于Q学习的CPS控制可显著增强整个AGC系统的鲁棒性和适应性,有效提高了CPS的考核合格率。 展开更多
关键词 自动发电控制 q学习 马尔可夫决策过程 控制性能标准 最优控制
下载PDF
基于Q-learning的虚拟网络功能调度方法 被引量:35
6
作者 王晓雷 陈云杰 +1 位作者 王琛 牛犇 《计算机工程》 CAS CSCD 北大核心 2019年第2期64-69,共6页
针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度... 针对现有调度方法多数未考虑虚拟网络功能在实例化过程中的虚拟机选择问题,提出一种新的虚拟网络调度方法。建立基于马尔科夫决策过程的虚拟网络功能调度模型,以最小化所有服务功能链的服务延迟时间。通过设计基于Q-learning的动态调度算法,优化虚拟网络功能的调度顺序和虚拟机选择问题,实现最短网络功能虚拟化调度时间。仿真结果表明,与传统的随机虚拟机选择策略相比,该方法能够有效降低虚拟网络功能调度时间,特别是在大规模网络中调度时间可降低约40%。 展开更多
关键词 网络功能虚拟化 服务功能链 调度模型 马尔科夫决策过程 q-学习
下载PDF
Q-学习及其在智能机器人局部路径规划中的应用研究 被引量:17
7
作者 张汝波 杨广铭 +1 位作者 顾国昌 张国印 《计算机研究与发展》 EI CSCD 北大核心 1999年第12期1430-1436,共7页
强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作.在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作? 文中把机器人在未知环境中为躲避障碍... 强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作.在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作? 文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习.Q-学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Q-学习的基本算法之后,提出了具有竞争思想和自组织机制的Q-学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用。 展开更多
关键词 局部路径规划 智能机器人 神经网络 q-学习
下载PDF
基于Q-学习算法的认知雷达对抗过程设计 被引量:32
8
作者 李云杰 朱云鹏 高梅国 《北京理工大学学报》 EI CAS CSCD 北大核心 2015年第11期1194-1199,共6页
将认知概念引入雷达电子对抗,可使干扰系统在动态对抗过程中通过自主学习,确定最具针对性的干扰策略,实现动态高效干扰.在认知雷达对抗概念和内涵讨论基础上,设计了基于Q-学习算法的雷达对抗过程,总结了认知对抗实现中的关键技术难点,... 将认知概念引入雷达电子对抗,可使干扰系统在动态对抗过程中通过自主学习,确定最具针对性的干扰策略,实现动态高效干扰.在认知雷达对抗概念和内涵讨论基础上,设计了基于Q-学习算法的雷达对抗过程,总结了认知对抗实现中的关键技术难点,最后对过程的具体实现进行了仿真,验证了雷达认知对抗中Q值的收敛过程以及先验知识对算法性能的改善情况. 展开更多
关键词 认知 雷达对抗 q-学习
下载PDF
基于Q-学习的智能雷达对抗 被引量:29
9
作者 邢强 贾鑫 朱卫纲 《系统工程与电子技术》 EI CSCD 北大核心 2018年第5期1031-1035,共5页
随着雷达技术的进步,雷达发展趋于多功能与智能化,抗干扰能力增强,应用于常规雷达的对抗方法作战效能下降,针对多功能雷达,尤其是工作模式未知的智能对抗成为雷达对抗领域的热点与难点。基于此,该文阐述了智能雷达对抗(intelligent rada... 随着雷达技术的进步,雷达发展趋于多功能与智能化,抗干扰能力增强,应用于常规雷达的对抗方法作战效能下降,针对多功能雷达,尤其是工作模式未知的智能对抗成为雷达对抗领域的热点与难点。基于此,该文阐述了智能雷达对抗(intelligent radar countermeasure,IRC)方法,对比了智能雷达对抗与传统雷达对抗(traditional radar countermeasure,TRC)的区别。介绍了强化学习(reinforcement learning,RL)基本原理,针对雷达工作模式及数目未知情况,提出了基于Q-学习的智能雷达对抗方法,给出了算法步骤,分析了Q矩阵收敛时间、收敛值与循环次数的关系。仿真实验表明:给定仿真实验条件下,智能化雷达对抗Q矩阵收敛时间仅为秒量级,能根据干扰效果自主学习并智能决策,提高了雷达对抗系统的实时性与自适应性,且能同时对抗多工作模式的雷达。 展开更多
关键词 雷达对抗 智能化 强化学习 q-学习
下载PDF
Exploring Deep Reinforcement Learning with Multi Q-Learning 被引量:25
10
作者 Ethan Duryea Michael Ganger Wei Hu 《Intelligent Control and Automation》 2016年第4期129-144,共16页
Q-learning is a popular temporal-difference reinforcement learning algorithm which often explicitly stores state values using lookup tables. This implementation has been proven to converge to the optimal solution, but... Q-learning is a popular temporal-difference reinforcement learning algorithm which often explicitly stores state values using lookup tables. This implementation has been proven to converge to the optimal solution, but it is often beneficial to use a function-approximation system, such as deep neural networks, to estimate state values. It has been previously observed that Q-learning can be unstable when using value function approximation or when operating in a stochastic environment. This instability can adversely affect the algorithm’s ability to maximize its returns. In this paper, we present a new algorithm called Multi Q-learning to attempt to overcome the instability seen in Q-learning. We test our algorithm on a 4 × 4 grid-world with different stochastic reward functions using various deep neural networks and convolutional networks. Our results show that in most cases, Multi Q-learning outperforms Q-learning, achieving average returns up to 2.5 times higher than Q-learning and having a standard deviation of state values as low as 0.58. 展开更多
关键词 Reinforcement learning Deep learning Multi q-learning
下载PDF
基于深度Q学习的移动机器人路径规划 被引量:23
11
作者 刘志荣 姜树海 +1 位作者 袁雯雯 史晨辉 《测控技术》 2019年第7期24-28,共5页
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据... 针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。 展开更多
关键词 q-learning 深度q学习 移动机器人 路径规划
下载PDF
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
12
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
下载PDF
进化博弈中多代理人强化学习模型 被引量:24
13
作者 刘伟兵 王先甲 《系统工程理论与实践》 EI CSCD 北大核心 2009年第3期28-33,共6页
将强化学习引入到进化博弈中,建立了进化博弈中的多代理人强化学习模型,并基于Q-学习给出了算法流程,仿真算例的结果表明多代理人强化学习模型能使得博弈人不断学习、寻求最优策略.
关键词 博弈论 进化博弈 强化学习 q-学习
原文传递
基于Q-Learning的无人驾驶船舶路径规划 被引量:23
14
作者 王程博 张新宇 +1 位作者 邹志强 王少博 《船海工程》 北大核心 2018年第5期168-171,共4页
为实现无人驾驶船舶在未知环境中自适应航行,建立一种基于Q-Learning的无人驾驶船舶路径规划模型。应用基于马尔科夫过程的Q学习算法,分别就环境模型、动作空间、激励函数及动作选择策略4大要素建立模型,设计激励函数,规划最优策略,使... 为实现无人驾驶船舶在未知环境中自适应航行,建立一种基于Q-Learning的无人驾驶船舶路径规划模型。应用基于马尔科夫过程的Q学习算法,分别就环境模型、动作空间、激励函数及动作选择策略4大要素建立模型,设计激励函数,规划最优策略,使得无人驾驶船舶路径规划过程中所获奖赏最大;利用python和pygame平台建立仿真环境,仿真结果表明,该方法可有效地在未知环境中规划出较优路径及成功避让多个障碍物。 展开更多
关键词 q-learning 路径规划 避障 无人驾驶船舶
下载PDF
多智能体系统中具有先验知识的Q学习算法 被引量:21
15
作者 杜春侠 高云 张文 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第7期981-984,共4页
为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行... 为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。 展开更多
关键词 机器学习 q学习 模糊综合决策 多智能体系统
原文传递
强化学习原理、算法及应用 被引量:19
16
作者 黄炳强 曹广益 王占全 《河北工业大学学报》 CAS 2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法... 强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 展开更多
关键词 强化学习 TD算法 q-学习 R-学习
下载PDF
Q-learning强化学习制导律 被引量:21
17
作者 张秦浩 敖百强 张秦雪 《系统工程与电子技术》 EI CSCD 北大核心 2020年第2期414-419,共6页
在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行... 在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。 展开更多
关键词 比例制导 制导律 脱靶量 机动目标 强化学习 q学习 时序差分算法
下载PDF
Artificial Intelligence Based Smart Energy Community Management: A Reinforcement Learning Approach 被引量:20
18
作者 Suyang Zhou Zijian Hu +2 位作者 Wei Gu Meng Jiang Xiao-Ping Zhang 《CSEE Journal of Power and Energy Systems》 SCIE CSCD 2019年第1期1-10,共10页
This paper presents a smart energy community management approach which is capable of implementing P2P trading and managing household energy storage systems.A smart residential community concept is proposed consisting ... This paper presents a smart energy community management approach which is capable of implementing P2P trading and managing household energy storage systems.A smart residential community concept is proposed consisting of domestic users and a local energy pool,in which users are free to trade with the local energy pool and enjoy cheap renewable energy while avoiding the installation of new energy generation equipment.The local energy pool could harvest surplus energy from users and renewable resources,at the same time it sells energy at a higher price than Feed-in-Tariff(FIT)but lower than the retail price.In order to encourage the participation in local energy trading,the electricity price of the energy pool is determined by a real-time demand/supply ratio.Under this pricing mechanism,retail price,users and renewable energy could all affect the electricity price which leads to higher consumers’profits and more optimized utilization of renewable energy.The proposed energy trading process was modeled as a Markov Decision Process(MDP)and a reinforcement learning algorithm was adopted to find the optimal decision in the MDP because of its excellent performance in on-going and model-free tasks.In addition,the fuzzy inference system makes it possible to use Q-learning in continuous state-space problems(Fuzzy Q-learning)considering the infinite possibilities in the energy trading process.To evaluate the performance of the proposed demand side management system,a numerical analysis is conducted in a community comparing the electricity costs before and after using the proposed energy management system. 展开更多
关键词 Artificial intelligence distributed management fuzzy q-learning MICROGRID reinforcement learning
原文传递
采用增强学习算法的排课模型 被引量:14
19
作者 郭方铭 钟珞 《计算机工程与设计》 CSCD 2003年第11期125-128,共4页
时间表问题是典型的组合优化和不确定性调度问题。课表问题是时间表问题的一种形式。分析了排课 问题的数学模型,并研究了用增强学习(Reinforcement Learning)算法中的Q学习(Q-Learning)算法和神经网络 技术结合解决大学课表编排问题,... 时间表问题是典型的组合优化和不确定性调度问题。课表问题是时间表问题的一种形式。分析了排课 问题的数学模型,并研究了用增强学习(Reinforcement Learning)算法中的Q学习(Q-Learning)算法和神经网络 技术结合解决大学课表编排问题,给出了一个基于该算法的排课模型,并对其排课效果进行了分析和探讨。 展开更多
关键词 排课模型 增强学习算法 课程表 高校 组合优化 数学模型 不确定性调度问题
下载PDF
改进的Q-Learning算法及其在路径规划中的应用 被引量:18
20
作者 毛国君 顾世民 《太原理工大学学报》 CAS 北大核心 2021年第1期91-97,共7页
在传统的Q-学习算法上,提出了一种改进算法ε-Q-Learning,并应用到路径规划中。引入了动态搜索因子,其根据环境的反馈来动态调整贪婪因子ε,如果一次从起点到终点的探索失败,则通过增大ε来使下一次探索的随机性增大,以免陷入局部优化困... 在传统的Q-学习算法上,提出了一种改进算法ε-Q-Learning,并应用到路径规划中。引入了动态搜索因子,其根据环境的反馈来动态调整贪婪因子ε,如果一次从起点到终点的探索失败,则通过增大ε来使下一次探索的随机性增大,以免陷入局部优化困境;反之,则通过减少ε来增加目的性。本实验利用算法损失函数、运行效率、步数、总回报来评估算法表现。实验表明,ε-Q-Learning算法相比于已有的Q-Learning算法,不仅可以找到更优的路径,而且可以有效地减少迭代搜索的代价。 展开更多
关键词 路径规划 人工智能 强化学习 q-learning
下载PDF
上一页 1 2 58 下一页 到第
使用帮助 返回顶部