期刊文献+
共找到192篇文章
< 1 2 10 >
每页显示 20 50 100
基于改进强化学习的移动机器人路径规划方法 被引量:48
1
作者 徐晓苏 袁杰 《中国惯性技术学报》 EI CSCD 北大核心 2019年第3期314-320,共7页
随着移动机器人在各领域的应用与发展,对移动机器人路径规划能力提出了更高的要求。为了解决现有移动机器人利用强化学习方法进行路径规划时存在的收敛速度慢和规划出路径平滑度较差的问题,提出了一种改进的Q-learning 算法。首先,在Q... 随着移动机器人在各领域的应用与发展,对移动机器人路径规划能力提出了更高的要求。为了解决现有移动机器人利用强化学习方法进行路径规划时存在的收敛速度慢和规划出路径平滑度较差的问题,提出了一种改进的Q-learning 算法。首先,在Q值初始化的过程中引入人工势场法中的引力势场,以加快收敛速度。然后,调整移动机器人动作方向,增加动作步长,并在状态集中增加了方向因素,以提高规划路线的精度。最后,在栅格地图中,对所提出的算法进行了仿真验证。仿真结果表明,改进后的算法较传统的Q-learning 算法在路径规划的时间上减少了91%,并且规划出路径的平滑度提高了79%。 展开更多
关键词 路径规划 强化学习 人工势场 移动机器人 q-learning 算法
下载PDF
基于强化学习理论的地区电网无功电压优化控制方法 被引量:31
2
作者 刁浩然 杨明 +1 位作者 陈芳 孙国忠 《电工技术学报》 EI CSCD 北大核心 2015年第12期408-414,共7页
基于强化学习理论,提出一种实用的地区电网无功电压优化控制方法。方法采用Q学习算法,在动作策略与电网状态的交互中不断学习,得到各状态—动作对所对应的Q值函数,形成电网各种运行状态下最佳的无功电压优化控制策略。方法摆脱了传统电... 基于强化学习理论,提出一种实用的地区电网无功电压优化控制方法。方法采用Q学习算法,在动作策略与电网状态的交互中不断学习,得到各状态—动作对所对应的Q值函数,形成电网各种运行状态下最佳的无功电压优化控制策略。方法摆脱了传统电网无功优化求解非线性混合整数规划模型所存在的收敛性问题,同时,相对于基于多区图的无功电压控制方式,由于方法所依据的Q值函数包含电网的全局响应信息,因而,可以综合判断执行控制策略后各变电站之间的相互影响,统一协调地控制各无功电压控制设备,给出所辖电网内的全局最佳控制策略,提高无功电压优化控制效果。通过对220k V变电站及其馈线系统的测试计算,证明了方法的有效性。 展开更多
关键词 电力系统 无功电压优化控制 强化学习 q算法
下载PDF
基于强化学习方法的风储合作决策 被引量:30
3
作者 刘国静 韩学山 +2 位作者 王尚 杨明 王明强 《电网技术》 EI CSCD 北大核心 2016年第9期2729-2736,共8页
在风储配置给定前提下,研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易,通过合作提升其市场竞争的能力。针对现有研究的不足,在具有过程化样本的前提下,引入强化学习算法。所建立的控制器具备在线... 在风储配置给定前提下,研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易,通过合作提升其市场竞争的能力。针对现有研究的不足,在具有过程化样本的前提下,引入强化学习算法。所建立的控制器具备在线学习能力,在学习过程中不断以混合系统收益为反馈信息逐步具备对储能系统充/放电功率、购买备用容量的决策能力。伴随学习时间的累积,将渐进趋于最佳策略,减轻电网调控负担的同时,提高风储合作效率。 展开更多
关键词 风电 储能系统 强化学习理论 q学习算法
下载PDF
基于导向强化Q学习的无人机路径规划 被引量:29
4
作者 周彬 郭艳 +1 位作者 李宁 钟锡健 《航空学报》 EI CAS CSCD 北大核心 2021年第9期498-505,共8页
随着无人机的广泛应用,其飞行能耗和计算能力面临着瓶颈问题,因此无人机路径规划研究越来越重要。很多情况下,无人机并不能提前获得目标点的确切位置和环境信息,往往无法规划出一条有效的飞行路径。针对这一问题,提出了基于导向强化Q学... 随着无人机的广泛应用,其飞行能耗和计算能力面临着瓶颈问题,因此无人机路径规划研究越来越重要。很多情况下,无人机并不能提前获得目标点的确切位置和环境信息,往往无法规划出一条有效的飞行路径。针对这一问题,提出了基于导向强化Q学习的无人机路径规划方法,该方法利用接收信号强度定义回报值,并通过Q学习算法不断优化路径;提出"导向强化"的原则,加快了学习算法的收敛速度。仿真结果表明,该方法能够实现无人机的自主导航和快速路径规划,与传统算法相比,大大减少了迭代次数,能够获得更短的规划路径。 展开更多
关键词 无人机 路径规划 接收信号强度 q学习算法 导向强化
原文传递
基于强化学习的互联电网CPS自校正控制 被引量:18
5
作者 余涛 周斌 《电力系统保护与控制》 EI CSCD 北大核心 2009年第10期33-38,共6页
AGC是一个动态多级决策问题——马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学习核心算法,将CPS值看作包含AGC的电力系统"环境"所给的"奖励",依... AGC是一个动态多级决策问题——马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学习核心算法,将CPS值看作包含AGC的电力系统"环境"所给的"奖励",依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习。学习目标是使CPS控制动作从环境获得的长期积累奖励值最大,从而快速自动地在线优化CPS控制系统的输出。仿真研究显示,引入强化学习自校正控制后显著增强了整个AGC系统的鲁棒性和适应性,有效提高了CPS考核合格率。 展开更多
关键词 强化学习 q学习算法 自动发电控制 CPS标准 自校正控制
下载PDF
基于Q学习算法和遗传算法的动态环境路径规划 被引量:17
6
作者 于乃功 王琛 +1 位作者 默凡凡 蔡建羡 《北京工业大学学报》 CAS CSCD 北大核心 2017年第7期1009-1016,共8页
针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索... 针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性. 展开更多
关键词 动态环境 连续环境 路径规划 q学习算法
下载PDF
电力市场智能模拟中代理决策模块的实现 被引量:14
7
作者 陈皓勇 杨彦 +3 位作者 张尧 王野平 荆朝霞 陈青松 《电力系统自动化》 EI CSCD 北大核心 2008年第20期22-26,共5页
在日前交易方式下,发电厂商为了追求长期最大利润,竞价策略显得尤其重要。通常,发电厂商运用的策略过于复杂,难以用传统的博弈论方法来建模。人工智能中强化学习Q-learning算法是一种自适应的学习方法,使代理能够通过不断与环境进行交... 在日前交易方式下,发电厂商为了追求长期最大利润,竞价策略显得尤其重要。通常,发电厂商运用的策略过于复杂,难以用传统的博弈论方法来建模。人工智能中强化学习Q-learning算法是一种自适应的学习方法,使代理能够通过不断与环境进行交互所得到的经验进行学习,适合在电力市场智能模拟中运用。文中在开放源代码的电力市场智能模拟平台AMES上,增加了发电厂商代理基于Q-learning的竞价决策程序模块,并在5节点测试系统上进行模拟。实验结果表明,运用基于Q-learning算法竞价决策使代理可以较好地模拟发电厂商的经济特性,且在相同条件下表现出比AMES原有的VRElearning算法更强的探索能力。 展开更多
关键词 智能代理模拟 竞价策略 电力拍卖市场 qlearning算法 VRE learning算法
下载PDF
大数据驱动的精准化教学干预--基于高中数学教学的实证研究 被引量:15
8
作者 李波 彭湃 王磊 《教育研究与实验》 CSSCI 北大核心 2022年第1期64-70,共7页
精准化和个性化一直是教育的理想和诉求。随着信息技术的发展和教育信息化的推进,教育大数据时代已经来临,利用数学建模和大数据分析技术为精准教育提供支持成为可能。本文从多阶段决策视角研究精准化教学干预问题,引入强化学习算法,刻... 精准化和个性化一直是教育的理想和诉求。随着信息技术的发展和教育信息化的推进,教育大数据时代已经来临,利用数学建模和大数据分析技术为精准教育提供支持成为可能。本文从多阶段决策视角研究精准化教学干预问题,引入强化学习算法,刻画教学的过程属性和时序性特征,构建精准化教学干预的通用框架,给出了开展精准化教学干预的具体步骤以及策略,并通过高中数学教学实证研究展示这一框架在教学实践中的具体应用。结果表明,精准化教学干预框架能够提供动态的精准化教学干预策略,有助于提高学生学习效果,为教师开展精准教学提供支持。 展开更多
关键词 精准教学 教学干预 多阶段决策 数据驱动 q-learning算法
原文传递
考虑电-气耦合系统连锁故障的多阶段信息物理协同攻击策略 被引量:15
9
作者 曹茂森 王蕾报 +7 位作者 胡博 谢开贵 伏坚 温力力 周平 范璇 李博 曾意 《电力自动化设备》 EI CSCD 北大核心 2019年第8期128-136,共9页
针对电-气耦合系统在恶意攻击下的风险分析,提出了一种计及电-气耦合系统连锁故障的信息物理多阶段协同攻击策略。为了诱导调度人员做出错误调度决策和降低电网的安全裕度,提出了一种以最大化线路过载程度为目标的改进负荷重分配(LR)攻... 针对电-气耦合系统在恶意攻击下的风险分析,提出了一种计及电-气耦合系统连锁故障的信息物理多阶段协同攻击策略。为了诱导调度人员做出错误调度决策和降低电网的安全裕度,提出了一种以最大化线路过载程度为目标的改进负荷重分配(LR)攻击模型。综合考虑天然气系统与电力系统的调度时间尺度差异,构建一种新型的电-气耦合系统多阶段协同攻击策略:初始阶段通过攻击气网侧气源或管道以影响电-气耦合节点的天然气机组状态,然后针对电力系统交替采用改进LR攻击和物理攻击,最终导致大规模连锁停运。基于Q-Learning提出了最优策略求解算法,以比利时20节点天然气系统和IEEE30节点系统为算例,验证了所提信息物理协同攻击模型的正确性和有效性。 展开更多
关键词 多能源系统 电-气耦合系统 负荷重分配攻击 信息物理协同攻击 连锁故障 q-learning算法
下载PDF
智能代理模拟在电力市场中的运用 被引量:9
10
作者 王野平 杨彦 +2 位作者 荆朝霞 陈皓勇 陈天恩 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第3期109-113,122,共6页
基于智能代理的模拟仿真方法已成为电力市场研究的一种新颖而有效的途径.文中结合某一实际区域电力市场模拟系统的构建,介绍了适合模拟发电厂商报价的智能代理学习算法,详细阐述了VRE learning算法、Q-learning算法以及贪婪算法在模拟... 基于智能代理的模拟仿真方法已成为电力市场研究的一种新颖而有效的途径.文中结合某一实际区域电力市场模拟系统的构建,介绍了适合模拟发电厂商报价的智能代理学习算法,详细阐述了VRE learning算法、Q-learning算法以及贪婪算法在模拟系统中的运用及实现框架,并分别探讨了学习算法在代理报价收敛问题上的不同处理方式.算例结果表明,智能代理模型及学习算法能够模拟发电厂商的理性竞价行为. 展开更多
关键词 电力市场 智能代理 仿真 VRE learning算法 q-learning算法 贪婪算法
下载PDF
基于Q-Learning算法的再入飞行器制导方法 被引量:11
11
作者 李天任 杨奔 +1 位作者 汪韧 惠俊鹏 《战术导弹技术》 北大核心 2019年第5期44-49,共6页
针对再入飞行器制导方法需要根据人工经验调整参数才能适应不同远近、方位目标点的问题,提出'智能预测校正制导'的概念,将飞行环境构建为包含千万量级状态点的状态空间,采用强化学习算法训练制导模型参数,纵向制导依然采用基于... 针对再入飞行器制导方法需要根据人工经验调整参数才能适应不同远近、方位目标点的问题,提出'智能预测校正制导'的概念,将飞行环境构建为包含千万量级状态点的状态空间,采用强化学习算法训练制导模型参数,纵向制导依然采用基于定攻角剖面的倾侧角迭代方法,横向制导则利用Q-Learning算法训练横向翻转决策器。结果表明,该算法训练制导模型有较快的收敛速度,集成多个决策器的打靶成功率达到0. 973。基于QLearning算法的再入飞行器制导方法消除了原有方法基于规则的横向制导逻辑对飞行器附加的一些不必要约束,使飞行器在复杂任务中发挥其较强的机动能力成为可能,有望应用于规避多禁飞区的轨迹规划研究。 展开更多
关键词 再入飞行器 强化学习 预测校正制导 q-learning算法
原文传递
Q-learning算法下的机械臂轨迹规划与避障行为研究 被引量:11
12
作者 郭新兰 《机床与液压》 北大核心 2021年第9期57-61,66,共6页
机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,... 机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,并在迭代中不断更新Q函数值;路径规划中按照关节旋转角度及连杆空间移动距离最小原则,实现在合理避障同时轨迹偏差度最低。仿真结果表明:提出的控制算法收敛性速度快,路径规划效果优于传统规划方案,偏移成本最低。 展开更多
关键词 q-learning算法 机械臂 轨迹规划与避障方案 状态向量集合
下载PDF
基于Q学习算法的综合能源系统韧性提升方法 被引量:11
13
作者 吴熙 唐子逸 +1 位作者 徐青山 周亦洲 《电力自动化设备》 EI CSCD 北大核心 2020年第4期146-152,共7页
将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入Q学习算法实现该复杂问题的求解。针对Q学习算法的弊端,对传统的Q学习算法做了2个改进:改进了Q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:Q学习算... 将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入Q学习算法实现该复杂问题的求解。针对Q学习算法的弊端,对传统的Q学习算法做了2个改进:改进了Q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:Q学习算法在实现问题求解的同时保证了较好的收敛性,改进的初始化方法和采用的置信区间上界算法能显著提高计算效率,使结果收敛到更优解;与常规混合整数线性规划模型相比,Q学习算法具有更好的优化结果。 展开更多
关键词 综合能源系统 孤岛运行 马尔可夫决策过程 q学习算法 韧性
下载PDF
Q-learning算法及其在囚徒困境问题中的实现 被引量:7
14
作者 张春阳 陈小平 +1 位作者 刘贵全 蔡庆生 《计算机工程与应用》 CSCD 北大核心 2001年第13期121-122,128,共3页
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。
关键词 机器学习 强化学习 q-learning算法 囚徒困境问题 人工智能
下载PDF
未知环境中基于强化学习的移动机器人路径规划 被引量:10
15
作者 梁泉 《机电工程》 CAS 2012年第4期477-481,共5页
为解决未知环境中移动机器人的自适应路径规划问题,提出了一种基于Q学习算法的自主学习方法。首先设计了未知环境中基于传感器信息的移动机器人自主路径规划的学习框架,并建立了学习算法中各要素的数学模型;然后利用模糊逻辑方法解决了... 为解决未知环境中移动机器人的自适应路径规划问题,提出了一种基于Q学习算法的自主学习方法。首先设计了未知环境中基于传感器信息的移动机器人自主路径规划的学习框架,并建立了学习算法中各要素的数学模型;然后利用模糊逻辑方法解决了连续状态空间的泛化问题,有效地降低了Q值表的维数,加快了算法的学习速度;最后在不同障碍环境中对基于Q学习算法的自主学习方法进行了仿真实验,仿真实验中移动机器人通过自主学习较好地完成了自适应路径规划。研究结果证明了该自主学习方法的有效性。 展开更多
关键词 未知环境 q学习算法 移动机器人 路径规划
下载PDF
交通诱导信息对路网中车辆行为的影响 被引量:10
16
作者 魏赟 范炳全 +1 位作者 韩印 干宏程 《交通运输工程学报》 EI CSCD 北大核心 2009年第6期114-120,126,共8页
为研究诱导模型的诱导效果,用元胞自动机模型模拟车辆在路网中的行为,仿真了不同诱导信息在不同交通量、不同受诱导率情况下对交通流的影响,提出基于Agent的交通诱导模型,模型采用Q-学习算法优化诱导信息,可根据路网中交通流情况发布建... 为研究诱导模型的诱导效果,用元胞自动机模型模拟车辆在路网中的行为,仿真了不同诱导信息在不同交通量、不同受诱导率情况下对交通流的影响,提出基于Agent的交通诱导模型,模型采用Q-学习算法优化诱导信息,可根据路网中交通流情况发布建议性诱导信息,调节交通流分布。仿真结果表明:影响诱导效果的主要因素为受诱导率和诱导信息,基于Agent的交通诱导模型能有效均衡路网交通流,且随着交通流的增加,优势逐渐明显。在轻交通量情况下,该模型较出行者自由选择路径模型略优;但在重交通量情况下,发布建议性的诱导信息比描述性诱导信息能减少12%平均行程时间。 展开更多
关键词 交通诱导 智能体 微观交通仿真 元胞自动机 q-学习算法
原文传递
基于Q学习算法的高速铁路列车节能优化研究 被引量:9
17
作者 张淼 张琦 张梓轩 《铁道运输与经济》 北大核心 2019年第12期111-117,共7页
随着我国高速铁路运营里程的增加,在带动经济增长的同时,也产生了巨大的能源消耗,为优化高速铁路列车节能,实现我国高速铁路可持续发展,阐述高速铁路列车节能现状,以高速列车站间运行全过程的牵引能耗和准时性为目标,综合考虑线路和列... 随着我国高速铁路运营里程的增加,在带动经济增长的同时,也产生了巨大的能源消耗,为优化高速铁路列车节能,实现我国高速铁路可持续发展,阐述高速铁路列车节能现状,以高速列车站间运行全过程的牵引能耗和准时性为目标,综合考虑线路和列车等约束条件,建立列车节能驾驶控制模型。在此基础上,设计一种基于Q学习算法的列车运行能耗优化模型,并以京沈客运专线黑山北-阜新站间线路为例,对节能优化策略进行了仿真验证。结果表明,该算法能够在满足所有约束条件下,有效减少列车站间运行能耗。 展开更多
关键词 高速铁路列车 强化学习 q学习算法 节能优化 京沈客运专线
下载PDF
基于Q学习算法的发电公司决策新模型 被引量:8
18
作者 宋依群 吴炯 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第4期568-571,共4页
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模... 提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 展开更多
关键词 电力市场 q学习算法 MARKOV决策过程 策略行为
下载PDF
基于形态自适应网络的无人机目标跟踪方法 被引量:8
19
作者 刘贞报 马博迪 +4 位作者 高红岗 院金彪 江飞鸿 张军红 赵闻 《航空学报》 EI CAS CSCD 北大核心 2021年第4期481-494,共14页
针对无人机影像目标跟踪过程中常出现的目标方向变化、目标遮挡变化、样本多样性不足等问题,提出了一种基于形态自适应网络的无人机航空影像目标跟踪算法。首先使用基于数据驱动的方法对数据集进行扩增,添加了遮挡样本和多旋转角度样本... 针对无人机影像目标跟踪过程中常出现的目标方向变化、目标遮挡变化、样本多样性不足等问题,提出了一种基于形态自适应网络的无人机航空影像目标跟踪算法。首先使用基于数据驱动的方法对数据集进行扩增,添加了遮挡样本和多旋转角度样本,提高样本多样性;提出的形态自适应网络模型通过旋转不变约束改进深度置信网络,提取强表征能力的深度特征,使得模型能够自动适应目标形态变化,利用深度特征变换算法获取待检测目标的预定位区域,采用基于Q学习算法的搜索机制对目标进行自适应精准定位,使用深度森林分类器提取跟踪目标的类别信息,得到高精度的目标跟踪结果。在多个数据集上进行了对比实验,实验结果表明该算法能够达到较高的跟踪精度,可以适应目标旋转、目标遮挡等形态变化情况,具有较好的准确性和鲁棒性。 展开更多
关键词 目标跟踪 无人机影像 深度置信网络 q学习算法 目标形态变化
原文传递
基于RDC-Q学习算法的移动机器人路径规划 被引量:7
20
作者 王子强 武继刚 《计算机工程》 CAS CSCD 2014年第6期211-214,共4页
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚... 传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。 展开更多
关键词 路径规划 移动机器人 强化学习 q学习算法 回报函数 学习效率
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部