期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于深度强化学习的自适应巡航控制算法 被引量:13
1
作者 韩向敏 鲍泓 +2 位作者 梁军 潘峰 玄祖兴 《计算机工程》 CAS CSCD 北大核心 2018年第7期32-35,41,共5页
自适应巡航控制是智能驾驶领域的核心技术,可通过分层控制或参数可变控制算法实现,但这些算法无法有效应对突发的跟车路况。为此,将深度强化学习与自适应巡航控制相结合,提出基于确定性策略梯度算法的自适应巡航控制算法,使智能车辆可... 自适应巡航控制是智能驾驶领域的核心技术,可通过分层控制或参数可变控制算法实现,但这些算法无法有效应对突发的跟车路况。为此,将深度强化学习与自适应巡航控制相结合,提出基于确定性策略梯度算法的自适应巡航控制算法,使智能车辆可以在自学习过程中完成自适应巡航并不断改进。在开源平台上的测试结果表明,该算法可以使智能驾驶车辆在跟车时加速度保持在1.8 m/s^2以内的比例超过90%,达到人类驾驶员的巡航跟车水平。 展开更多
关键词 智能驾驶 自动控制 自适应巡航控制 深度强化学习 确定性策略梯度算法
下载PDF
基于深度强化学习的分层自适应PID控制算法
2
作者 余文浩 齐立哲 +1 位作者 梁瀚文 孙云权 《计算机系统应用》 2024年第9期245-252,共8页
比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,... 比例积分微分(PID)控制在工业控制和机器人控制领域应用非常广泛.然而,其在实际应用中存在参数整定复杂、系统无法精准建模以及对被控对象变化敏感的问题.为了解决这些问题,本文提出了一种基于深度强化学习算法的分层自适应PID控制算法,即TD3-PID,用于移动机器人的自动控制.其中,上层控制器通过实时观测当前环境状态和系统状态实现对下层PID控制器参数和输出补偿量进行调整,以实时补偿误差从而优化系统性能.本文将所提出的TD3-PID控制器应用于4轮移动机器人轨迹跟踪任务并和其他控制方法进行了真实场景实验对比.结果显示TD3-PID控制器表现出更优越的动态响应性能和抗干扰能力,整体响应误差显著减小,在提高控制系统性能方面具有显著的优势. 展开更多
关键词 深度强化学习 PID算法 自适应控制 确定性策略梯度算法 轨迹跟踪
下载PDF
基于深度强化学习的自适应不确定性经济调度 被引量:59
3
作者 彭刘阳 孙元章 +2 位作者 徐箭 廖思阳 杨丽 《电力系统自动化》 EI CSCD 北大核心 2020年第9期33-42,共10页
当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体... 当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体不确定性进行精确建模显得尤为困难。针对这一问题,引入深度强化学习中深度确定性策略梯度算法,避免对复杂的不确定性进行建模,利用其与环境交互、根据反馈学习改进策略的机制,自适应不确定性的变化。为确保算法适用性,进行了模型泛化方法的设计,针对算法稳定性问题进行了感知-学习比例调整和改进经验回放的机制设计。算例结果表明,所提方法能在自适应系统不确定性的基础上,实现任意场景下的电力系统动态经济调度。 展开更多
关键词 间歇性电源 确定性 动态经济调度 深度强化学习 深度确定性策略梯度算法
下载PDF
基于多智能体深度强化学习的电热联合系统优化运行 被引量:22
4
作者 董雷 刘雨 +3 位作者 乔骥 王新迎 王春斐 蒲天骄 《电网技术》 EI CSCD 北大核心 2021年第12期4729-4737,共9页
电热联合系统优化调度问题对于实现系统的能源互补、经济运行具有重要意义。电热联合系统优化运行涉及非线性、非凸、多目标问题求解,传统方法在计算实时性与迭代收敛性等方面存在困难。文章首先构建电热联合系统优化数学模型,将电热联... 电热联合系统优化调度问题对于实现系统的能源互补、经济运行具有重要意义。电热联合系统优化运行涉及非线性、非凸、多目标问题求解,传统方法在计算实时性与迭代收敛性等方面存在困难。文章首先构建电热联合系统优化数学模型,将电热联合系统按照不同利益主体划分为多智能体,基于多智能体深度确定性策略梯度强化学习算法,建立了适用于电热联合系统的行动器-评判器框架,将优化模型转化为强化学习模型。其次对智能体进行了状态与动作空间的划分,搭建多智能体强化学习环境并设计相应的奖励函数。最后进行电热联合系统算例验证,表明所提方法可以有效解决电热联合系统优化问题。训练后的多智能体强化学习模型可实时生成优化策略,克服传统方法运算时间长、难以满足在线计算要求的问题;和单智能体算法相比,模型训练过程更易稳定收敛,执行过程中各智能体仅依赖局部信息完成计算,解决不同利益主体的数据共享问题。 展开更多
关键词 电热联合系统 优化调度 多智能体深度确定性策略梯度算法 深度强化学习
下载PDF
基于深度强化学习的多能互补发电系统负荷频率控制策略 被引量:19
5
作者 梁煜东 陈峦 +2 位作者 张国洲 任曼曼 胡维昊 《电工技术学报》 EI CSCD 北大核心 2022年第7期1768-1779,共12页
针对大规模可再生能源接入电网引发的系统调频性能下降的问题,该文提出一种基于数据驱动的风火储多能互补发电系统负荷频率控制方法。首先,通过机理分析建立多区域混合发电系统的数学模型;其次,构建含控制性能标准(CPS)、风电机组弃风(P... 针对大规模可再生能源接入电网引发的系统调频性能下降的问题,该文提出一种基于数据驱动的风火储多能互补发电系统负荷频率控制方法。首先,通过机理分析建立多区域混合发电系统的数学模型;其次,构建含控制性能标准(CPS)、风电机组弃风(P_(icast))和动态性能指标的奖励函数,将负荷频率控制问题转换为最大化奖励函数问题,并引入深度确定性策略梯度算法进行求解,通过预学习和在线应用,获得风电机组实际出力情况下的最优自适应协调频率控制策略;最后,从中长期控制性能入手进行分析,通过加入连续阶跃扰动或实际风速扰动仿真,验证所提出方法在改进负荷频率控制性能上的有效性和可行性。仿真结果表明,系统发生扰动时,储能设备的引入及所提的深度确定性策略梯度算法不仅能够更加有效地抑制波动,而且能够在缩短完成负荷频率控制所需调节时间的同时最大限度地减少弃风,提高风电消纳的比例。 展开更多
关键词 多能互补发电系统 负荷频率控制 深度确定性策略梯度算法 控制性能标准(CPS)指标
下载PDF
基于深度强化学习的端到端无人驾驶决策 被引量:19
6
作者 黄志清 曲志伟 +2 位作者 张吉 张严心 田锐 《电子学报》 EI CAS CSCD 北大核心 2020年第9期1711-1719,共9页
端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(... 端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(如车辆转角,车辆速度,道路距离等)作为输入状态,输出车辆驾驶动作(加速,刹车,转向)的连续型控制量.然后在TORCS(The Open Racing Car Simulator)平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN(Deep Q-learning Network)模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果. 展开更多
关键词 无人驾驶 端到端决策 深度强化学习 深度确定性策略梯度算法
下载PDF
基于深度强化学习的二连杆机械臂运动控制方法 被引量:15
7
作者 王建平 王刚 +1 位作者 毛晓彬 马恩琪 《计算机应用》 CSCD 北大核心 2021年第6期1799-1804,共6页
针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现... 针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。 展开更多
关键词 深度强化学习 二连杆机械臂 运动控制 奖罚机制 深度确定性策略梯度算法
下载PDF
基于深度强化学习的含高比例可再生能源配电网就地分散式电压管控方法 被引量:13
8
作者 徐博涵 向月 +4 位作者 潘力 方梦秋 彭光博 刘友波 刘俊勇 《电力系统保护与控制》 EI CSCD 北大核心 2022年第22期100-109,共10页
含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问... 含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问题,构建了以网络损耗最小为优化目标的多智能体分散式电压管控框架。然后采用多智能体深度确定性策略梯度算法对智能体进行离线训练,并使用训练完成的智能体进行在线电压管控。最后,基于改进的IEEE33节点系统进行了算例仿真和分析。结果表明,各智能体可以根据各自节点的电气信息求解出近似的全局最优解。 展开更多
关键词 多智能体 电压管控 量测数据不足 多智能体深度确定性策略梯度算法
下载PDF
基于多智能体算法的多微电网-配电网分层协同调度策略 被引量:9
9
作者 陈池瑶 苗世洪 +3 位作者 姚福星 王廷涛 王佳旭 魏文荣 《电力系统自动化》 EI CSCD 北大核心 2023年第10期57-65,共9页
近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以... 近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以兼顾配电网运营商及微电网等多主体的利益诉求,也难以满足调度过程的计算高效性与通信私密性要求。对此,提出了一种基于多智能体算法的多微电网-配电网分层协同调度策略。首先,考虑配电网运营商与微电网在电力市场运行中的主从关系,构建了基于双层Stackelberg博弈的多微电网-配电网电力交易模型;然后,将多微电网-配电网协同调度表述为马尔可夫决策过程,采用基于数据驱动的多智能体深度策略性梯度算法求解Stackelberg均衡;最后,基于改进IEEE 33节点系统开展算例分析,验证了所提模型及算法的有效性。 展开更多
关键词 多微电网 配电网 STACKELBERG博弈 多智能体 深度确定性策略梯度算法 协同调度
下载PDF
基于分步迁移策略的苹果采摘机械臂轨迹规划方法 被引量:12
10
作者 郑嫦娥 高坡 +2 位作者 GAN Hao 田野 赵燕东 《农业机械学报》 EI CAS CSCD 北大核心 2020年第12期15-23,共9页
针对非结构化自然环境使基于深度强化学习的采摘轨迹规划训练效率低的问题,提出了基于分步迁移策略的深度确定性策略梯度算法(DDPG),并进行了苹果采摘轨迹规划。首先,提出了基于DDPG的渐进空间约束分步训练策略;其次,利用迁移学习思想,... 针对非结构化自然环境使基于深度强化学习的采摘轨迹规划训练效率低的问题,提出了基于分步迁移策略的深度确定性策略梯度算法(DDPG),并进行了苹果采摘轨迹规划。首先,提出了基于DDPG的渐进空间约束分步训练策略;其次,利用迁移学习思想,将轨迹规划的最优策略由无障碍场景迁移到单一障碍场景、由单一障碍场景迁移到混杂障碍场景;最后,对多自由度苹果采摘机械臂进行了采摘轨迹规划仿真实验,结果表明,分步迁移策略能够提高DDPG算法的训练效率与网络性能,仿真实验验证了本文方法的有效性。 展开更多
关键词 苹果 采摘机械臂 轨迹规划 深度确定性策略梯度算法 迁移学习
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:7
11
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
基于DDPG算法的双轮腿机器人运动控制研究 被引量:6
12
作者 陈恺丰 田博睿 +4 位作者 李和清 赵晨阳 陆祖兴 李新德 邓勇 《系统工程与电子技术》 EI CSCD 北大核心 2023年第4期1144-1151,共8页
轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic... 轮腿式机器人兼具轮式和足式机器人的机动性和灵活性,在多种场景中具有广泛的应用前景。针对双轮腿机器人在崎岖地形运动控制缺陷、高度依赖于精确动力学模型、无法自适应求解等问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的双轮腿机器人控制方法。首先,分析了双轮腿机器人模型及其模糊动力学模型;然后,使用DDPG算法生成双轮腿机器人在崎岖地面的运动控制策略;最后,为了验证控制器性能,分别进行了3组运动控制对比实验。仿真实验表明,在缺少地面状况先验知识的条件下,采用DDPG算法生成的运动控制策略实现了双轮腿式机器人在崎岖地面快速稳定运动的功能,其平均速度相比双轮机器人提高了约29.2%,姿态角偏移峰值相比双足机器人分别减小了约43.9%、66%、50%。 展开更多
关键词 运动控制 强化学习 轮腿机器人 深度确定性策略梯度算法
下载PDF
基于改进DDPG算法的复杂环境下AGV路径规划方法研究 被引量:8
13
作者 孟晨阳 郝崇清 +3 位作者 李冉 王晓博 王昭雷 赵江 《计算机应用研究》 CSCD 北大核心 2022年第3期681-687,共7页
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹... 为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络。为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值。实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路。 展开更多
关键词 深度学习 自动化导引车路径规划 深度确定性策略梯度算法 小批量优先采样
下载PDF
基于多智能体强化学习的轨道追逃博弈方法 被引量:8
14
作者 许旭升 党朝辉 +2 位作者 宋斌 袁秋帆 肖余之 《上海航天(中英文)》 CSCD 2022年第2期24-31,共8页
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。 展开更多
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能体深度确定性策略梯度算法 涌现 智能
下载PDF
改进DDPG无人机航迹规划算法 被引量:7
15
作者 高敬鹏 胡欣瑜 江志烨 《计算机工程与应用》 CSCD 北大核心 2022年第8期264-272,共9页
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法。围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学... 针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法。围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型参数的更新机制,训练网络模型,实现无人机航迹决策控制。仿真结果表明,所提算法整体训练时长仅为原型算法单次平均训练时长的1.98倍,大幅度提升网络训练效率,降低时间成本,且在满足飞行实时性情况下,符合无人机航迹质量需求,为推动深度强化学习在航迹规划的实际应用提供新思路。 展开更多
关键词 深度确定性策略梯度算法 无人机 航迹规划 深度强化学习 人工蜂群算法
下载PDF
基于DDPG算法的游船航行避碰路径规划 被引量:8
16
作者 周怡 袁传平 +1 位作者 谢海成 羊箭锋 《中国舰船研究》 CSCD 北大核心 2021年第6期19-26,60,共9页
[目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶... [目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型,采用电子海图模拟船舶的航行路径,提出基于失败区域重点学习的DDPG算法改进策略,并针对游船特点改进的船舶领域模型参数等改进方法,提高航线预测和防碰撞准确率。[结果]使用改进的DDPG算法和改进的船舶领域模型,与未改进前的算法相比,船舶避碰正确率由84.9%升至89.7%,模拟航线与真实航线的平均误差由25.2 m降至21.4 m。[结论]通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划,可以实现水域船舶航线监管功能,且当预测航线与其他船舶存在交会时,告警调度人员,从而实现防碰撞预警机制。 展开更多
关键词 混合航道 船舶领域 船舶避碰 深度确定性策略梯度算法 失败区域探索策略
下载PDF
基于机群划分与深度强化学习的风电场低电压穿越有功/无功功率联合控制策略 被引量:4
17
作者 韩佶 苗世洪 +3 位作者 Martinez-Rico Jon 柳舟 陈哲 蔡杰 《中国电机工程学报》 EI CSCD 北大核心 2023年第11期4228-4243,共16页
在低电压穿越(low voltage ride through,LVRT)过程中,电网企业要求风电场向系统提供无功支撑;在满足所规定的无功输出基础上,利用风电场剩余容量提供有功功率,对保障系统稳定性意义重大。该文提出一种基于机群划分与改进深度确定性策... 在低电压穿越(low voltage ride through,LVRT)过程中,电网企业要求风电场向系统提供无功支撑;在满足所规定的无功输出基础上,利用风电场剩余容量提供有功功率,对保障系统稳定性意义重大。该文提出一种基于机群划分与改进深度确定性策略梯度(deep deterministic policy gradient,DDPG)的风电场LVRT有功/无功功率联合控制方法。首先,将LVRT期间风机的有功/无功控制分为3个阶段,并基于此构建了风机控制模型;其次,根据风机运行特性将其划分至多个机群,在功率分配过程中,对属于同一机群的风机分配相同的控制指令,该步骤大大降低了优化变量个数与优化问题求解难度;然后,提出一种不含评价网络的并行化DDPG(critic-network free based parallel DDPG,CFP-DDPG)深度-强化学习算法框架,确立了基于CFP-DDPG的风电场功率控制框架,设计控制中的状态量、动作量、评价函数、模型训练策略和控制方法;最后,采用我国某实际风电场数据验证方法的有效性,结果表明,机群划分步骤有助于快速准确得到功率分配方案,CFP-DDPG通过改进动作评价方法并引入并行化结构增强了智能体的探索力,有助于取得更优的控制方案。 展开更多
关键词 改进深度确定性策略梯度算法 有功/无功功率联合控制 机群划分 低电压穿越
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:3
18
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
下载PDF
强化学习控制方法及在类火箭飞行器上的应用 被引量:3
19
作者 黄旭 柳嘉润 +3 位作者 贾晨辉 骆无意 巩庆海 冯明涛 《宇航学报》 EI CAS CSCD 北大核心 2023年第5期708-718,共11页
针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可... 针对类火箭飞行器进行了基于深度确定性策略梯度(DDPG)算法的姿态控制研究,完成了算法设计和智能体训练,并进行了仿真与飞行试验。基于飞行器六自由度模型搭建飞行模拟器,针对悬停模式,以多拍姿态角跟踪误差以及姿态角速度作为智能体可观测的状态,控制指令作为智能体动作,设计了含有跟踪误差、控制指令变化量以及一次性奖励的回报函数,在模拟器中训练智能体并完成了从仿真环境到真实系统的迁移。研究中未按传统设计流程对飞行器模型进行通道分解等简化,轻量化神经网络形式的智能体仅通过与模拟器交互的形式学习姿态控制策略,智能体在仿真和飞行试验中都展现出了良好性能。 展开更多
关键词 强化学习(RL) 深度确定性策略梯度算法(DDPG) 姿态控制 飞行试验
下载PDF
采用DDPG的双足机器人自学习步态规划方法 被引量:7
20
作者 周友行 赵晗妘 +2 位作者 刘汉江 李昱泽 肖雨琴 《计算机工程与应用》 CSCD 北大核心 2021年第6期254-259,共6页
为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的... 为解决多自由度双足机器人步行控制中高维非线性规划难题,挖掘不确定环境下双足机器人自主运动潜力,提出了一种改进的基于深度确定性策略梯度算法(DDPG)的双足机器人步态规划方案。把双足机器人多关节自由度控制问题转化为非线性函数的多目标优化求解问题,采用DDPG算法来求解。为解决全局逼近网络求解过程收敛慢的问题,采用径向基(RBF)神经网络进行非线性函数值的计算,并采用梯度下降算法更新神经网络权值,采用SumTree来筛选优质样本。通过ROS、Gazebo、Tensorflow的联合仿真平台对双足机器人进行了模拟学习训练。经数据仿真验证,改进后的DDPG算法平均达到最大累积奖励的时间提前了45.7%,成功率也提升了8.9%,且经训练后的关节姿态角度具有更好的平滑度。 展开更多
关键词 双足机器人 步态规划 深度确定性策略梯度算法(DDPG) 径向基函数(RBF)神经网络 SumTree Gazebo
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部