期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于深度强化学习的无人机集群协同信息筛选方法研究 被引量:6
1
作者 李欣童 熊智 +2 位作者 陈明星 熊骏 李文龙 《电光与控制》 CSCD 北大核心 2021年第10期6-10,共5页
针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,提出了两种基于深度强化学习的无人机集群协同信息筛选方法,将多无人机定位问题映射为部分可观的马尔可夫决策过程(POMDP),通过克拉美罗下界(CRLB)设置的精度阈值,使... 针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,提出了两种基于深度强化学习的无人机集群协同信息筛选方法,将多无人机定位问题映射为部分可观的马尔可夫决策过程(POMDP),通过克拉美罗下界(CRLB)设置的精度阈值,使用最少协同信息满足所有无人机的定位精度要求。仿真结果表明,同无筛选情形相比,基于深度强化学习的筛选策略可以在不牺牲定位精度的同时,有效提高协同定位算法的实时性,解决协同信息冗余问题,显著提高了协同定位算法的执行效率。 展开更多
关键词 协同定位 无人机集群 深度Q网络算法 策略梯度算法
下载PDF
基于策略梯度及强化学习的拖挂式移动机器人控制方法 被引量:1
2
作者 林俊文 程金 季金胜 《市政技术》 2023年第10期101-105,共5页
针对拖挂式移动机器人的反向泊车运动控制问题,提出了一种基于策略梯度及强化学习的拖挂式移动机器人控制方法。首先,在Gym软件中搭建了具有单节拖车的拖挂式移动机器人的运动学仿真模型,并设计了稳定的反向泊车运动控制律。其次,构建... 针对拖挂式移动机器人的反向泊车运动控制问题,提出了一种基于策略梯度及强化学习的拖挂式移动机器人控制方法。首先,在Gym软件中搭建了具有单节拖车的拖挂式移动机器人的运动学仿真模型,并设计了稳定的反向泊车运动控制律。其次,构建了基于Tensorflow框架的神经网络模型,设计了相应的损失函数,并利用策略梯度算法更新神经网络的参数,以训练机器人的反向泊车运动。仿真实验结果表明,经过训练的拖挂式移动机器人能够有效地学习反向泊车运动控制策略,并稳定地实现反向泊车运动。不同参数下的实验结果验证了基于策略梯度算法的强化学习模型的有效性。 展开更多
关键词 拖挂式移动机器人 强化学习 人工智能 策略梯度算法 反向泊车
下载PDF
基于改进深度强化学习的倒立摆控制器设计 被引量:4
3
作者 王雨轩 陈思溢 黄辉先 《控制工程》 CSCD 北大核心 2022年第11期2018-2026,共9页
小车倒立摆系统是一种具有非线性、强耦合、多变量、欠驱动等特性的自然不稳定系统,倒立摆系统的稳定控制是控制理论中的典型问题。针对该种控制目标,提出了一种基于改进深度学习策略梯度算法的控制方法,控制机构采用强化学习算法作为... 小车倒立摆系统是一种具有非线性、强耦合、多变量、欠驱动等特性的自然不稳定系统,倒立摆系统的稳定控制是控制理论中的典型问题。针对该种控制目标,提出了一种基于改进深度学习策略梯度算法的控制方法,控制机构采用强化学习算法作为控制策略。其中,强化学习系统由策略神经网络和基线函数神经网络共同构成,同时神经网络激活函数采用了性能更优的Swish函数,并添加了基线函数以提高训练效率。将新的算法应用于小车倒立摆系统进行仿真实验,并与经典控制算法进行比较,试验结果证明了本文算法的有效性。 展开更多
关键词 强化学习 深度强化学习 策略梯度算法 激活函数 神经网络 基线函数
下载PDF
动态电源管理的随机切换模型与策略优化 被引量:4
4
作者 江琦 奚宏生 殷保群 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2006年第5期680-686,共7页
提出一种基于连续时间Markov决策过程的动态电源管理策略优化方法.通过建立动态电源管理系统的随机切换模型,将动态电源管理问题转化为带约束的策略优化问题,并给出一种基于矢量合成的策略梯度优化算法.随机切换模型对动态电源管理系统... 提出一种基于连续时间Markov决策过程的动态电源管理策略优化方法.通过建立动态电源管理系统的随机切换模型,将动态电源管理问题转化为带约束的策略优化问题,并给出一种基于矢量合成的策略梯度优化算法.随机切换模型对动态电源管理系统的描述精确,策略优化算法简便有效,既能离线计算,也适用于在线优化.仿真实验验证了该方法的有效性. 展开更多
关键词 动态电源管理 MARKOV决策过程 随机切换模型 策略优化 梯度算法
下载PDF
基于双行动者深度确定性策略梯度算法的间歇过程控制
5
作者 马军伟 徐琛 +1 位作者 陶洪峰 杨慧中 《信息与控制》 CSCD 北大核心 2023年第6期773-783,810,共12页
针对传统基于模型的控制方法在处理间歇过程任务时会因为其复杂的非线性动态导致模型不准确,进而影响控制性能的问题,结合强化学习(RL),提出一种不需要过程模型的间歇过程控制方案。首先,该方法通过双行动者并行训练的结构来解决深度强... 针对传统基于模型的控制方法在处理间歇过程任务时会因为其复杂的非线性动态导致模型不准确,进而影响控制性能的问题,结合强化学习(RL),提出一种不需要过程模型的间歇过程控制方案。首先,该方法通过双行动者并行训练的结构来解决深度强化学习算法中值函数高估计的问题,提高算法的学习效率。其次,为每个行动者设置独立的经验池来保持双行动者的独立性。此外,为RL控制器设置了一种新型奖励函数,引导过程回到预定轨迹,并通过引入延迟策略更新方法来缓解参数更新时的时序差分(TD)误差累积问题。最后利用青霉素发酵过程的仿真,展示了基于双行动者深度确定性策略梯度(TA-DDPG)算法的控制器对间歇过程控制的有效性。 展开更多
关键词 间歇过程 模型未知 强化学习 行动者-评论家框架 策略梯度算法
原文传递
基于策略梯度算法的工作量证明中挖矿困境研究 被引量:3
6
作者 王甜甜 于双元 徐保民 《计算机应用》 CSCD 北大核心 2019年第5期1336-1342,共7页
针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体(Agent),将矿工的... 针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体(Agent),将矿工的潜入率量化为强化学习中的行为分布,通过策略梯度算法中的策略网络对Agent的行为进行预测和优化,最大化矿工的人均收益,并通过模拟实验验证了策略梯度算法的有效性。实验发现,前期矿池处于相互攻击状态,平均收益小于1,出现了纳什均衡的问题;经过policy gradient算法的自我调整后,矿池由相互攻击转变为相互合作,每个矿池的潜入率趋于0,人均收益趋于1。实验结果表明,policy gradient算法可以解决挖矿困境的纳什均衡问题,最大化矿池人均收益。 展开更多
关键词 区块链 工作量证明机制 博弈论 深度强化学习 策略梯度算法
下载PDF
Policy Gradient算法的研究与实现
7
作者 刘俊利 《现代计算机》 2019年第30期3-5,18,共4页
近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术... 近年来,由于在多个领域高效率高质量的成功运用,强化学习在机器学习领域和人工智能领域引发极大的关注。越来越多的人开始意识到机器能够自主学习的巨大价值。策略梯度(Policy Gradient)算法是一种基于策略的(policybased)强化学习技术,是强化学习的经典算法之一。以policy-based方法开始,然后介绍Policy Gradient算法的具体内容,最终利用深度学习框架TensorFlow完成该算法的实现。 展开更多
关键词 TensorFlow 机器学习 强化学习 policy-Based方法 policy gradient算法
下载PDF
基于POMDP模型的机器人行动的仿真优化
8
作者 马军 殷保群 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第21期5903-5906,共4页
策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值。在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该... 策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值。在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该算法对机器人走迷宫的问题进行了仿真。通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率。 展开更多
关键词 POMDP 强化学习 策略梯度算法 仿真优化
下载PDF
基于内部结构MPoMDP模型的策略梯度学习算法 被引量:1
9
作者 张润梅 王浩 +2 位作者 张佑生 姚宏亮 方长胜 《计算机工程与应用》 CSCD 北大核心 2009年第7期20-23,共4页
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-PO... 为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。 展开更多
关键词 马尔可夫决策过程 强化学习 MPOMDP模型 策略梯度算法
下载PDF
基于强化学习的多发导弹协同攻击智能制导律 被引量:16
10
作者 陈中原 韦文书 陈万春 《兵工学报》 EI CAS CSCD 北大核心 2021年第8期1638-1647,共10页
为实现多发导弹对目标的协同攻击,提升打击效能,提出一种基于深度确定性策略梯度下降神经网络的强化学习协同制导律。修正了基于线性交战动力学的剩余飞行时间估计方程,不再受小角度假设的约束,进而提高剩余飞行时间估计精度。以各弹的... 为实现多发导弹对目标的协同攻击,提升打击效能,提出一种基于深度确定性策略梯度下降神经网络的强化学习协同制导律。修正了基于线性交战动力学的剩余飞行时间估计方程,不再受小角度假设的约束,进而提高剩余飞行时间估计精度。以各弹的剩余飞行时间误差为协调变量,与各弹的剩余飞行距离一同作为强化学习算法的观测量。利用脱靶量和剩余飞行时间误差构造奖励函数,离线训练生成强化学习智能体。闭环制导过程中,强化学习智能体将实时生成可实现同时打击的制导指令。仿真结果表明:该强化学习制导律能够实现多发导弹对目标的同时攻击;与传统协同制导律相比,强化学习协同制导律的脱靶量较小,攻击时间误差也较小。 展开更多
关键词 导弹 协同制导律 同时攻击 强化学习 深度确定性策略梯度下降算法
下载PDF
基于深度强化学习的含高比例可再生能源配电网就地分散式电压管控方法 被引量:13
11
作者 徐博涵 向月 +4 位作者 潘力 方梦秋 彭光博 刘友波 刘俊勇 《电力系统保护与控制》 EI CSCD 北大核心 2022年第22期100-109,共10页
含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问... 含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问题,构建了以网络损耗最小为优化目标的多智能体分散式电压管控框架。然后采用多智能体深度确定性策略梯度算法对智能体进行离线训练,并使用训练完成的智能体进行在线电压管控。最后,基于改进的IEEE33节点系统进行了算例仿真和分析。结果表明,各智能体可以根据各自节点的电气信息求解出近似的全局最优解。 展开更多
关键词 多智能体 电压管控 量测数据不足 多智能体深度确定性策略梯度算法
下载PDF
基于多智能体算法的多微电网-配电网分层协同调度策略 被引量:9
12
作者 陈池瑶 苗世洪 +3 位作者 姚福星 王廷涛 王佳旭 魏文荣 《电力系统自动化》 EI CSCD 北大核心 2023年第10期57-65,共9页
近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以... 近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以兼顾配电网运营商及微电网等多主体的利益诉求,也难以满足调度过程的计算高效性与通信私密性要求。对此,提出了一种基于多智能体算法的多微电网-配电网分层协同调度策略。首先,考虑配电网运营商与微电网在电力市场运行中的主从关系,构建了基于双层Stackelberg博弈的多微电网-配电网电力交易模型;然后,将多微电网-配电网协同调度表述为马尔可夫决策过程,采用基于数据驱动的多智能体深度策略性梯度算法求解Stackelberg均衡;最后,基于改进IEEE 33节点系统开展算例分析,验证了所提模型及算法的有效性。 展开更多
关键词 多微电网 配电网 STACKELBERG博弈 多智能体 深度确定性策略梯度算法 协同调度
下载PDF
基于分步迁移策略的苹果采摘机械臂轨迹规划方法 被引量:12
13
作者 郑嫦娥 高坡 +2 位作者 GAN Hao 田野 赵燕东 《农业机械学报》 EI CAS CSCD 北大核心 2020年第12期15-23,共9页
针对非结构化自然环境使基于深度强化学习的采摘轨迹规划训练效率低的问题,提出了基于分步迁移策略的深度确定性策略梯度算法(DDPG),并进行了苹果采摘轨迹规划。首先,提出了基于DDPG的渐进空间约束分步训练策略;其次,利用迁移学习思想,... 针对非结构化自然环境使基于深度强化学习的采摘轨迹规划训练效率低的问题,提出了基于分步迁移策略的深度确定性策略梯度算法(DDPG),并进行了苹果采摘轨迹规划。首先,提出了基于DDPG的渐进空间约束分步训练策略;其次,利用迁移学习思想,将轨迹规划的最优策略由无障碍场景迁移到单一障碍场景、由单一障碍场景迁移到混杂障碍场景;最后,对多自由度苹果采摘机械臂进行了采摘轨迹规划仿真实验,结果表明,分步迁移策略能够提高DDPG算法的训练效率与网络性能,仿真实验验证了本文方法的有效性。 展开更多
关键词 苹果 采摘机械臂 轨迹规划 深度确定性策略梯度算法 迁移学习
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:7
14
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 不确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
基于改进DDPG算法的复杂环境下AGV路径规划方法研究 被引量:8
15
作者 孟晨阳 郝崇清 +3 位作者 李冉 王晓博 王昭雷 赵江 《计算机应用研究》 CSCD 北大核心 2022年第3期681-687,共7页
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹... 为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络。为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值。实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路。 展开更多
关键词 深度学习 自动化导引车路径规划 深度确定性策略梯度算法 小批量优先采样
下载PDF
改进DDPG无人机航迹规划算法 被引量:7
16
作者 高敬鹏 胡欣瑜 江志烨 《计算机工程与应用》 CSCD 北大核心 2022年第8期264-272,共9页
针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法。围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学... 针对无人机飞行过程存在未知威胁使智能算法处理复杂度高,导致航迹实时规划困难,以及深度强化学习中调整DDPG算法参数,存在时间成本过高的问题,提出一种改进DDPG航迹规划算法。围绕无人机航迹规划问题,构建飞行场景模型,根据飞行动力学理论,搭建动作空间,依据非稀疏化思想,设计奖励函数,结合人工蜂群算法,改进DDPG算法模型参数的更新机制,训练网络模型,实现无人机航迹决策控制。仿真结果表明,所提算法整体训练时长仅为原型算法单次平均训练时长的1.98倍,大幅度提升网络训练效率,降低时间成本,且在满足飞行实时性情况下,符合无人机航迹质量需求,为推动深度强化学习在航迹规划的实际应用提供新思路。 展开更多
关键词 深度确定性策略梯度算法 无人机 航迹规划 深度强化学习 人工蜂群算法
下载PDF
基于DDPG算法的游船航行避碰路径规划 被引量:8
17
作者 周怡 袁传平 +1 位作者 谢海成 羊箭锋 《中国舰船研究》 CSCD 北大核心 2021年第6期19-26,60,共9页
[目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶... [目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型,采用电子海图模拟船舶的航行路径,提出基于失败区域重点学习的DDPG算法改进策略,并针对游船特点改进的船舶领域模型参数等改进方法,提高航线预测和防碰撞准确率。[结果]使用改进的DDPG算法和改进的船舶领域模型,与未改进前的算法相比,船舶避碰正确率由84.9%升至89.7%,模拟航线与真实航线的平均误差由25.2 m降至21.4 m。[结论]通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划,可以实现水域船舶航线监管功能,且当预测航线与其他船舶存在交会时,告警调度人员,从而实现防碰撞预警机制。 展开更多
关键词 混合航道 船舶领域 船舶避碰 深度确定性策略梯度算法 失败区域探索策略
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:3
18
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
下载PDF
基于改进DDPG的变速抽蓄机组参与系统调频研究
19
作者 劳文洁 史林军 +3 位作者 王伟 杨冬梅 吴峰 林克曼 《太阳能学报》 EI CAS CSCD 北大核心 2024年第3期240-250,共11页
在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频... 在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频率控制模型。其次,在考虑机组运行约束的基础上以最小化系统频率偏差及调频出力为目标,引入DDPG算法对各机组的AGC控制指令进行优化。通过在预学习中同时引入随机外部扰动与模型参数变化,提高AGC控制器在具有强不确定性环境中的适应性。最后,在仿真验证DFIM-PSH调频优势的基础上,在不同风电接入及扰动等多场景进行仿真分析,结果表明,所提频率控制方法能有效改善新型电力系统的频率特性且具有强鲁棒性。 展开更多
关键词 抽水蓄能机组 鲁棒性(控制系统) 频率控制 深度确定性策略梯度算法 新型电力系统
下载PDF
基于深度确定性策略梯度与模糊PID的直流微电网VRB储能系统就地层功率控制 被引量:2
20
作者 陆鹏 付华 卢万杰 《电力系统保护与控制》 EI CSCD 北大核心 2023年第18期94-105,共12页
针对直流微电网全钒液流电池(vanadium redox flow battery,VRB)储能系统在实际运行时就地控制层中的功率控制器存在时滞、精度低及抗干扰能力差等问题,提出了一种基于深度确定性策略梯度与模糊PID的功率跟踪控制策略。首先,建立VRB的... 针对直流微电网全钒液流电池(vanadium redox flow battery,VRB)储能系统在实际运行时就地控制层中的功率控制器存在时滞、精度低及抗干扰能力差等问题,提出了一种基于深度确定性策略梯度与模糊PID的功率跟踪控制策略。首先,建立VRB的等效电路模型来描述功率传输特性,并设计了由模糊PID与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法组成的复合控制器。将模糊PID作为主控制器对功率环进行控制,DDPG作为辅助控制器来补偿功率跟踪误差。然后,设计了VRB储能系统就地层功率跟踪控制器,采用麻雀搜索算法(sparrow search algorithm,SSA)对PID参数和模糊规则进行优化,并通过阶跃信号对优化后的系统输出响应进行测试。同时将分配指令功率与储能单元给定功率偏差作为数据集在DDPG中进行训练,以提高主控制器的响应速度和抗干扰能力。最后,通过在3种不同场景的算例下进行仿真,验证了控制策略的有效性及稳定性。结果表明:所提控制策略在电池充放电时,能够快速地跟踪到功率指令值;实时跟踪时,跟踪功率值与调度指令值偏差小于±2%;受到扰动时,能准确修正功率偏差,满足实际要求。 展开更多
关键词 DDPG算法 模糊PID 全钒液流电池 储能系统 功率控制 微电网
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部