期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
基于强化学习的定向无线通信网络抗干扰资源调度算法 被引量:24
1
作者 谢添 高士顺 +2 位作者 赵海涛 林沂 熊俊 《电波科学学报》 EI CSCD 北大核心 2020年第4期531-541,共11页
为了在无线网络中进行高效的链路资源调度、减小网络干扰、提高网络容量,提出了一种利用回溯天线并考虑干扰环境的链路资源分布式智能调度算法.首先,结合通信的路径损耗模型设计卷积核,对节点密度矩阵进行卷积来衡量干扰链路强度,从而... 为了在无线网络中进行高效的链路资源调度、减小网络干扰、提高网络容量,提出了一种利用回溯天线并考虑干扰环境的链路资源分布式智能调度算法.首先,结合通信的路径损耗模型设计卷积核,对节点密度矩阵进行卷积来衡量干扰链路强度,从而避免对所有干扰链路进行信道估计产生巨大的计算代价;然后,结合强化学习的思想设计了与通信环境交互的链路调度学习模型,每个链路利用神经网络进行独立的训练,将训练所得的决策结果反馈到环境中进行状态更新,模型在不断更新的环境中迭代来学习最优的调度策略.该方法能分布式的运行,可有效衡量无线网络中的链路干扰强度,结合衡量结果进行高效的链路资源分布式调度,从而最大化网络容量.仿真结果验证了该调度算法无论是在算法迭代收敛还是网络容量性能上都能很好地逼近全局的调度算法,达到全局算法最优结果的92%~100%. 展开更多
关键词 链路资源调度 定向通信 分布式智能调度 强化学习 神经网络
下载PDF
多智能体系统中的分布式强化学习研究现状 被引量:12
2
作者 仲宇 顾国昌 张汝波 《控制理论与应用》 EI CAS CSCD 北大核心 2003年第3期317-322,共6页
对目前世界上分布式强化学习方法的研究成果加以总结,分析比较了独立强化学习、社会强化学习和群体强化学习三类分布式强化学习方法的特点、差别和适用范围,并对分布式强化学习仍需解决的问题和未来的发展方向进行了探讨。
关键词 多智能体系统 分布式强化学习 机器学习 人工智能 瞬时差分算法
下载PDF
基于多智能体深度强化学习的分布式电源优化调度策略 被引量:20
3
作者 张津源 蒲天骄 +2 位作者 李烨 王新迎 周翔 《电网技术》 EI CSCD 北大核心 2022年第9期3496-3503,共8页
针对分布式电源集中优化调度难以解决隐私保护的问题,提出一种基于多智能体深度强化学习的分布式优化调度方法。该方法可自适应源荷不确定性,在源荷随机波动的情况下实时给出优化调度策略。首先,阐述了基于通信神经网络架构的多智能体... 针对分布式电源集中优化调度难以解决隐私保护的问题,提出一种基于多智能体深度强化学习的分布式优化调度方法。该方法可自适应源荷不确定性,在源荷随机波动的情况下实时给出优化调度策略。首先,阐述了基于通信神经网络架构的多智能体深度强化学习方法原理。然后,提出基于多智能体深度强化学习的分区分布式优化调度框架,以日运行成本最低为目标构建日前优化调度模型,并考虑各种运行约束。继而,采用近端策略优化算法对该模型进行离线训练,利用训练好的模型进行在线优化调度决策。最后通过改进IEEE33节点算例进行仿真验证,结果表明,各自治区域在仅利用局部通信的情况下即可计算出各自的近似全局最优解。 展开更多
关键词 分布式电源 分布式优化调度 多智能体 深度强化学习
下载PDF
含分布式电源接入的市场多主体博弈分析 被引量:19
4
作者 李刚 刘继春 +4 位作者 魏震波 刘俊勇 刘洋 李丹 唐虎 《电力系统保护与控制》 EI CSCD 北大核心 2016年第19期1-9,共9页
研究能源互联网发展背景下含有分布式电源(distributed generation,DG)接入的电力市场中的多主体博弈问题。首先,利用多代理(multi-agents)技术,在由发电商、供电商与多类型用户组成的市场中,搭建了多主体博弈框架。其次,针对该框架下... 研究能源互联网发展背景下含有分布式电源(distributed generation,DG)接入的电力市场中的多主体博弈问题。首先,利用多代理(multi-agents)技术,在由发电商、供电商与多类型用户组成的市场中,搭建了多主体博弈框架。其次,针对该框架下的市场各主体特点,分别采用统一市场出清价格(market clearing price,MCP)和按报价支付(pay as bid,PAB)的市场机制,构建了最优供应函数决策模型、最优投标电价决策模型以及考虑投标风险的最优投标电量决策模型。并且,基于效用函数,考虑弹性负荷(具有分布式发电或可中断能力)用户的购售能力,建立了最优购电和最优DG发电量决策模型。最终,实现了市场各博弈主体的利益均衡化目的。仿真结果表明,基于多代理技术的博弈能实现市场各主体的合理收益,不同主体组合的市场博弈结果存在较明显差异。充分挖掘弹性负荷调节能力可有效提高分布式清洁能源发电渗透率。以上结果符合工程实际与设计需求,验证了所提模型的合理性与有效性。 展开更多
关键词 分布式电源 多代理(multi-agent) 博弈 强化学习算法
下载PDF
一种新的多智能体强化学习算法及其在多机器人协作任务中的应用 被引量:7
5
作者 顾国昌 仲宇 张汝波 《机器人》 EI CSCD 北大核心 2003年第4期344-348,362,共6页
在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的... 在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数 ,并应用于多机器人协作任务之中 .实验结果表明 ,基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略 . 展开更多
关键词 分布式强化学习 加速算法 多智能体系统
下载PDF
基于深度强化学习的分布式电源就地自适应电压控制方法 被引量:15
6
作者 习伟 李鹏 +3 位作者 李鹏 蔡田田 魏明江 于浩 《电力系统自动化》 EI CSCD 北大核心 2022年第22期25-31,共7页
高比例分布式电源的广泛接入引起了配电网电压波动问题,分布式电源换流器能够提供连续的无功功率支撑,是实现快速电压调节的潜在解决方案。针对高比例分布式电源自适应电压控制问题,文中提出了基于多智能体深度强化学习的分布式电源就... 高比例分布式电源的广泛接入引起了配电网电压波动问题,分布式电源换流器能够提供连续的无功功率支撑,是实现快速电压调节的潜在解决方案。针对高比例分布式电源自适应电压控制问题,文中提出了基于多智能体深度强化学习的分布式电源就地电压控制框架。配电网各区域通过构建深度强化学习智能体以实时感知配电网状态,制定分布式电源运行策略,自适应地应对电压波动。然后,考虑分布式电源换流器功率耦合问题,基于动态边界动作掩模机制设计以保证智能体动作的有效性。最后,采用IEEE 33节点及中国南方电网53节点算例验证了所提方法的可行性与有效性。 展开更多
关键词 有源配电网 分布式电源 自适应电压控制 深度强化学习
下载PDF
基于网络拓扑资源的配电网在线电压控制方法及其迁移强化学习求解 被引量:14
7
作者 胥鹏 王蓓蓓 +4 位作者 包宇庆 方鑫 撖晨宇 刘少君 许洪华 《中国电机工程学报》 EI CSCD 北大核心 2020年第22期7317-7327,共11页
分布式发电(distributed generation,DG)并入配电网后,其出力与负荷的不平衡导致线路中出现逆向潮流,从而引起电压越限。现有配电网电压控制具有局部调节、依赖外接设备的特点,随着外接调节资源的耗尽,逐渐无法满足分散式DG广泛接入下... 分布式发电(distributed generation,DG)并入配电网后,其出力与负荷的不平衡导致线路中出现逆向潮流,从而引起电压越限。现有配电网电压控制具有局部调节、依赖外接设备的特点,随着外接调节资源的耗尽,逐渐无法满足分散式DG广泛接入下的配电网电压调节需求。该文提出一种基于网络拓扑优化调节的电压控制方法,并通过迁移强化学习算法进行求解。该算法基于网络等效简化图理论实现配电网放射性拓扑方案快速生成,且设计了多智能体分布式知识记忆的方式来解决控制变量众多而引起的组合爆炸问题,通过算例分析仿真验证了网络拓扑作为电压控制资源的可行性,以及所提算法实现多变量情况下的秒级求解的能力,满足在线过电压问题治理需求。 展开更多
关键词 分布式发电 电压控制 强化学习 网络拓扑
下载PDF
基于分布式多步回溯Q(λ)学习的复杂电网最优潮流算法 被引量:11
8
作者 余涛 刘靖 胡细兵 《电工技术学报》 EI CSCD 北大核心 2012年第4期185-192,共8页
针对传统最优潮流算法对复杂多目标函数的不适应性以及常规算法难以满足大规模电网计算实时性的要求,本文中提出一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无须对最优潮流数学模型进行辅助处理,不依赖于对象模型... 针对传统最优潮流算法对复杂多目标函数的不适应性以及常规算法难以满足大规模电网计算实时性的要求,本文中提出一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无须对最优潮流数学模型进行辅助处理,不依赖于对象模型,其内部各Agent使用标准的多步Q(λ)算法独立承担各分区子系统的学习任务,通过统一协作从而形成整体意义上的最优,并在IEEE 118节点等标准算例中进行了验证,取得了良好的效果,为解决复杂电网多目标最优潮流问题提供了一种新的可行、有效的方法。 展开更多
关键词 最优潮流 Q(λ)学习 多目标优化 分布式强化学习
下载PDF
面向隐私保护基于联邦强化学习的分布式电源协同优化策略 被引量:6
9
作者 蒲天骄 杜帅 +1 位作者 李烨 王新迎 《电力系统自动化》 EI CSCD 北大核心 2023年第8期62-70,共9页
针对分布式电源优化调度面临的隐私保护和实时决策问题,提出了基于联邦强化学习的多智能体分布式协同优化策略。首先,构建了基于联邦强化学习的配电网分布式协同优化框架,利用联邦学习避免在多智能体深度强化学习过程中泄露隐私数据。... 针对分布式电源优化调度面临的隐私保护和实时决策问题,提出了基于联邦强化学习的多智能体分布式协同优化策略。首先,构建了基于联邦强化学习的配电网分布式协同优化框架,利用联邦学习避免在多智能体深度强化学习过程中泄露隐私数据。在此框架下,提出了多智能体约束策略优化方法,利用离线训练缩短在线决策时间,支持智能体实时分布式决策。同时,该方法为智能体构建了考虑潮流方程等约束条件的可行域,允许智能体在训练过程中自由探索,提高了收敛速度,并确保实时调度策略满足电力系统安全运行约束。最后,通过算例进行仿真验证,结果表明离线训练时各智能体仅利用局部信息即可实现全局优化,并保证了实时决策和调度策略的安全性。 展开更多
关键词 分布式电源 分布式协同优化 深度强化学习 联邦强化学习 隐私保护
下载PDF
基于DQN和DDPG算法的交直流配电网多设备协同电压控制方法 被引量:7
10
作者 韩照洋 赵倩宇 +2 位作者 王守相 董逸超 钱广超 《供用电》 2023年第6期18-25,共8页
分布式光伏大规模接入配电网,推动了交直流配电网的发展。然而,这也带来了电压越限问题,限制了光伏高比例接入的进一步发展。为解决此问题,提出一种基于深度Q网络(deep Q-network,DQN)和深度确定性策略梯度算法(deep deterministic poli... 分布式光伏大规模接入配电网,推动了交直流配电网的发展。然而,这也带来了电压越限问题,限制了光伏高比例接入的进一步发展。为解决此问题,提出一种基于深度Q网络(deep Q-network,DQN)和深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)的交直流配电网深度强化学习电压控制方法。首先,构建了交直流配电网电压控制问题的马尔科夫决策过程;接着,在深度强化学习框架中,利用DQN和DDPG设计了2个智能体,基于DQN的智能体用于控制有载调压变压器和电容器组,而基于DDPG的智能体用于控制变流器的有功功率和无功功率;然后,在此基础上提出了一种多智能体的训练方法,通过与环境不断交互,智能体可以更新网络的参数,从而获得最优电压控制策略;最后,通过对改进的IEEE 33节点算例进行仿真,结果表明所提方法能有效降低电压偏差,解决光伏接入导致的电压越限问题,并实现精确快速的电压控制。 展开更多
关键词 分布式光伏 交直流配电网 深度强化学习 马尔科夫决策过程 电压控制
下载PDF
多智能体路径规划综述 被引量:9
11
作者 刘志飞 曹雷 +2 位作者 赖俊 陈希亮 陈英 《计算机工程与应用》 CSCD 北大核心 2022年第20期43-62,共20页
多智能体路径规划(multi-agent path finding,MAPF)是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突。MAPF在物流、军事、安防等领域有着大量应用。对国内外关于MAPF的主要研究成果进行系统整理... 多智能体路径规划(multi-agent path finding,MAPF)是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突。MAPF在物流、军事、安防等领域有着大量应用。对国内外关于MAPF的主要研究成果进行系统整理和分类,按照规划方式不同,MAPF算法分为集中式规划算法和分布式执行算法。集中式规划算法是最经典和最常用的MAPF算法,主要分为基于A*搜索、基于冲突搜索、基于代价增长树和基于规约四种算法。分布式执行算法是人工智能领域兴起的基于强化学习的MAPF算法,按照改进技术不同,分布式执行算法分为专家演示型、改进通信型和任务分解型三种算法。基于上述分类,比较MAPF各种算法的特点和适用性,分析现有算法的优点和不足,指出现有算法面临的挑战并对未来工作进行了展望。 展开更多
关键词 多智能体路径规划 人工智能 搜索 分布式 强化学习
下载PDF
一种基于分布式强化学习的多智能体协调方法 被引量:5
12
作者 范波 潘泉 张洪才 《计算机仿真》 CSCD 2005年第6期115-117,151,共4页
多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强... 多智能体系统研究的重点在于使功能独立的智能体通过协商、协调和协作,完成复杂的控制任务或解决复杂的问题。通过对分布式强化学习算法的研究和分析,提出了一种多智能体协调方法,协调级将复杂的系统任务进行分解,协调智能体利用中央强化学习进行子任务的分配,行为级中的任务智能体接受各自的子任务,利用独立强化学习分别选择有效的行为,协作完成系统任务。通过在RobotSoccer仿真比赛中的应用和实验,说明了基于分布式强化学习的多智能体协调方法的效果优于传统的强化学习。 展开更多
关键词 多智能体系统 分布式强化学习 多智能体协调
下载PDF
分布式强化学习系统的体系结构研究 被引量:5
13
作者 仲宇 张汝波 顾国昌 《计算机工程与应用》 CSCD 北大核心 2003年第11期111-113,共3页
强化学习是一种重要的机器学习方法,随着计算机网络和分布式处理技术的飞速发展,多智能体系统中的分布式强化学习方法正受到越来越多的关注。论文将目前已有的各种分布式强化学习方法总结为中央强化学习、独立强化学习、群体强化学习、... 强化学习是一种重要的机器学习方法,随着计算机网络和分布式处理技术的飞速发展,多智能体系统中的分布式强化学习方法正受到越来越多的关注。论文将目前已有的各种分布式强化学习方法总结为中央强化学习、独立强化学习、群体强化学习、社会强化学习四类,然后探讨了这四类分布式强化学习方法的体系结构框架,并给出了这四类分布式强化学习方法的形式化定义。 展开更多
关键词 分布式强化学习 多智能体系统 机器学习
下载PDF
适应随机序贯决策的分布式储能优化规划方法 被引量:6
14
作者 高松 黄河 +1 位作者 李妍 姜家兴 《高电压技术》 EI CAS CSCD 北大核心 2022年第11期4385-4392,共8页
在双碳战略和相关能源政策背景下,为平抑规模化接入分布式能源的潮流随机波动,分布式储能将在配电网逐步推广应用。建立适应随机序贯决策的分布式储能规划模型,将电压幅值、储能动作频次和用电成本作为即时回报优化分布式储能响应,基于... 在双碳战略和相关能源政策背景下,为平抑规模化接入分布式能源的潮流随机波动,分布式储能将在配电网逐步推广应用。建立适应随机序贯决策的分布式储能规划模型,将电压幅值、储能动作频次和用电成本作为即时回报优化分布式储能响应,基于优化的分布式储能组合序贯动作进行储能参数配置;基于竞争深度Q网络(dueling deep Q network,DDQN)的深度增强学习方法开展自学习优化,并以全寿命周期投资收益最大化确定分布式储能布点与配置方案。最后在IEEE33节点算例系统接入分布式光伏和储能的条件下,论证了方法的合理有效性。 展开更多
关键词 分布式储能 优化规划 随机序贯决策 深度强化学习 竞争深度Q网络 光伏
下载PDF
面向执行-学习者的在线强化学习并行训练方法 被引量:2
15
作者 孙正伦 乔鹏 +2 位作者 窦勇 李青青 李荣春 《计算机学报》 EI CAS CSCD 北大核心 2023年第2期229-243,共15页
近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方... 近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方法.近同策略方法改善了同策略方法和异策略方法的问题,但是由于其共享内存并行模型的限制,近同策略模型难以扩展到以网络互连的计算集群上,低可扩展性限制了近同策略方法能够利用的资源数量,增加了计算节点的负载,最终导致训练耗时增加.为了提升近同策略方法的可扩展性,提升收敛速度,本文提出了一种以消息传递为基础,使用Gossip算法与模型融合方法的并行执行者-学习者训练框架(Parallel Actor-Learner Architecture,PALA),这一方法通过增强训练的并行性和可扩展性来提升收敛速度.首先,该框架以Gossip算法作为通信基础,借助全局数据代理并使用消息传递模型创建了一套可扩展的多个并行单智能体训练方法.其次,为了保证探索-利用的同策略性,维持训练稳定,本文创建了一套可以用于多机之间进行隐式同步的进程锁.其次,本文面向含有CUDA张量的模型数据,提出了一种序列化方法,以保证模型数据能够通过节点间网络传递、聚合.最后,本文使用模型聚合方法对训练进行加速.基于上述优化和改进,PALA训练方法能够将负载均衡地映射到整个计算集群上,减少由于高负载而造成的长等待时间,提升收敛速度.实验表明,相较于之前使用共享内存模式的方法,PALA训练的智能体在达到相同水平时,训练时间缩减了20%以上,同时,PALA还有着较好的可扩展性,PALA可以扩展的硬件资源数量是原有方法的6倍以上.与其他方法相对比,PALA训练的智能体最终策略在几乎所有测试环境中达到了最优水平. 展开更多
关键词 Gossip算法 强化学习 同策略学习 分布式强化学习 并行训练方法
下载PDF
基于事件驱动架构的分布式流处理弹性资源分配策略研究 被引量:2
16
作者 汤小春 张克 +1 位作者 赵全 李战怀 《计算机学报》 EI CAS CSCD 北大核心 2023年第2期244-259,共16页
针对具有多个数据源以及多个输出的流处理应用,使用单个分布式数据流引擎开发时,不论在架构还是可扩展性方面都存在着不足,而基于事件驱动架构的分布式流处理技术是解决该问题的主要方式.但是,事件驱动架构应用于流处理时,往往面临着数... 针对具有多个数据源以及多个输出的流处理应用,使用单个分布式数据流引擎开发时,不论在架构还是可扩展性方面都存在着不足,而基于事件驱动架构的分布式流处理技术是解决该问题的主要方式.但是,事件驱动架构应用于流处理时,往往面临着数据注入速率与数据处理速率不一致的矛盾,当流数据源的数量发生变化、数据值的分布发生波动时,会导致处理延迟加大或资源利用不充分.针对数据注入与数据处理不一致的问题,现有的弹性资源分配策略难以有效处理生产者和消费者之间的依赖关系,且资源分配效果欠佳.论文提出了一种基于强化学习的弹性资源分配方法,解决了具有依赖关系的流处理应用程序之间的数据波动带来的延迟或者资源利用不充分的问题.通过建立状态矩阵和命令矩阵,使得资源管理器能够感知上下游应用的状态变化,从而及时调整流处理应用的资源需求,保证了流处理应用执行过程的延迟要求,提高了系统的资源利用率.经过测试,基于强化学习的弹性资源分配与Spark动态资源分配方法相比,延迟能减少15%,资源利用率能提高20%以上,其吞吐量能够提高10%左右. 展开更多
关键词 事件驱动 分布式流处理 弹性资源 强化学习 数据注入
下载PDF
深度强化学习在含分布式柔性资源的电网优化调度中的应用研究综述
17
作者 高冠中 杨胜春 +4 位作者 郭晓蕊 姚建国 李亚平 朱克东 严嘉豪 《中国电机工程学报》 EI CSCD 北大核心 2024年第16期6385-6403,I0009,共20页
自2020年我国提出“双碳”目标以来,屋顶光伏、电动汽车、分布式储能等灵活柔性资源呈海量化发展趋势,为新型电力系统平衡提供巨大调节潜力。但海量化柔性资源的多重不确定因素增加,时空决策变量愈发复杂高维,精确机理建模难度遽增,导... 自2020年我国提出“双碳”目标以来,屋顶光伏、电动汽车、分布式储能等灵活柔性资源呈海量化发展趋势,为新型电力系统平衡提供巨大调节潜力。但海量化柔性资源的多重不确定因素增加,时空决策变量愈发复杂高维,精确机理建模难度遽增,导致传统优化方法在求解含大规模、高度随机、认知困难的柔性资源电网优化调度问题时遇到瓶颈。近年来,深度强化学习作为新一代机器学习范式,在详细模型参数未知的情况下,通过与环境的交互学习最优策略,展现出应对此类挑战的能力。对此,该文基于深度强化学习方法,综述含分布式柔性资源的电网优化调度研究。首先,分析资源的运行特征、问题建模、求解策略等;其次,简要概述算法的原理与分类;接着,按照调度问题的不同侧重点,划分“需求侧用户能量管理、聚合层集群协调响应、电网端优化运行控制”场景,分析典型应用、算法效果等,并总结优势与不足,提出可改进点;最后,从仿真环境搭建、改进求解策略、增强智能体性能等方面,对未来的研究方向进行分析与展望。 展开更多
关键词 分布式柔性资源 优化调度 深度强化学习 数据驱动方法 新型电力系统
下载PDF
面向即时响应的卫星在轨分布式协商智能任务规划
18
作者 李英玉 史好迎 赵通 《空间科学学报》 CAS CSCD 北大核心 2024年第1期159-168,共10页
低轨遥感星座任务规划是一个复杂的多目标优化问题,目前基于深度强化学习的卫星任务规划研究存在试验数据星座规模小、优化目标单一、任务重复安排或模型适应性差等问题.针对上述问题,提出CON_DQN(Contract network and Deep Q Network... 低轨遥感星座任务规划是一个复杂的多目标优化问题,目前基于深度强化学习的卫星任务规划研究存在试验数据星座规模小、优化目标单一、任务重复安排或模型适应性差等问题.针对上述问题,提出CON_DQN(Contract network and Deep Q Network)算法,采用主从星在轨分布式协商机制,从星基于规划决策,主星基于深度强化学习算法决策,从任务优先级、资源代价和负载均衡等方面进行多目标优化,实现面向即时响应的卫星在轨分布式协商智能任务规划.针对用户需求高频动态到达重点观测区域的场景,进行百星级星座不同规模任务集的仿真实验,结果表明本文所提算法的响应速度较快且能达到较高的任务收益. 展开更多
关键词 在轨任务规划 即时响应 分布式协商 深度强化学习 多目标优化
下载PDF
基于多智能体深度强化学习的车联网频谱共享
19
作者 王为念 苏健 +2 位作者 陈勇 张建照 唐震 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1690-1699,共10页
针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通... 针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次,利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明,该算法有效载荷平均成功交付率可达95.89%,比随机基线算法提高了16.48%,可快速获取近似最优解,在降低车联网通信系统信令开销方面具有显著优势. 展开更多
关键词 车联网 分布式频谱共享 多智能体 深度强化学习
下载PDF
基于数据驱动与物理模型的主动配电网双时间尺度协调优化 被引量:2
20
作者 张剑 崔明建 +1 位作者 姚潇毅 何怡刚 《电力系统自动化》 EI CSCD 北大核心 2023年第20期64-71,共8页
高比例间歇性分布式电源与电动汽车接入配电网时,容易导致功率与电压频繁、快速、剧烈波动。文中结合数据驱动与物理建模方法,提出了一种配电网双时间尺度有功无功协调优化策略。针对短时间尺度(分钟级或秒级)的功率波动,以静止无功补... 高比例间歇性分布式电源与电动汽车接入配电网时,容易导致功率与电压频繁、快速、剧烈波动。文中结合数据驱动与物理建模方法,提出了一种配电网双时间尺度有功无功协调优化策略。针对短时间尺度(分钟级或秒级)的功率波动,以静止无功补偿器、分布式电源无功功率为决策变量,以网损最小为目标函数,计及物理约束,针对平衡与不平衡配电网分别构建了二阶锥与二次规划模型。针对长时间尺度(小时级)的优化,以有载调压变压器分接头变比、可投切电容电抗器挡位、储能系统充放电功率为动作,以网损为代价,计及节点电压越限惩罚,构建了马尔可夫决策过程。为克服连续-离散动作空间维数灾,采用一种基于松弛-预报-校正的深度确定性策略梯度强化学习求解算法。通过IEEE 33节点与IEEE 123节点配电系统验证了所提方法的有效性。 展开更多
关键词 主动配电网 分布式电源 深度强化学习 二阶锥规划 二次规划
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部