期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
1
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
下载PDF
基于改进MADDPG的多机器人路径规划方法研究
2
作者 贾思雨 毕凌滔 +1 位作者 曹扬 吕乃冰 《计算机仿真》 2024年第8期458-465,共8页
为完成未知环境下救援物资的运输任务,研究了基于深度强化学习的多机器人路径规划方法。首先选用多智能体深度确定性策略梯度算法MADDPG算法为基础算法,然后针对算法存在的收敛速度慢甚至不收敛问题,引入了碰撞发生区域重点训练、经验... 为完成未知环境下救援物资的运输任务,研究了基于深度强化学习的多机器人路径规划方法。首先选用多智能体深度确定性策略梯度算法MADDPG算法为基础算法,然后针对算法存在的收敛速度慢甚至不收敛问题,引入了碰撞发生区域重点训练、经验池分离机制和优先经验回放等改进措施。最后基于Gazebo三维仿真平台搭建了两种仿真环境,并从训练结果和测试结果两个方面对改进算法与原始算法进行了对比分析。实验结果显示:改进算法相比于原始算法在各仿真环境中的任务成功率分别提高了21%和32%,平均路径长度分别缩短了12%和17%,这证明了改进算法可以有效提高算法的收敛速度以及机器人的避障能力,从而更好地应用于多台物资配送车辆的路径规划。 展开更多
关键词 多机器人路径规划 深度强化学习 多智能体深度确定性策略梯度
下载PDF
面向无人机数字孪生边缘网络的联邦学习资源自适应优化机制
3
作者 谢正昊 赖健鑫 +1 位作者 庄晓翀 蒋丽 《广东工业大学学报》 CAS 2024年第4期61-69,共9页
为了解决无人机数字孪生边缘网络联邦学习性能优化问题,本文提出一种基于深度强化学习的无人机数字孪生边缘网络资源调度策略。考虑动态时变的无人机数字孪生边缘网络环境,构建包含地面基站(Base Station,BS)、地面智能终端、空中无人... 为了解决无人机数字孪生边缘网络联邦学习性能优化问题,本文提出一种基于深度强化学习的无人机数字孪生边缘网络资源调度策略。考虑动态时变的无人机数字孪生边缘网络环境,构建包含地面基站(Base Station,BS)、地面智能终端、空中无人机以及无线传输信道的孪生网络模型,建立联合无人机飞行距离、飞行角度以及无线网络频谱资源分配的自适应资源优化模型,实现最小化联邦学习时延的目标。在无人机数字孪生边缘网络环境下,提出多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MA-DDPG),求解自适应资源优化模型。算法训练过程采用中心化训练、去中心化执行的方式,每个无人机智能体在评估动作价值时会考虑其他智能体的状态和动作,而在执行时只根据自身的局部观察来决定动作。上述训练过程将在数字孪生环境中执行,算法收敛后再应用于真实世界,最大限度地减少物理实体的资源开销。仿真结果表明,所提算法可显著降低联邦学习服务时延,同时保证联邦学习训练损失和准确率的优越性。 展开更多
关键词 无人机网络 数字孪生 联邦学习 多智能体深度确定性策略梯度
下载PDF
移动网络SFC部署与计算资源分配联合算法 被引量:5
4
作者 张天魁 王筱斐 +1 位作者 杨立伟 杨鼎成 《北京邮电大学学报》 EI CAS CSCD 北大核心 2021年第1期7-13,共7页
在网络功能虚拟化的移动核心网中,提出了一种基于服务功能链(SFC)部署与计算资源分配联合算法.首先考虑SFC中虚拟网络功能(VNF)计算资源分配对处理时延的影响,建立SFC部署与计算资源分配联合优化问题,实现SFC的部署成本和端到端时延加... 在网络功能虚拟化的移动核心网中,提出了一种基于服务功能链(SFC)部署与计算资源分配联合算法.首先考虑SFC中虚拟网络功能(VNF)计算资源分配对处理时延的影响,建立SFC部署与计算资源分配联合优化问题,实现SFC的部署成本和端到端时延加权和的最小化.其次,为了求解所提优化问题,利用多智能体深度确定性策略梯度算法,从SFC各VNF的历史数据中学习策略指导即时的通用服务器节点选择和计算资源分配,提出了相应的SFC部署与计算资源分配联合算法.仿真结果表明,所提算法可以在保证SFC的服务质量需求的条件下实现部署成本和端到端时延的有效权衡. 展开更多
关键词 移动核心网 服务功能链 计算资源 多智能体深度确定性策略梯度
原文传递
基于MA2IDDPG算法的异构多无人机协同突防方法 被引量:2
5
作者 畅鑫 李艳斌 +2 位作者 赵研 杜宇峰 刘东辉 《河北工业科技》 CAS 2022年第4期328-334,共7页
为了形成智能化异构多无人机协同突防策略,提出了基于多智能体异步模仿深度确定性策略梯度算法的异构多无人机协同突防方法。首先,基于典型DDPG方法,采用异步并行框架进行改进,提高经验的收集效率。其次,分别构建基于专家经验知识的牵... 为了形成智能化异构多无人机协同突防策略,提出了基于多智能体异步模仿深度确定性策略梯度算法的异构多无人机协同突防方法。首先,基于典型DDPG方法,采用异步并行框架进行改进,提高经验的收集效率。其次,分别构建基于专家经验知识的牵引性奖赏函数和基于任务结果的描述性奖赏函数。再次,通过分阶段训练后,使得深度神经网络产生的协同突防策略能够快速达到专家经验知识水平后,进一步提高对抗水平。最后,在仿真实验中,构建了异构多无人机协同突防环境,对改进方法和典型DDPG方法的对抗效果进行了对比。实验结果表明,MA2IDDPG方法能够有效产生多无人机协同突防策略,并且在训练阶段表现更为稳定且对抗效果更优。所设计的创新性MA2IDDPG方法框架可有效应用于无人机群控制领域,特别是对异构无人机群的智能控制方法研究具有重要参考意义。 展开更多
关键词 人工智能 多智能体系统 深度强化学习 多智能体深度确定性策略梯度 异步并行框架 共享经验池 分阶段学习
下载PDF
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:19
6
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能体 多智能体深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
下载PDF
基于深度强化学习的含高比例可再生能源配电网就地分散式电压管控方法 被引量:13
7
作者 徐博涵 向月 +4 位作者 潘力 方梦秋 彭光博 刘友波 刘俊勇 《电力系统保护与控制》 EI CSCD 北大核心 2022年第22期100-109,共10页
含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问... 含有可再生能源并网的区域电网存在通信条件差、量测设备不足、不同节点的电压管控设备难以协同等问题,因此提出一种基于深度强化学习的分散式就地电压管控方法。该方法首先将缺少量测数据的电压管控问题转化为部分可观的马尔科夫决策问题,构建了以网络损耗最小为优化目标的多智能体分散式电压管控框架。然后采用多智能体深度确定性策略梯度算法对智能体进行离线训练,并使用训练完成的智能体进行在线电压管控。最后,基于改进的IEEE33节点系统进行了算例仿真和分析。结果表明,各智能体可以根据各自节点的电气信息求解出近似的全局最优解。 展开更多
关键词 多智能体 电压管控 量测数据不足 多智能体深度确定性策略梯度算法
下载PDF
基于多智能体强化学习的轨道追逃博弈方法 被引量:8
8
作者 许旭升 党朝辉 +2 位作者 宋斌 袁秋帆 肖余之 《上海航天(中英文)》 CSCD 2022年第2期24-31,共8页
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。 展开更多
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能体深度确定性策略梯度算法 涌现 智能
下载PDF
基于多智能体深度强化学习的多星观测任务分配方法
9
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能体系统 深度强化学习 多星系统 多智能体深度确定性策略梯度算法 任务规划
下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
10
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能体深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
下载PDF
基于MADDPG的多AGVs路径规划算法
11
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(MADDPG)算法 深度强化学习 多智能体
下载PDF
基于深度强化学习的无人机集群协同作战决策方法 被引量:1
12
作者 赵琳 吕科 +4 位作者 郭靖 宏晨 向贤财 薛健 王泳 《计算机应用》 CSCD 北大核心 2023年第11期3641-3646,共6页
在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于... 在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于此,提出一种基于深度强化学习的UAV集群协同作战决策方法。首先,通过建立基于公共物品博弈的UAV集群作战模型,模拟智能化UAV集群在合作中个体与集体间的利益冲突问题;其次,利用多智能体深度确定性策略梯度(MADDPG)算法求解辅助UAV集群最合理的作战决策,从而以最小的损耗代价实现集群胜利。在不同数量UAV情况下进行训练并展开实验,实验结果表明,与IDQN(Independent Deep QNetwork)和ID3QN(Imitative Dueling Double Deep Q-Network)这两种算法的训练效果相比,所提算法的收敛性最好,且在4架辅助型UAV情况下胜率可达100%,在其他UAV数情况下也明显优于对比算法。 展开更多
关键词 无人机 多集群 公共物品博弈 多智能体深度确定性策略梯度 协同作战决策方法
下载PDF
基于强化学习的非正交多址接入和移动边缘计算联合系统信息年龄更新 被引量:4
13
作者 李保罡 石泰 +3 位作者 陈静 李诗璐 王宇 张天魁 《电子与信息学报》 EI CSCD 北大核心 2022年第12期4238-4245,共8页
物联网发展对信息时效性的需求越来越高,信息新鲜度变得至关重要。为了维持信息新鲜度,在非正交多址接入(NOMA)和移动边缘计算(MEC)的联合系统中,对多设备单边缘计算服务器的传输场景进行了研究。在该场景中,如何分配卸载任务量和卸载... 物联网发展对信息时效性的需求越来越高,信息新鲜度变得至关重要。为了维持信息新鲜度,在非正交多址接入(NOMA)和移动边缘计算(MEC)的联合系统中,对多设备单边缘计算服务器的传输场景进行了研究。在该场景中,如何分配卸载任务量和卸载功率以最小化平均更新代价是一个具有挑战性的问题。该文考虑到现实中的信道状态变化情况,基于多代理深度确定性策略梯度(MADDPG)算法,考虑信息新鲜度影响,建立了最小化平均更新代价的优化问题,提出一种寻找最优的卸载因子和卸载功率决策。仿真结果表明,采用部分卸载的方式可以有效地降低平均更新代价,利用MADDPG算法可以进一步优化卸载功率,经比较,MADDPG算法在降低平均更新代价方面优于其他方案,并且适当地减少设备数量在降低平均更新代价方面效果更好。 展开更多
关键词 非正交多址接入 移动边缘计算 信息年龄 多代理深度确定性策略梯度
下载PDF
基于后验经验回放的MADDPG算法 被引量:4
14
作者 孙彧 徐越 +3 位作者 潘宣宏 戴定成 孙健 陈新群 《指挥信息系统与技术》 2021年第6期78-84,共7页
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验... 训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。 展开更多
关键词 多智能体系统 多智能体深度强化学习 多智能体深度确定性策略梯度算法 后验经验回放
下载PDF
深度强化学习驱动的双馈抽蓄抽水工况下调频控制
15
作者 劳文洁 史林军 +2 位作者 李杨 吴峰 林克曼 《电力系统及其自动化学报》 CSCD 北大核心 2023年第12期59-70,共12页
为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以... 为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以提高各区域控制性能标准指标为目标,利用改进的多智能体深度确定性策略梯度算法优化各机组的自动发电控制指令。算例分析表明,抽水工况下双馈抽水蓄能参与调频可显著改善系统的频率特性,且所提频率控制方法的鲁棒性和可靠性优于传统控制。 展开更多
关键词 调频 双馈抽水蓄能机组 多智能体深度确定性策略梯度算法 多能互补系统 控制性能标准
下载PDF
无人集群系统行为决策学习奖励机制
16
作者 张婷婷 蓝羽石 宋爱国 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第12期2442-2451,共10页
未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的... 未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的实时性,提高训练效率和学习的稳定性。采用动作空间边界碰撞惩罚、智能体间时空距离约束满足程度奖励;通过智能体在群体中的关系特性,增加智能体之间经验共享,进一步优化学习效率。在实验中,将先验增强的奖励机制和经验共享应用到多智能体深度确定性策略梯度(MADDPG)算法中验证其有效性。结果表明,学习收敛性和稳定性有大幅提高,从而提升了无人集群系统行为学习效率。 展开更多
关键词 无人集群系统 MADDPG算法 对抗任务 行为决策 奖励机制
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
17
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定性策略梯度
下载PDF
考虑多主体主动行为的综合能源系统智能运行优化方法
18
作者 陈晓芳 尹华杰 +2 位作者 曾君 廖丁丁 刘俊峰 《电网技术》 EI CSCD 北大核心 2023年第10期4219-4228,共10页
综合能源系统具有主体多样性、逐利性、源荷不确定性及变量高维等特点,给综合能源系统运行优化带来巨大挑战。文章提出考虑多主体主动行为的综合能源系统智能运行优化方法。首先引入负荷聚合商统一管理用户可控负荷和储能资源,根据不同... 综合能源系统具有主体多样性、逐利性、源荷不确定性及变量高维等特点,给综合能源系统运行优化带来巨大挑战。文章提出考虑多主体主动行为的综合能源系统智能运行优化方法。首先引入负荷聚合商统一管理用户可控负荷和储能资源,根据不同主体特点,构建具有综合能源服务商、电负荷聚合商、热负荷聚合商的三智能体群综合能源系统。然后以综合能源系统日综合运行成本最小为优化目标,考虑多主体的主动行为,基于多智能体双延时深度确定性策略梯度强化学习算法(multi-agent twin delayed deep deterministic policy gradient,MATD3)建立分布式优化调度模型。最后仿真结果表明基于MATD3的多主体综合能源系统模型收敛速度快,训练稳定。相比于传统优化方法提高了决策速度,降低了系统运行成本,且表现出更强的环境自适应力。 展开更多
关键词 综合能源系统 多主体 负荷聚合商 主动行为 多智能体双延时深度确定性策略梯度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部