期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:19
1
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能体 多智能体深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
下载PDF
基于多智能体深度强化学习的多星观测任务分配方法
2
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能体系统 深度强化学习 多星系统 多智能体深度确定性策略梯度算法 任务规划
下载PDF
基于深度强化学习的无人机集群协同作战决策方法 被引量:1
3
作者 赵琳 吕科 +4 位作者 郭靖 宏晨 向贤财 薛健 王泳 《计算机应用》 CSCD 北大核心 2023年第11期3641-3646,共6页
在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于... 在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于此,提出一种基于深度强化学习的UAV集群协同作战决策方法。首先,通过建立基于公共物品博弈的UAV集群作战模型,模拟智能化UAV集群在合作中个体与集体间的利益冲突问题;其次,利用多智能体深度确定性策略梯度(MADDPG)算法求解辅助UAV集群最合理的作战决策,从而以最小的损耗代价实现集群胜利。在不同数量UAV情况下进行训练并展开实验,实验结果表明,与IDQN(Independent Deep QNetwork)和ID3QN(Imitative Dueling Double Deep Q-Network)这两种算法的训练效果相比,所提算法的收敛性最好,且在4架辅助型UAV情况下胜率可达100%,在其他UAV数情况下也明显优于对比算法。 展开更多
关键词 无人机 多集群 公共物品博弈 多智能体深度确定性策略梯度 协同作战决策方法
下载PDF
基于强化学习的非正交多址接入和移动边缘计算联合系统信息年龄更新 被引量:4
4
作者 李保罡 石泰 +3 位作者 陈静 李诗璐 王宇 张天魁 《电子与信息学报》 EI CSCD 北大核心 2022年第12期4238-4245,共8页
物联网发展对信息时效性的需求越来越高,信息新鲜度变得至关重要。为了维持信息新鲜度,在非正交多址接入(NOMA)和移动边缘计算(MEC)的联合系统中,对多设备单边缘计算服务器的传输场景进行了研究。在该场景中,如何分配卸载任务量和卸载... 物联网发展对信息时效性的需求越来越高,信息新鲜度变得至关重要。为了维持信息新鲜度,在非正交多址接入(NOMA)和移动边缘计算(MEC)的联合系统中,对多设备单边缘计算服务器的传输场景进行了研究。在该场景中,如何分配卸载任务量和卸载功率以最小化平均更新代价是一个具有挑战性的问题。该文考虑到现实中的信道状态变化情况,基于多代理深度确定性策略梯度(MADDPG)算法,考虑信息新鲜度影响,建立了最小化平均更新代价的优化问题,提出一种寻找最优的卸载因子和卸载功率决策。仿真结果表明,采用部分卸载的方式可以有效地降低平均更新代价,利用MADDPG算法可以进一步优化卸载功率,经比较,MADDPG算法在降低平均更新代价方面优于其他方案,并且适当地减少设备数量在降低平均更新代价方面效果更好。 展开更多
关键词 非正交多址接入 移动边缘计算 信息年龄 多代理深度确定性策略梯度
下载PDF
基于多智能体强化学习的轨道追逃博弈方法 被引量:8
5
作者 许旭升 党朝辉 +2 位作者 宋斌 袁秋帆 肖余之 《上海航天(中英文)》 CSCD 2022年第2期24-31,共8页
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。 展开更多
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能体深度确定性策略梯度算法 涌现 智能
下载PDF
基于MADDPG的多AGVs路径规划算法
6
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(maddpg)算法 深度强化学习 多智能体
下载PDF
基于后验经验回放的MADDPG算法 被引量:4
7
作者 孙彧 徐越 +3 位作者 潘宣宏 戴定成 孙健 陈新群 《指挥信息系统与技术》 2021年第6期78-84,共7页
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验... 训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。 展开更多
关键词 多智能体系统 多智能体深度强化学习 多智能体深度确定性策略梯度算法 后验经验回放
下载PDF
深度强化学习驱动的双馈抽蓄抽水工况下调频控制
8
作者 劳文洁 史林军 +2 位作者 李杨 吴峰 林克曼 《电力系统及其自动化学报》 CSCD 北大核心 2023年第12期59-70,共12页
为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以... 为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以提高各区域控制性能标准指标为目标,利用改进的多智能体深度确定性策略梯度算法优化各机组的自动发电控制指令。算例分析表明,抽水工况下双馈抽水蓄能参与调频可显著改善系统的频率特性,且所提频率控制方法的鲁棒性和可靠性优于传统控制。 展开更多
关键词 调频 双馈抽水蓄能机组 多智能体深度确定性策略梯度算法 多能互补系统 控制性能标准
下载PDF
无人集群系统行为决策学习奖励机制
9
作者 张婷婷 蓝羽石 宋爱国 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第12期2442-2451,共10页
未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的... 未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的实时性,提高训练效率和学习的稳定性。采用动作空间边界碰撞惩罚、智能体间时空距离约束满足程度奖励;通过智能体在群体中的关系特性,增加智能体之间经验共享,进一步优化学习效率。在实验中,将先验增强的奖励机制和经验共享应用到多智能体深度确定性策略梯度(MADDPG)算法中验证其有效性。结果表明,学习收敛性和稳定性有大幅提高,从而提升了无人集群系统行为学习效率。 展开更多
关键词 无人集群系统 maddpg算法 对抗任务 行为决策 奖励机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部