期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
基于多智能体系统的城市增长时空动态模拟——以江苏省连云港市为例 被引量:17
1
作者 张鸿辉 王丽萍 +3 位作者 金晓斌 宋歌 周寅康 杨悉廉 《地理科学》 CSCD 北大核心 2012年第11期1289-1296,共8页
城市化是土地利用/覆盖变化中最典型形式之一,探索城市增长的驱动机制并预测其未来变化,对于实现城市可持续发展十分重要。鉴于多智能体系统强大的模拟复杂空间系统的能力,基于联合"自上而下"和"自下而上"决策行为... 城市化是土地利用/覆盖变化中最典型形式之一,探索城市增长的驱动机制并预测其未来变化,对于实现城市可持续发展十分重要。鉴于多智能体系统强大的模拟复杂空间系统的能力,基于联合"自上而下"和"自下而上"决策行为的视角,构建了一个城市增长时空动态模拟多智能体模型,在模型中,宏观Agent实施的"自上而下"的宏观土地利用规划行为和微观Agent自主发起的"自下而上"的微观土地利用空间诉求行为通过二维空间网格相互作用,并通过联合决策共同推动研究区域的城市化进程。以连云港市中心城区为例,考虑了基于目前趋势、经济发展优先和环境保护优先的3种目标情景,并进行了相应的城市增长情景模拟。模拟结果表明:联合"自上而下"和"自下而上"决策行为的城市增长时空动态模拟多智能体模型能够充分发挥多智能体系统的潜力来了解城市化的驱动机制,为城市管理提供基于情景分析的决策支持。 展开更多
关键词 城市增长 时空动态模拟 多智能体系统 联合决策 情景分析 连云港市
下载PDF
有人/无人机混合编队有限干预式协同决策 被引量:15
2
作者 陈军 张新伟 +1 位作者 徐嘉 高晓光 《航空学报》 EI CAS CSCD 北大核心 2015年第11期3652-3665,共14页
针对Leader-Follower异构型有人/无人机混合编队协同决策系统具有递阶分布式决策结构、决策信息分散以及通信约束等特点,在智能体模糊认知图(ABFCM)和动态模糊认知图(DFCM)的理论基础上,提出了一种有限干预式协同决策机制。通过构建层... 针对Leader-Follower异构型有人/无人机混合编队协同决策系统具有递阶分布式决策结构、决策信息分散以及通信约束等特点,在智能体模糊认知图(ABFCM)和动态模糊认知图(DFCM)的理论基础上,提出了一种有限干预式协同决策机制。通过构建层次化的Follower平台自主决策模型,实现了该平台与外部系统良好的交互能力,体现了自主决策的"动态性"。通过设计Leader平台的3种干预策略,满足了不同层次的决策需求,体现了干预过程的"有限性"。仿真结果表明:有限干预协同决策模型能够适应外部环境的动态变化,充分发挥Follower平台的自主决策能力;而不同层次的有限干预介入既减轻了Leader平台的控制负荷,又保证了决策的有效性和可行性,可为解决其他同类复杂系统的协同决策问题提供理论依据和方法参考。 展开更多
关键词 异构系统 多智能体系统 模糊推理 协同 决策 模糊认知图 有限干预
原文传递
智能CAPP系统及其加工资源动态决策 被引量:7
3
作者 王忠宾 许娟 +1 位作者 张永忠 陈禹六 《中国矿业大学学报》 EI CAS CSCD 北大核心 2006年第3期317-322,共6页
为了提高计算机辅助工艺规划(CAPP)系统的柔性、可扩展性、可重用性和动态适应性,基于并行工程理念,采用多代理技术,提出了一种智能CAPP系统体系结构.在研究了智能CAPP系统的工作机理基础上,利用BP神经网络和相关算法实现了车间加工资... 为了提高计算机辅助工艺规划(CAPP)系统的柔性、可扩展性、可重用性和动态适应性,基于并行工程理念,采用多代理技术,提出了一种智能CAPP系统体系结构.在研究了智能CAPP系统的工作机理基础上,利用BP神经网络和相关算法实现了车间加工资源的动态决策.结果表明:基于多代理的智能CAPP系统由若干代理构成,每个代理具有独立的功能、结构、推理机和知识库,它们通过协作完成对整个工艺计划问题的求解,在系统结构上具有可重构、可扩展的能力;企业的应用表明,通过CAPP和车间生产计划的集成,基于BP神经网络实现制造资源的动态决策,使得工艺计划的可执行性提高了近1/3. 展开更多
关键词 多代理系统 CAPP 车间生产计划 BP神经网络 资源决策
下载PDF
基于多Agent的网络化制造资源优化配置DSS 被引量:4
4
作者 董朝阳 孙树栋 +1 位作者 彭文利 姚倡锋 《计算机工程与应用》 CSCD 北大核心 2003年第28期60-63,共4页
文章针对网络化制造中的制造资源优化配置问题,提出了基于多Agent的网络化制造资源优化配置决策支持系统(NMROCDSS)。首先对系统功能需求进行了分析,讨论了NMROCDSS系统同其它系统的集成,在此基础上研究了系统体系结构,最后分析了系统... 文章针对网络化制造中的制造资源优化配置问题,提出了基于多Agent的网络化制造资源优化配置决策支持系统(NMROCDSS)。首先对系统功能需求进行了分析,讨论了NMROCDSS系统同其它系统的集成,在此基础上研究了系统体系结构,最后分析了系统的决策过程。 展开更多
关键词 网络化制造资源优化配置 agent 决策支持系统 体系结构 决策过程
下载PDF
基于多智能体深度强化学习的船舶协同避碰策略 被引量:7
5
作者 隋丽蓉 高曙 何伟 《控制与决策》 EI CSCD 北大核心 2023年第5期1395-1402,共8页
船舶避碰是智能航行中首要解决的问题,多船会遇局面下,只有相互协作,共同规划避碰策略,才能有效降低碰撞风险.为使船舶智能避碰策略具有协同性、安全性和实用性,提出一种基于多智能体深度强化学习的船舶协同避碰决策方法.首先,研究船舶... 船舶避碰是智能航行中首要解决的问题,多船会遇局面下,只有相互协作,共同规划避碰策略,才能有效降低碰撞风险.为使船舶智能避碰策略具有协同性、安全性和实用性,提出一种基于多智能体深度强化学习的船舶协同避碰决策方法.首先,研究船舶会遇局面辨识方法,设计满足《国际海上避碰规则》的多船避碰策略.其次,研究多船舶智能体合作方式,构建多船舶智能体协同避碰决策模型:利用注意力推理方法提取有助于避碰决策的关键数据;设计记忆驱动的经验学习方法,有效积累交互经验;引入噪音网络和多头注意力机制,增强船舶智能体决策探索能力.最后,分别在实验地图与真实海图上,对多船会遇场景进行仿真实验.结果表明,在协同性和安全性方面,相较于多个对比方法,所提出的避碰策略均能获得具有竞争力的结果,且满足实用性要求,从而为提高船舶智能航行水平和保障航行安全提供一种新的解决方案. 展开更多
关键词 多智能体深度强化学习 多智能体通信模型 多智能体合作 协同决策 船舶避碰 协同避碰策略
原文传递
基于PER-MATD3的多无人机攻防对抗机动决策 被引量:7
6
作者 符小卫 徐哲 +1 位作者 朱金冬 王楠 《航空学报》 EI CAS CSCD 北大核心 2023年第7期191-204,共14页
以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景,构建了攻防双方运动模型及雷达探测模型,将双延迟深度确定性策略梯度(TD3)算法扩展到多智能体领域中以解决多智能体深度确定性策略梯度(MADDPG)算法存在值函数高估的问... 以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景,构建了攻防双方运动模型及雷达探测模型,将双延迟深度确定性策略梯度(TD3)算法扩展到多智能体领域中以解决多智能体深度确定性策略梯度(MADDPG)算法存在值函数高估的问题;在此基础上,为了提升算法学习效率,结合优先经验回放机制提出了优先经验回放多智能体双延迟深度确定性策略算法(PER-MATD3)。通过仿真实验表明本文所设计的方法在多无人机攻防对抗机动决策问题中具有较好的对抗效果,并通过对比验证了(PER-MATD3)算法相较其他算法在收敛速度和稳定性方面的优势。 展开更多
关键词 多无人机 多智能体强化学习 PER-MATD3 攻防对抗 机动决策
原文传递
基于云模型理论面向大数据的协作联盟决策评价 被引量:7
7
作者 尹蕾 蒋建国 张国富 《模式识别与人工智能》 EI CSCD 北大核心 2019年第2期124-132,共9页
针对联盟决策评价中存在较强的不确定性,提出基于云模型理论面向大数据的协作联盟决策评价方法.首先,构建面向大数据的多任务协作联盟多层决策评价架构,依托大数据处理分析平台获取联盟成员的基本评价指标的评价数据,应用逆向云发生器... 针对联盟决策评价中存在较强的不确定性,提出基于云模型理论面向大数据的协作联盟决策评价方法.首先,构建面向大数据的多任务协作联盟多层决策评价架构,依托大数据处理分析平台获取联盟成员的基本评价指标的评价数据,应用逆向云发生器算法生成相应的评价云,并运用综合云运算产生联盟评价指标的云数字特征.然后,结合联盟评价指标权重和任务权重,运用云加权算术平均数算子进行云集结,分别产生单任务联盟决策评价云和多任务协作联盟决策评价云.再对多任务协作联盟备选方案进行决策评价和选优,以确定最优的联盟方案.最后通过实例与D-S证据理论联盟评价方法进行对比,验证文中方法的有效性. 展开更多
关键词 agent系统(MAS) 协作联盟 大数据 云模型 决策评价
下载PDF
异构MAS下反导作战多传感器任务规划分层决策框架 被引量:6
8
作者 倪鹏 刘进忙 +1 位作者 付强 高嘉乐 《系统工程与电子技术》 EI CSCD 北大核心 2016年第8期1816-1825,共10页
综合利用多维传感器平台的资源互补优势进行协同探测和跟踪是反导作战的重要问题和难点。为提高传感器任务规划的效能,针对观测资源的异构性和任务的阶段性、动态性,引入任务共同体概念,剖析了反导作战多传感器任务规划问题的本质,形式... 综合利用多维传感器平台的资源互补优势进行协同探测和跟踪是反导作战的重要问题和难点。为提高传感器任务规划的效能,针对观测资源的异构性和任务的阶段性、动态性,引入任务共同体概念,剖析了反导作战多传感器任务规划问题的本质,形式化定了任务共同体下的行为准则和执行能力;在分析和建立的异构多Agent系统(multi-agent system,MAS)多传感器任务规划体系的基础上,深入探讨了集中式规划和分布式动态调整下的分层决策框架和求解方法,并通过仿真实验验证了所构建分层决策框架的有效性和合理性。 展开更多
关键词 多传感器任务规划 任务共同体 异构多agent系统 分层决策 双层规划
下载PDF
基于多Agent系统的区域森林碳汇经营决策机制仿真研究 被引量:5
9
作者 龙飞 沈月琴 +2 位作者 吴伟光 朱臻 张哲 《系统科学与数学》 CSCD 北大核心 2014年第1期64-76,共13页
基于多Agent系统交互规则,采用一个不确定条件下的积分算法,构建了区域森林碳汇经营决策机制模型,并以浙江省杉木人工林为案例,进行了仿真分析.研究结果表明:在目前以国际标准方法计算的政府碳税率背景下,企业的碳汇需求价格不会改变农... 基于多Agent系统交互规则,采用一个不确定条件下的积分算法,构建了区域森林碳汇经营决策机制模型,并以浙江省杉木人工林为案例,进行了仿真分析.研究结果表明:在目前以国际标准方法计算的政府碳税率背景下,企业的碳汇需求价格不会改变农户的传统森林经营模式,区域森林碳汇经营实践的现状与国家相关规划尚存在较大差距,而企业社会责任意识偏低,碳汇交易成本偏高是制约当前森林碳汇交易市场发展的两个重要因素. 展开更多
关键词 agent系统 积分算法 森林碳汇 决策机制 仿真
原文传递
基于影响图的多Agent决策问题研究 被引量:5
10
作者 王浩 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第9期1112-1116,共5页
影响图是决策问题的图形表示,它是在贝叶斯网络基础上增加了决策结点和效用结点。文章讨论了影响图理论在多Agent建模与决策方面的应用;提出了联合分层影响图和动态贝叶斯网络来实现多Agent的实时决策的方法,该方法已在Robcup球员建模... 影响图是决策问题的图形表示,它是在贝叶斯网络基础上增加了决策结点和效用结点。文章讨论了影响图理论在多Agent建模与决策方面的应用;提出了联合分层影响图和动态贝叶斯网络来实现多Agent的实时决策的方法,该方法已在Robcup球员建模和决策方面初步得到应用。 展开更多
关键词 影响图 贝叶斯网络 agent系统 决策
下载PDF
微网中电压支撑控制方法研究 被引量:5
11
作者 徐建源 李家珏 +1 位作者 张明理 李斌 《电网技术》 EI CSCD 北大核心 2012年第9期36-42,共7页
为提高和改善微网中电压支撑动态特性,结合多智能体控制思想,提出各微源间电压支撑动态协调控制方法。分析了微网网络特性,推导了分布式电源节点对其它节点电压支撑调节的关系模型,并采用agent控制理论,建立了执行级agent电压支撑决策... 为提高和改善微网中电压支撑动态特性,结合多智能体控制思想,提出各微源间电压支撑动态协调控制方法。分析了微网网络特性,推导了分布式电源节点对其它节点电压支撑调节的关系模型,并采用agent控制理论,建立了执行级agent电压支撑决策行为的向量函数,与电压目标评价向量进行最优时序判据运算,进而构成协调控制算法。依据该算法对各分布式电源agent的出力补偿进行时序判断,形成电压支撑动态性能的最优控制模式,使故障发生后电压随着微源间功率的协调补偿得到快速稳定的支撑。应用典型的芬兰乡村微网模型进行数字仿真,结果证明了该方法具有良好的鲁棒性及适应性。 展开更多
关键词 微网 电压支撑 多代理 决策模型 最优序列 协调控制
下载PDF
多智能体分布式故障诊断专家系统 被引量:3
12
作者 焦国华 雷斌 董斌 《西安工业学院学报》 2003年第1期45-50,共6页
 探讨了一种由若干完整诊断子系统联合组成的多智能体分布式故障诊断专家系统结构;各子系统间通过相互交互的方法解决新知识在各子系统中的传播以及(大)系统故障和边界故障的定位.针对多专家诊断结果的筛选决策,提出了一种综合绩效(经...  探讨了一种由若干完整诊断子系统联合组成的多智能体分布式故障诊断专家系统结构;各子系统间通过相互交互的方法解决新知识在各子系统中的传播以及(大)系统故障和边界故障的定位.针对多专家诊断结果的筛选决策,提出了一种综合绩效(经验、教训)、时效、域效(适用群)等多种参数的决策算法. 展开更多
关键词 故障诊断 专家系统 多智能体 决策
下载PDF
多Agent环境下过程设备的分布式智能决策支持 被引量:2
13
作者 罗娜 钱锋 涂善东 《自动化技术与应用》 2007年第2期20-22,共3页
以化工企业过程设备为对象,论述了利用多Agent技术建立的过程设备分布式智能决策支持系统。系统以基本的状态监测Agent为基础,将人工智能与专业知识相结合,建立设备预决算、寿命预测、故障诊断、检修计划、设备管理等多Agent,并构建多Ag... 以化工企业过程设备为对象,论述了利用多Agent技术建立的过程设备分布式智能决策支持系统。系统以基本的状态监测Agent为基础,将人工智能与专业知识相结合,建立设备预决算、寿命预测、故障诊断、检修计划、设备管理等多Agent,并构建多Agent之间的通信和协调机制。系统充分利用企业底层的生产信息,依靠多Agent的优势,及时制定合理的维修策略,延长设备的使用寿命,从而达到降低设备全寿命周期费用的效果。 展开更多
关键词 agent 分布式 决策支持 设备管理
下载PDF
基于深度强化学习的多智能体对抗策略算法 被引量:4
14
作者 龚慧雯 王桐 +2 位作者 陈立伟 薛书钰 金鼎筌 《应用科技》 CAS 2022年第5期1-7,共7页
针对在复杂军事化背景下多智能体决策算法探索效率低下、收敛缓慢的问题,提出了基于多头注意力机制和优先经验回放的多智能体深度确定性策略梯度算法(AP-MADDPG)。算法采用基于优先级的经验回放减少算法的训练时间;采用多头注意力机制... 针对在复杂军事化背景下多智能体决策算法探索效率低下、收敛缓慢的问题,提出了基于多头注意力机制和优先经验回放的多智能体深度确定性策略梯度算法(AP-MADDPG)。算法采用基于优先级的经验回放减少算法的训练时间;采用多头注意力机制在复杂的对抗环境中实现智能体之间的稳定、高效的合作竞争。实验结果表明,该算法可以使多智能体更加有效地学习联合策略,拥有更快的收敛速度和更好的稳定性,同时可以获得更高的回合奖励。 展开更多
关键词 多智能体 强化学习 深度确定性策略 优先经验回放 多头注意力机制 智能决策 联合策略 合作与竞争
下载PDF
多智能体系统在煤矿应急调度中的协同决策策略
15
作者 冯健 《价值工程》 2024年第25期32-34,共3页
所谓多智能体系统,是由煤矿数据、智能分析算法和业务应用三部分组成,业务应用的实现需要以精确的智能分析算法为基础,智能分析算法的设计依赖于海量的煤矿数据。随着矿山综合自动化监控系统及其平台的建设,将不同子系统的大容量监控数... 所谓多智能体系统,是由煤矿数据、智能分析算法和业务应用三部分组成,业务应用的实现需要以精确的智能分析算法为基础,智能分析算法的设计依赖于海量的煤矿数据。随着矿山综合自动化监控系统及其平台的建设,将不同子系统的大容量监控数据汇聚到调度机房。本研究针对煤矿应急调度中存在的效率和响应速度问题,提出了一种基于多智能体系统的高速响应联动模型。通过构建多智能体系数据存储规则和关联规则,对不同子系统的监控数据进行智能分析,实现了煤矿应急情况下的资源优化配置和快速响应。最后利用Dijkstra算法实现煤矿应急调度的仿真。开发了具有应急调度、灾害预测预警、应急保障的虚拟煤矿安全调度系统。 展开更多
关键词 多智能体系统 煤矿应急 协同决策 调度策略
下载PDF
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
16
作者 张明悦 金芝 刘坤 《软件学报》 EI CSCD 北大核心 2024年第2期739-757,共19页
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的... 合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升. 展开更多
关键词 多智能体强化学习 虚拟遗憾最小化 自博弈 动态决策
下载PDF
基于不完备信息预测的多智能体分布式协同
17
作者 张宏达 李德才 何玉庆 《信息与控制》 CSCD 北大核心 2024年第1期86-97,共12页
为了解决部分可观对抗环境中多智能体协同决策难题,受人大脑皮层通过记忆进行学习和推理功能启发,提出一种新的部分可观对抗环境下基于不完备信息预测的多智能体分布式协同决策框架。该框架可采用支持向量回归等多种预测方法通过历史记... 为了解决部分可观对抗环境中多智能体协同决策难题,受人大脑皮层通过记忆进行学习和推理功能启发,提出一种新的部分可观对抗环境下基于不完备信息预测的多智能体分布式协同决策框架。该框架可采用支持向量回归等多种预测方法通过历史记忆和当前观察信息对环境中不可见信息进行预测,并将预测信息和观察到的信息融合,作为协同决策的依据;再通过分布式多智能体强化学习进行协同策略学习得到团队中每个智能体的决策模型。使用该框架结合多种预测算法在典型的部分可观对抗环境中进行了多智能体协同决策的验证。结果表明,提出的框架对多种预测算法具有普适性,且在保证对不可见部分高预测精度时能将多智能体协同决策水平提升23.4%。 展开更多
关键词 多智能体协同 部分可观 信息预测 分布式协同决策 对抗环境
原文传递
“电-碳-证”市场交易决策与市场机制的协同优化
18
作者 王浩然 冯天天 +1 位作者 李晏 孔佳洁 《中国人口·资源与环境》 CSSCI CSCD 北大核心 2024年第10期18-29,共12页
在电力市场中实施多重清洁低碳政策可能导致不同政策在实施时存在冗余甚至相互冲突,电力市场、碳交易市场和绿证市场的协同将通过市场机制引导电力与环境资源优化配置,但是多市场协同发展促进“双碳”目标实现的路径不明确。因此,该研... 在电力市场中实施多重清洁低碳政策可能导致不同政策在实施时存在冗余甚至相互冲突,电力市场、碳交易市场和绿证市场的协同将通过市场机制引导电力与环境资源优化配置,但是多市场协同发展促进“双碳”目标实现的路径不明确。因此,该研究从市场主体决策和市场机制的视角分析了“电-碳-证”的交互关系,利用多主体博弈理论构建了包含碳配额买方和卖方火力发电商、可再生能源发电商、电网企业、积极和消极消纳用户的市场均衡模型,并设计多种环境权益产品抵消和互认互换机制,利用系统动力学理论构建“电-碳-证”市场机制协同模型。结果表明:(1)碳价通过发电成本传导至各市场主体,碳价的上升将挤压高碳电源、促进低碳高效机组。绿证交易激励可再生能源发电商装机建设,增加可再生能源发电量。在碳价和绿证价格共同引导下,积极的消纳用户和消极的消纳用户倾向于购买绿电。(2)与基准情景相比,碳市场引入有偿拍卖机制增加碳排放成本,在2026—2030年显著拉高碳价;绿证市场引入惩罚机制增强了消纳权重的约束,使得绿证价格上升到最大值的时间缩短。(3)以CCER作为中介,将多余绿证转化为可在碳市场抵消的权证,实现了“电-碳-证”市场的有效衔接。与基准情景和单一政策情景相比,考虑多个市场改革措施的综合情景政策效果更优,增强了碳市场对电力市场结构转型的作用,增加了可再生能源电力的竞争力。建议政府通过碳排放核算将环境权益产品实现衔接,减少低碳政策冗余,利用“电-碳-证”协同发展促进“双碳”目标的实现。 展开更多
关键词 电力市场 多主体决策 市场机制 协同机制 系统动力学
下载PDF
双注意力记忆多智能体强化学习
19
作者 马裕博 周长东 +2 位作者 张志文 杨培泽 张博 《计算机系统应用》 2024年第12期115-122,共8页
多智能体协同在强化学习研究领域占据重要地位,旨在深入探讨智能体如何通过相互协作实现共同目标.大部分协作多智能体算法注重合作的构建,但忽略了个体策略的强化.为解决上述问题,本文提出一种BiTransformer记忆(BTM)在线强化学习模型,... 多智能体协同在强化学习研究领域占据重要地位,旨在深入探讨智能体如何通过相互协作实现共同目标.大部分协作多智能体算法注重合作的构建,但忽略了个体策略的强化.为解决上述问题,本文提出一种BiTransformer记忆(BTM)在线强化学习模型,该模型不仅考虑多智能体之间的协同,还利用记忆模块辅助个体决策.BTM由双注意力编码器和双注意力解码器组成,分别用于个体策略的增强和多智能体系统的协作.在双注意力编码器中,受人类的决策经验依赖的启发,提出记忆注意力模块为当前决策提供历史决策经验.与传统利用RNN的方法不同,BTM为每一个提供的是一个显式历史决策经验库,而非隐藏单元.此外,提出融合注意力模块,在历史决策经验的辅助下处理当下的局部观测信息,从而获取环境中最具决策价值的信息,进一步提高智能体个体的决策能力.在双注意力解码器中,本文提出了决策注意力模块和合作注意力模块两个模块,通过综合考虑其他已经做出决策智能体与当前智能体的合作收益以及带有历史决策经验的局部观察,从而促进历史决策辅助下的多智能体潜在合作的形成.最终本文在星际争霸中的多个场景下对BTM进行了测试,取得了93%的平均胜率. 展开更多
关键词 多智能体协同 在线强化学习 局部观测 历史决策经验 合作收益 个体策略增强
下载PDF
Research on decision-making behavior of multi-agent alliance in cross-border electricity market environment: an evolutionary game
20
作者 Zhao Luo Chenming Dong +3 位作者 Xinrui Dai Hua Wang Guihong Bi Xin Shen 《Global Energy Interconnection》 EI CSCD 2024年第6期707-722,共16页
Constructing a cross-border power energy system with multiagent power energy as an alliance is important for studying cross-border power-trading markets.This study considers multiple neighboring countries in the form ... Constructing a cross-border power energy system with multiagent power energy as an alliance is important for studying cross-border power-trading markets.This study considers multiple neighboring countries in the form of alliances,introduces neighboring countries’exchange rates into the cross-border multi-agent power-trading market and proposes a method to study each agent’s dynamic decision-making behavior based on evolutionary game theory.To this end,this study uses three national agents as examples,constructs a tripartite evolutionary game model,and analyzes the evolution process of the decision-making behavior of each agent member state under the initial willingness value,cost of payment,and additional revenue of the alliance.This research helps realize cross-border energy operations so that the transaction agent can achieve greater trade profits and provides a theoretical basis for cooperation and stability between multiple agents. 展开更多
关键词 multi-agent alliance Cross-border transactions Electricity market Evolutionary game decision-making
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部