期刊文献+
共找到91篇文章
< 1 2 5 >
每页显示 20 50 100
多智能体协作技术综述 被引量:28
1
作者 杨煜普 李晓萌 许晓鸣 《信息与控制》 CSCD 北大核心 2001年第4期337-342,共6页
本文从协作模型和研究方法两个角度考察了多智能体协作技术的发展 ,认为是外在的理性形式化模型和内在的对策和学习机制是多智能体协作技术的两个重要方面 .
关键词 多智能体协作 自协调模型 递归建模 markov对策 智能控制
下载PDF
一种基于马尔可夫博弈的能量均衡路由算法 被引量:21
2
作者 董荣胜 马争先 +1 位作者 郭云川 古天龙 《计算机学报》 EI CSCD 北大核心 2013年第7期1500-1508,共9页
针对无线传感器网络中耗能不均问题,引入马尔可夫博弈理论,构建了无线传感器网络的马尔可夫博弈模型.在能量均衡路由分析的基础上,给出了一种基于马尔可夫博弈的能量均衡路由算法,该算法从无线传感器网络整体耗能出发,兼顾节点之间的合... 针对无线传感器网络中耗能不均问题,引入马尔可夫博弈理论,构建了无线传感器网络的马尔可夫博弈模型.在能量均衡路由分析的基础上,给出了一种基于马尔可夫博弈的能量均衡路由算法,该算法从无线传感器网络整体耗能出发,兼顾节点之间的合作.定义了能量和信誉值的二元收益函数,给出了节点转发的状态转移概率,根据收益函数进行能量调节,求解出能量和收益之间的均衡系数——纳什均衡,实现了节点能量的均衡消耗,延长了网络的生命周期.使用PRISM概率仿真工具进行仿真,验证了该博弈模型存在纳什均衡点,同时表明该模型能促进节点之间合作,最大化无线传感器网络的生命周期. 展开更多
关键词 马尔可夫博弈 纳什均衡 能耗 网络生命周期 路由算法 绿色网络
下载PDF
Markov微分博弈模型及其在网络安全中的应用 被引量:16
3
作者 张恒巍 黄世锐 《电子学报》 EI CAS CSCD 北大核心 2019年第3期606-612,共7页
当前基于博弈理论的网络安全研究成果难以应用于实时、连续、随机对抗的网络攻防过程.本文针对网络安全防御的实时性和网络状态变化的随机性,基于动态、实时对抗的视角分析攻防行为,在结合微分博弈模型和Markov决策方法的基础上进行扩展... 当前基于博弈理论的网络安全研究成果难以应用于实时、连续、随机对抗的网络攻防过程.本文针对网络安全防御的实时性和网络状态变化的随机性,基于动态、实时对抗的视角分析攻防行为,在结合微分博弈模型和Markov决策方法的基础上进行扩展,构建Markov攻防微分博弈模型,分析具有多个阶段且每阶段持续时间较短的攻防过程;提出多阶段博弈均衡解计算方法,设计多阶段最优防御策略选取算法.仿真实验结果表明,模型和算法有效且可行. 展开更多
关键词 网络安全 网络攻防 博弈论 微分博弈 markov决策 网络防御 攻防行为分析 最优防御策略
下载PDF
基于Markov时间博弈的移动目标防御最优策略选取方法 被引量:10
4
作者 谭晶磊 张恒巍 +2 位作者 张红旗 金辉 雷程 《通信学报》 EI CSCD 北大核心 2020年第1期42-52,共11页
针对现有博弈模型难以有效建模网络攻防对抗动态连续特性的问题,提出了一种基于Markov时间博弈的移动目标防御最优策略选取方法。在分析移动目标攻防对抗过程的基础上,构建了移动目标攻防策略集合,利用时间博弈刻画了单阶段移动目标防... 针对现有博弈模型难以有效建模网络攻防对抗动态连续特性的问题,提出了一种基于Markov时间博弈的移动目标防御最优策略选取方法。在分析移动目标攻防对抗过程的基础上,构建了移动目标攻防策略集合,利用时间博弈刻画了单阶段移动目标防御过程的动态性,利用Markov决策过程描述了多阶段移动目标防御状态转化的随机性。同时,将攻防双方对资源脆弱性抽象为对攻击面控制权的交替,从而有效保证了博弈模型的通用性。在此基础上,分析并证明了均衡的存在性,设计了最优策略选取算法。最后,通过应用实例验证了所提模型的实用性和算法的有效性。 展开更多
关键词 时间博弈 移动目标攻击 移动目标防御 最优策略选取 markov决策
下载PDF
基于Markov演化博弈的网络防御策略选取方法 被引量:9
5
作者 张恒巍 黄健明 《电子学报》 EI CAS CSCD 北大核心 2018年第6期1503-1509,共7页
当前运用博弈理论的网络安全研究大多采用完全理性假设,本文针对现实社会中攻防双方的有限理性限制条件和攻防过程的动态变化特征,基于非合作演化博弈理论,从有限理性约束出发,将演化博弈模型与Markov决策相结合,构建多阶段Markov攻防... 当前运用博弈理论的网络安全研究大多采用完全理性假设,本文针对现实社会中攻防双方的有限理性限制条件和攻防过程的动态变化特征,基于非合作演化博弈理论,从有限理性约束出发,将演化博弈模型与Markov决策相结合,构建多阶段Markov攻防演化博弈模型,实现对多阶段、多状态攻防对抗的动态分析推演;依据博弈的折扣总收益设计目标函数,提出多阶段博弈均衡的求解方法,给出最优防御策略选取算法.通过实验验证了模型和方法的有效性. 展开更多
关键词 网络安全 网络攻防 博弈论 有限理性 演化博弈 网络防御 markov决策 多阶段最优防御
下载PDF
基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用 被引量:5
6
作者 范波 潘泉 张洪才 《机器人》 EI CSCD 北大核心 2005年第1期46-51,共6页
提出了一种分层的基于Markov对策的多智能体协调方法 ,根据多智能体之间的竞争和合作的关系 ,高层采用零和Markov对策解决与对手之间的竞争 ,低层采用团队Markov对策完成与团队内部的合作 .通过在RobotSoccer中的应用和实验 ,说明了基于... 提出了一种分层的基于Markov对策的多智能体协调方法 ,根据多智能体之间的竞争和合作的关系 ,高层采用零和Markov对策解决与对手之间的竞争 ,低层采用团队Markov对策完成与团队内部的合作 .通过在RobotSoccer中的应用和实验 ,说明了基于Markov对策的多智能体协调方法优于传统的多智能体学习 . 展开更多
关键词 多智能体 markov对策 零和markov对策 团队markov对策 ROBOT SOCCER
下载PDF
拟态防御马尔可夫博弈模型及防御策略选择 被引量:9
7
作者 张兴明 顾泽宇 +1 位作者 魏帅 沈剑良 《通信学报》 EI CSCD 北大核心 2018年第10期143-154,共12页
网络拟态防御通过冗余执行体动态性、多样性以及裁决反馈机制增强了主动防御顽健性,而对于其安全性评估尚缺少有效的分析模型,基于经典博弈模型无法满足于其多状态、动态性特点,不具有通用性等问题,提出拟态防御Markov博弈模型分析攻防... 网络拟态防御通过冗余执行体动态性、多样性以及裁决反馈机制增强了主动防御顽健性,而对于其安全性评估尚缺少有效的分析模型,基于经典博弈模型无法满足于其多状态、动态性特点,不具有通用性等问题,提出拟态防御Markov博弈模型分析攻防状态间的转移关系以及安全可靠性度量方法,通过非线性规划算法计算攻防博弈均衡,以确定考虑防御代价的最佳防御策略。实验与多目标隐藏技术对比,结果表明拟态防御具有更高的防御效果,结合具体案例给出了针对利用系统漏洞攻击的具体攻防路径,验证了防御策略算法有效性。 展开更多
关键词 网络拟态防御 markov博弈 冗余执行体 防御顽健性 主动防御策略
下载PDF
Markov decision evolutionary game theoretic learning for cooperative sensing of unmanned aerial vehicles 被引量:9
8
作者 SUN ChangHao DUAN HaiBin 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2015年第8期1392-1400,共9页
As one of the major contributions of biology to competitive decision making, evolutionary game theory provides a useful tool for studying the evolution of cooperation. To achieve the optimal solution for unmanned aeri... As one of the major contributions of biology to competitive decision making, evolutionary game theory provides a useful tool for studying the evolution of cooperation. To achieve the optimal solution for unmanned aerial vehicles (UAVs) that are car- rying out a sensing task, this paper presents a Markov decision evolutionary game (MDEG) based learning algorithm. Each in- dividual in the algorithm follows a Markov decision strategy to maximize its payoff against the well known Tit-for-Tat strate- gy. Simulation results demonstrate that the MDEG theory based approach effectively improves the collective payoff of the roam. The proposed algorithm can not only obtain the best action sequence but also a sub-optimal Markov policy that is inde- pendent of the game duration. Furthermore, the paper also studies the emergence of cooperation in the evolution of self-regarded UAVs. The results show that it is the adaptive ability of the MDEG based approach as well as the perfect balance between revenge and forgiveness of the Tit-for-Tat strategy that the emergence of cooperation should be attributed to. 展开更多
关键词 unmanned aerial vehicles (UAVs) iterated prisoner's dilemma (IPD) markov decision evolutionary game (MDEG) replicator dynamics COOPERATION
原文传递
一种优化的基于Markov博弈理论的网络风险评估方法 被引量:8
9
作者 刘文芬 张树伟 龚心 《电信科学》 北大核心 2014年第7期13-18,共6页
对网络系统进行安全风险评估,是一种获取并掌握网络信息系统目前及未来安全状态的重要方法,对保障网络安全运行具有重要意义。提出了一种优化的基于Markov博弈理论的网络风险评估方法,不同于已有方法单纯地将网络资产的风险状态分为固... 对网络系统进行安全风险评估,是一种获取并掌握网络信息系统目前及未来安全状态的重要方法,对保障网络安全运行具有重要意义。提出了一种优化的基于Markov博弈理论的网络风险评估方法,不同于已有方法单纯地将网络资产的风险状态分为固定类别的方式,该方法依据攻击威胁与修复漏洞的博弈关系得到资产的具体风险情况,刻画更加细致,贴近网络实际;并且将攻击威胁以及漏洞信息进行了归类处理,减小了状态空间,使得模型输入规模大大降低,提高了对大规模网络进行评估的效率。此外,通过引入节点相关性,考虑节点之间风险状况的相互影响,解决了网络安全风险量化过程中普遍存在的忽视网络节点相关性的问题,提高了风险评估的准确性。仿真实验验证了该方法的可行性及有效性。 展开更多
关键词 网络安全 风险评估 markov博弈 弱点漏洞
下载PDF
基于后悔值的多Agent冲突博弈强化学习模型 被引量:6
10
作者 肖正 张世永 《软件学报》 EI CSCD 北大核心 2008年第11期2957-2967,共11页
对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agen... 对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. 展开更多
关键词 markov对策 强化学习 冲突博弈 冲突消解
下载PDF
Approximating Nash Equilibrium in Day-ahead Electricity Market Bidding with Multi-agent Deep Reinforcement Learning 被引量:8
11
作者 Yan Du Fangxing Li +1 位作者 Helia Zandi Yaosuo Xue 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2021年第3期534-544,共11页
In this paper,a day-ahead electricity market bidding problem with multiple strategic generation company(GEN-CO)bidders is studied.The problem is formulated as a Markov game model,where GENCO bidders interact with each... In this paper,a day-ahead electricity market bidding problem with multiple strategic generation company(GEN-CO)bidders is studied.The problem is formulated as a Markov game model,where GENCO bidders interact with each other to develop their optimal day-ahead bidding strategies.Considering unobservable information in the problem,a model-free and data-driven approach,known as multi-agent deep deterministic policy gradient(MADDPG),is applied for approximating the Nash equilibrium(NE)in the above Markov game.The MAD-DPG algorithm has the advantage of generalization due to the automatic feature extraction ability of the deep neural networks.The algorithm is tested on an IEEE 30-bus system with three competitive GENCO bidders in both an uncongested case and a congested case.Comparisons with a truthful bidding strategy and state-of-the-art deep reinforcement learning methods including deep Q network and deep deterministic policy gradient(DDPG)demonstrate that the applied MADDPG algorithm can find a superior bidding strategy for all the market participants with increased profit gains.In addition,the comparison with a conventional-model-based method shows that the MADDPG algorithm has higher computational efficiency,which is feasible for real-world applications. 展开更多
关键词 Bidding strategy day-ahead electricity market deep reinforcement learning markov game multi-agent deterministic policy gradient(MADDPG) Nash equilibrium(NE)
原文传递
一类非完备信息博弈的信息模型 被引量:5
12
作者 马骁 王轩 王晓龙 《计算机研究与发展》 EI CSCD 北大核心 2010年第12期2100-2109,共10页
近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获... 近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获取方法,引入Markov模型进行信息处理.通过在四国军棋上的实验验证了通用信息模型在获取、管理非完备信息上的有效性,并证明了Markov网络在非完备信息处理中的有效性. 展开更多
关键词 非完备信息博弈 信息空间 markov网络 二分图 四国军棋
下载PDF
计及马尔科夫链的能源社区产消者贝叶斯博弈策略
13
作者 张虹 孙书朋 +3 位作者 李亚洲 孟庆尧 马泽群 刘旭 《智慧电力》 北大核心 2024年第3期39-46,79,共9页
随着电力系统用户侧能源转型比例的不断提高,传统的社区用电居民逐步向着能源社区产消者转变,并通过能源交易的方式来促进分布式能源就地消纳。在此背景下,通过构建贝叶斯博弈能源交易模型,实现能源社区产消者之间的自主能源交易。首先... 随着电力系统用户侧能源转型比例的不断提高,传统的社区用电居民逐步向着能源社区产消者转变,并通过能源交易的方式来促进分布式能源就地消纳。在此背景下,通过构建贝叶斯博弈能源交易模型,实现能源社区产消者之间的自主能源交易。首先,针对交易过程中产消者交易身份的不确定性问题,采用马尔科夫链对其身份状态概率进行分析。然后,将概率分布作为先验概率,建立能源社区产消者能源交易的贝叶斯博弈模型,对产消者之间的能源交易过程进行优化。最后,通过算例验证了所提模型在保证产消者隐私性的同时提高了其自身的收益。 展开更多
关键词 产消者 马尔科夫链 交易身份 不确定性 贝叶斯博弈
下载PDF
基于时空依赖关系多智能体强化学习的多路口交通信号协同控制方法
14
作者 王兆瑞 岩延 张宝贤 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第3期398-410,共13页
面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机... 面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机制的时空依赖模块STDM(spatiotemporal dependent module),STLight可将初始交通观测数据提取为时空特征,以有效捕获各交叉路口间的时空依赖关系。此外,基于所提取的时空特征,STLight在基于集中训练分散执行框架的多智能体强化学习算法基础之上进一步为各个智能体引入全局时空信息,从而进一步提升多智能体之间的协作能力。实验结果表明,STLight在提升城市道路网络的性能方面具有显著的优势,有助于缓解当前大规模城市道路网络的交通拥堵问题。 展开更多
关键词 多智能体强化学习 多路口交通信号控制 注意力机制 马尔可夫博弈 时空依赖
下载PDF
高速公路混合交通环境下的智能网联汽车换道策略研究
15
作者 刘永涛 孙斐然 +4 位作者 袁诗泉 高隆鑫 曹莹 陈轶嵩 乔洁 《汽车工程》 EI CSCD 北大核心 2024年第5期754-765,共12页
为推动智能网联汽车应用落地,提出高速公路混合交通环境下智能网联汽车换道策略。首先,改进NaSch元胞自动机模型,并采用马尔科夫链算法计算道路通行能力;其次,针对目标车道为专用车道和普通车道分别建立基于车速引导的决策模型和基于博... 为推动智能网联汽车应用落地,提出高速公路混合交通环境下智能网联汽车换道策略。首先,改进NaSch元胞自动机模型,并采用马尔科夫链算法计算道路通行能力;其次,针对目标车道为专用车道和普通车道分别建立基于车速引导的决策模型和基于博弈论的双矩阵决策模型;最后,采用多目标轨迹优化算法优化换道轨迹。结果表明:目标车道为专用车道和普通车道时,所提出的策略可分别提高换道效率6%、3.38%。 展开更多
关键词 高速公路混合交通环境 元胞自动机 马尔科夫链 博弈论 轨迹规划
下载PDF
基于Markov微分博弈的移动目标防御决策优化 被引量:1
16
作者 胡春娇 陈瑛 王高才 《计算机应用研究》 CSCD 北大核心 2023年第9期2832-2837,共6页
随着网络攻防向实时连续和动态高频变化的方向发展,传统的离散多阶段网络攻防博弈模型已难以满足实际需求,而且传统网络攻防模型中的节点状态单一,难以准确描述实际网络对抗中节点类型的演化过程。将节点传染病动力学模型加以改进并应... 随着网络攻防向实时连续和动态高频变化的方向发展,传统的离散多阶段网络攻防博弈模型已难以满足实际需求,而且传统网络攻防模型中的节点状态单一,难以准确描述实际网络对抗中节点类型的演化过程。将节点传染病动力学模型加以改进并应用到网络攻防对抗中,用来描述攻防过程中不同状态节点的演化过程及节点状态间的迁移关系。在构建移动目标Markov微分博弈防御模型时,各阶段内运用微分博弈模型分析,阶段间运用Markov决策过程描述状态转移,通过均衡分析和求解,设计防御决策优化算法。最后,通过仿真实验验证该模型和优化策略的可行性和有效性。 展开更多
关键词 移动目标 防御决策优化 markov微分 博弈模型
下载PDF
动态攻击网络Markov演化博弈安全分析模型 被引量:4
17
作者 李艳 黄光球 张斌 《计算机科学与探索》 CSCD 北大核心 2016年第9期1272-1281,共10页
网络攻击或防御策略选取的随机性会导致系统状态变化的随机性,网络攻防的过程也定然是收益矩阵各不相同的多状态上的对抗。使用Markov决策过程对这一随机性进行刻画,将单状态的博弈模型扩展到多状态,形成了多状态多智能体的Markov演化... 网络攻击或防御策略选取的随机性会导致系统状态变化的随机性,网络攻防的过程也定然是收益矩阵各不相同的多状态上的对抗。使用Markov决策过程对这一随机性进行刻画,将单状态的博弈模型扩展到多状态,形成了多状态多智能体的Markov演化博弈模型;在形式化建模的基础上,证明了均衡策略的存在;通过非线性规划的求解方法得到了攻防策略方案。最后以一个典型的企业网络攻防过程为例,使用该模型进行了仿真分析和推演,结果表明该模型符合实际应用,评估结果准确,有助于攻防博弈研究的发展。 展开更多
关键词 攻防演化 演化博弈 markov博弈 网络攻击模型 网络安全
下载PDF
马尔可夫过程及其控制的理论和应用 被引量:1
18
作者 陈娴 王文元 周达 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1045-1051,共7页
马尔可夫过程,也称作马氏过程,是在理论和应用上都非常重要的一类随机过程.本文综述了厦门大学数学科学学院概率论研究团队近10年来在马氏过程以及控制的相关理论和应用方面的研究成果.
关键词 马氏过程 保正型 随机博弈 风险灵敏性准则 列维过程 生物数学
下载PDF
基于Markov对策的码垛机器人三维路径规划 被引量:4
19
作者 刘久富 陈魁 +2 位作者 苏青琴 梁娟娟 王志胜 《中国机械工程》 EI CAS CSCD 北大核心 2012年第7期851-855,共5页
针对码垛机器人应用环境状况较复杂、不确定条件较多的问题,使用基于Markov对策的算法对多关节码垛机器人进行路径规划。首先根据实际的工作环境设定机器人的运动范围,并选择经常出现的动作组合作为机器人运动的基本行为集,给出各种情... 针对码垛机器人应用环境状况较复杂、不确定条件较多的问题,使用基于Markov对策的算法对多关节码垛机器人进行路径规划。首先根据实际的工作环境设定机器人的运动范围,并选择经常出现的动作组合作为机器人运动的基本行为集,给出各种情况可能获得的报酬值,依据多智能体Q值学习算法更新每个关节的报酬值,反解出对应最大报酬值的动作组合,选择部分动作组合可以减少各关节之间的协调关系,降低算法的复杂度。仿真绘制出最佳动作组合时的运动轨迹,以及机器人运动环境中无障碍与放置球形障碍物时的三维运动轨迹,并确定轨迹的误差。最后经过实验验证表明,多智能体Q值算法能有效地控制各个关节的协调运动,实际运动的误差在允许的范围内,满足使用要求。 展开更多
关键词 码垛机器人 多关节机器人 多AGENT系统 markov对策 NASH均衡
下载PDF
认知无线网络中基于随机博弈框架的频率分配 被引量:4
20
作者 刘鑫 阚兴一 王三强 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2011年第5期778-783,共6页
为了解决认知无线网络中分布式的动态频率分配问题,采用随机博弈的框架,将认知链路建模成自私理性的智能体,并提出了一种以最大化平均Q函数为目标的多智能体学习算法—MAQ。通过MAQ学习,分布式的智能体可以实现间接的协商而不需要交互Q... 为了解决认知无线网络中分布式的动态频率分配问题,采用随机博弈的框架,将认知链路建模成自私理性的智能体,并提出了一种以最大化平均Q函数为目标的多智能体学习算法—MAQ。通过MAQ学习,分布式的智能体可以实现间接的协商而不需要交互Q函数和回报值,因为智能体的决策过程需要考虑其他用户的决策。理论证明了MAQ学习算法的收敛性。仿真结果表明,MAQ算法的吞吐量性能接近中心式的学习算法,但是MAQ只需要较少的信息交互。 展开更多
关键词 随机博弈 MARL 认知无线电 资源分配 强化学习 Q学习 分布式网络 markov过程
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部