期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
智能博弈对抗方法:博弈论与强化学习综合视角对比分析 被引量:13
1
作者 袁唯淋 罗俊仁 +3 位作者 陆丽娜 陈佳星 张万鹏 陈璟 《计算机科学》 CSCD 北大核心 2022年第8期191-204,共14页
智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题。以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入... 智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题。以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入发掘。文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关键挑战。从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法。多角度对比分析博弈理论和强化学习的优势与局限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力。 展开更多
关键词 智能博弈对抗 反事实后悔值最小化 虚拟自博弈 纳什均衡 强化学习
下载PDF
计算机博弈中序贯不完美信息博弈求解研究进展 被引量:3
2
作者 罗俊仁 张万鹏 +2 位作者 苏炯铭 魏婷婷 陈璟 《控制与决策》 EI CSCD 北大核心 2023年第10期2721-2748,共28页
计算机博弈是人工智能的果蝇和通用测试基准.近年来,序贯不完美信息博弈求解一直是计算机博弈研究领域的前沿课题.围绕计算机博弈中不完美信息博弈求解问题展开综述分析.首先,梳理计算机博弈领域标志性突破的里程碑事件,简要介绍4类新... 计算机博弈是人工智能的果蝇和通用测试基准.近年来,序贯不完美信息博弈求解一直是计算机博弈研究领域的前沿课题.围绕计算机博弈中不完美信息博弈求解问题展开综述分析.首先,梳理计算机博弈领域标志性突破的里程碑事件,简要介绍4类新评估基准,归纳3种研究范式,提出序贯不完美信息博弈求解研究框架;然后,着重对序贯不完美信息博弈的博弈模型和解概念进行调研,从博弈构建、子博弈和元博弈、解概念以及评估3方面进行简要介绍;接着,围绕离线策略求解,系统梳理算法博弈论、优化理论和博弈学习3大类方法,围绕在线策略求解,系统梳理对手近似式学习、对手判别式适变和对手生成式搜索3大类方法;最后,从环境、智能体(对手)和策略求解3个角度分析面临的挑战,从博弈动力学和策略空间理论、多模态对抗博弈和序贯建模、通用策略学习和离线预训练、对手建模(剥削)和反剥削、临机组队和零样本协调5方面展望未来研究前沿课题.对于当前不完美信息博弈求解问题进行全面概述,期望能够为人工智能和博弈论领域相关研究带来启发. 展开更多
关键词 计算机博弈 不完美信息博弈 扩展式博弈 反事实后悔最小化 在线凸优化 无悔学习 对手建模
原文传递
基于不完全信息的工业园区多主体需求响应博弈策略研究
3
作者 孙勇 王惠锋 +5 位作者 孟祥东 李宝聚 王大亮 王尧 胡枭 陈厚合 《电工电能新技术》 CSCD 北大核心 2024年第2期65-77,共13页
随着我国电力市场化改革进程的推进与发展,在工业园区层面如何攫取各响应主体最大利润,以引导用户积极参与需求响应成为亟待解决的新问题。基于响应流程中市场信息披露有限且用户与聚合商自由缔结合约的情形,本文提出了一种聚合商视角... 随着我国电力市场化改革进程的推进与发展,在工业园区层面如何攫取各响应主体最大利润,以引导用户积极参与需求响应成为亟待解决的新问题。基于响应流程中市场信息披露有限且用户与聚合商自由缔结合约的情形,本文提出了一种聚合商视角下的最佳博弈策略及针对用户的收益分配方式。考虑工业园区内用户的利益关系,建立以不完全信息贝叶斯博弈作为上层、以合作博弈作为下层的多主体双层博弈架构;其次以最大化自身利益为目标,采用改进的虚拟遗憾最小化思想结合启发式算法求解博弈均衡,达成园区内的稳定合作关系。最后通过算例进行验证,分别设置了不同场景下申报策略和收益分配两方面的多个对比模型,结果表明本文所提方法得出的策略能够提高用户收益,且利益分配机制的合理选择能够在提高用户需求响应积极性方面起到促进作用。 展开更多
关键词 多主体需求响应 贝叶斯博弈 电力市场 工业园区 不完全信息 虚拟遗憾最小化
下载PDF
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
4
作者 张明悦 金芝 刘坤 《软件学报》 EI CSCD 北大核心 2024年第2期739-757,共19页
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的... 合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升. 展开更多
关键词 多智能体强化学习 虚拟遗憾最小化 自博弈 动态决策
下载PDF
计算机扑克智能博弈研究综述 被引量:3
5
作者 袁唯淋 廖志勇 +4 位作者 高巍 魏婷婷 罗俊仁 张万鹏 陈璟 《网络与信息安全学报》 2021年第5期57-76,共20页
计算机博弈是人工智能领域的“果蝇”,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。扑克类博弈对抗问题可建模成边界确定、规则固定的不完美信息动态博弈,计算机扑克AI需要具备不完全信息动态决策、对手误导欺诈行... 计算机博弈是人工智能领域的“果蝇”,备受人工智能领域研究者的关注,已然成为研究认知智能的有利平台。扑克类博弈对抗问题可建模成边界确定、规则固定的不完美信息动态博弈,计算机扑克AI需要具备不完全信息动态决策、对手误导欺诈行为识别以及多回合筹码和风险管理等能力。首先梳理了以德州扑克为代表的计算机扑克智能博弈的发展历程,其次针对计算机扑克智能博弈典型模型算法、关键技术以及存在的主要问题进行了综述分析,最后探讨了计算机扑克智能博弈的未来发展趋势和应用前景。 展开更多
关键词 计算机扑克 认知智能 不完美信息博弈 德州扑克 虚拟遗憾最小化
下载PDF
三方众包市场中的发包方-平台博弈机制设计
6
作者 何雨橙 丁尧相 周志华 《计算机研究与发展》 EI CSCD 北大核心 2022年第11期2507-2519,共13页
众包(crowdsourcing)通常涉及到目标各不相同的多个参与者.设计有效的众包机制,使得各个参与者在竞争中实现共赢,是众包理论研究中的基本问题之一.当前,众包机制设计通常基于发包方标注者直接进行交互的两方博弈模型.而现实应用中,发包... 众包(crowdsourcing)通常涉及到目标各不相同的多个参与者.设计有效的众包机制,使得各个参与者在竞争中实现共赢,是众包理论研究中的基本问题之一.当前,众包机制设计通常基于发包方标注者直接进行交互的两方博弈模型.而现实应用中,发包方与标注者之间往往通过平台进行交互,从而构成三方博弈下的众包市场.其中的发包方平台博弈机制设计是过往众包研究中未曾涉及的全新问题.将三方众包市场建模为不完全信息博弈,并证明该博弈问题的Nash均衡可通过在线学习来最小化发包方和平台的累计遗憾而达到.在单发包方情形下,证明经典的EXP3算法对于发包方的最优性,并基于反事实遗憾最小化技术为平台设计了有效策略.同时,将单发包方情形下发包方和平台策略拓展到多发包方情形下并给出理论分析.合成及真实数据集上的实验验证了该方法的有效性. 展开更多
关键词 众包 博弈理论 机制设计 在线学习 反事实遗憾最小化
下载PDF
非完全信息下基于PPO-CFR的扩展式博弈决策
7
作者 黄蕾 朱进 段福庆 《中国科学:信息科学》 CSCD 北大核心 2022年第12期2178-2194,共17页
非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(counterfactual regret minimization,CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和... 非完全信息下的人机对抗通常可以通过双人零和博弈模型加以描述,反事实后悔最小化(counterfactual regret minimization,CFR)是处理非完全信息双人零和博弈的一种流行算法.然而现有CFR及其变体算法在迭代过程中使用固定的后悔值计算和策略更新类型,在非完全信息扩展式博弈下表现各有优劣,泛化性能薄弱.针对这一问题,本文将强化学习近端策略优化(proximal policy optimization,PPO)算法与CFR算法相结合,提出一种PPO-CFR算法,通过训练出理性的智能体,从而实现CFR迭代过程后悔值计算和策略更新类型的自适应选择,以提高算法的泛化性能,并实现非完全信息扩展式博弈的策略优化.本文采用通用的扑克博弈实验验证所提算法,并制定逐步奖励函数训练智能体的动作策略,实验结果表明,与现有方法相比,PPO-CFR算法具有更好的泛化性能和更低的可利用度,迭代策略更为逼近纳什均衡策略. 展开更多
关键词 非完全信息 扩展式博弈 反事实后悔最小化 近端策略优化 博弈决策
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部