-
题名基于蒙特卡洛Q值函数的多智能体决策方法
被引量:6
- 1
-
-
作者
张健
潘耀宗
杨海涛
孙舒
赵洪利
无
-
机构
中国人民解放军战略支援部队航天工程大学
中国人民解放军
中国人民解放军
-
出处
《控制与决策》
EI
CSCD
北大核心
2020年第3期637-644,共8页
-
文摘
多智能体决策问题是人工智能领域的研究热点.与单智能体决策问题相比,多智能体决策的策略搜索空间更大.分布式局部感知马尔可夫决策过程(Dec-POMDPs)建立了不确定环境下多智能体决策问题的通用模型,自提出以来受到很大关注,但是求解Dec-POMDPs问题计算复杂度高,内存占用大.基于此,提出一种新的Q值函数表示—–蒙特卡洛Q值函数(QMC),并从理论上证明QMC是最优Q值函数Q?的上界,能够保证启发式搜索到最优解;运用自适应抽样方法,平衡收敛准确性和求解时间的关系;结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性,提出一种基于QMC的蒙特卡洛聚类/扩展算法(CEMC),CEMC整合了Q值函数求解和策略搜索过程,避免保存所有值函数,只按需求解.实验结果表明,CEMC在时间和内存占用上超过目前性能最好的使用紧凑Q值函数的启发式方法.
-
关键词
多智能体决策
蒙特卡洛
值函数
马尔可夫决策
-
Keywords
multi-agent decision making
Monte Carlo
Q-value function
Markov decision
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名多智能体分层协作规划及在RoboCup中的应用
被引量:3
- 2
-
-
作者
陈荣亚
陈小平
-
机构
中国科学技术大学计算机科学与技术学院
-
出处
《计算机系统应用》
2016年第1期17-23,共7页
-
文摘
为了更好地解决一类通讯受限环境中多智能体任务协作规划问题,提出了基于MAXQ-OP的多智能体在线规划方法,并在Robo Cup仿真2D足球比赛的人墙站位和多球员传球问题中对算法进行了实验.实验结果表明,这个方法使智能体在需要协作配合的环境中的表现比传统方法有了明显提升.
-
关键词
多智能体决策
机器人世界杯
马尔科夫决策过程
MAXQ分层分解
-
Keywords
multi-agent decision-making
Robo Cup
Markov decision process
MAXQ hierarchical decomposition
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名多智能体环境下的情绪决策模型
被引量:2
- 3
-
-
作者
林君焕
刘箴
陈月芬
-
机构
宁波大学信息科学与工程学院
台州职业技术学院机电工程学院
台州学院物理与电子工程学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2015年第4期369-376,共8页
-
基金
国家自然科学基金项目(No.61373068)
国家教育部/博士学科点专项科研基金项目(No.20133305110004)
+3 种基金
浙江省自然科学基金项目(No.LY13F020037)
浙江省重点实验室开放基金项目(No.ZKL-PR-200307)
宁波市科技计划项目(No.2013D10011
2014C50018)资助
-
文摘
建立一种基于情绪的Nash-Q决策模型,它由认知层和情绪层组成.认知层模型由Nash-Q算法实现,情绪层建立在情绪记忆和评价理论之上,由高兴、伤心、恐惧、厌烦组成情绪空间,建立相应刺激与情绪映射模型、情绪与行为动作映射模型、每种情绪下的动作信任度评价模型.将文中模型应用到两智能体网格决策实验中,结果表明情绪层的引入可加快收敛速度,同时能有效防止陷入局部最优,更好兼顾在线学习的"保守"和"探索"平衡.
-
关键词
多智能体决策
Nash-Q学习
情绪决策
博弈理论
-
Keywords
Multi-agent Decision-Making
Nash-Q Learning
Emotion Decision-Making
Game Theory
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名多智能体协同决策方法研究
被引量:2
- 4
-
-
作者
张峰
李明强
唐思琦
金丹
-
机构
中国电子科技集团公司信息科学研究院
-
出处
《中国电子科学研究院学报》
北大核心
2022年第9期905-910,共6页
-
基金
国家科技部重点研发计划(2021YFA1000401)
国家自然科学基金资助(U19B2040)。
-
文摘
多智能体协同决策问题是群体智能领域一个重要的研究方向,随着深度强化学习算法在多智能体决策领域如游戏AI、推荐系统、智能交通等方面的应用,基于深度强化学习的多智能体算法已经成为一个研究热点。文中分别针对不完全信息决策、复杂决策空间设计以及动态博弈等问题开展分析,并阐述了相应的算法或模型,最后对未来多智能体领域的研究进行了展望。
-
关键词
多智能体决策
强化学习
不完全信息
-
Keywords
multi-agent decision-making
reinforcement learning
incomplete information
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于可传递置信模型的分布智能体决策融合方法
被引量:1
- 5
-
-
作者
范波
普杰信
刘刚
-
机构
河南科技大学电子信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第2期443-445,449,共4页
-
基金
国家自然科学基金资助项目(60475021)
-
文摘
在分析与研究对抗性多机器人系统决策问题的基础上,提出了一种基于可传递置信模型的多智能体决策融合方法;构建了决策融合体系架构,分别设计了基于证据推理的观测智能体模型,基于TBM的决策智能体模型以及决策融合中心模型,给出了相应的算法。通过在机器人足球中的应用及仿真实验,体现了本方法在对抗性多机器人系统中决策制定的良好性能及效果。
-
关键词
多智能体决策
信息融合
可传递置信模型
证据推理
机器人足球
-
Keywords
multi-agent decision
information fusion
transferable belief model(TBM)
evidential reasoning
robot soccer
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP242.6
[自动化与计算机技术—控制科学与工程]
-
-
题名基于多智能体决策技术的远海物资保障模型
- 6
-
-
作者
董鹏
李蕴哲
石怀斌
-
机构
海军工程大学管理工程与装备经济系
联勤保障部队政治工作部
-
出处
《火力与指挥控制》
CSCD
北大核心
2023年第10期18-26,33,共10页
-
基金
2021国家社科基金军事学项目(2021-xxxx-C-017)。
-
文摘
针对远海防卫后勤保障特点,基于Anylogic仿真软件,以作战力量、保障点、保障力量等为智能体模拟了远海物资保障流程,建立了远海物资保障模型,提出了两种保障方案,并以成本费用、补给时间、补给效率为指标,对两种方案进行了对比评估,得到了最优保障方案。结果表明,利用多智能体仿真技术能有效实现远海物资保障方案问题求解,降低补给时间和成本,提高补给效率,为远海物资保障方案的研究提供技术参考。
-
关键词
远海防卫
多智能体决策
远海物资保障
ANYLOGIC
后勤保障
-
Keywords
open sea defense
multi-agent decision-making
open sea material support
Anylogic
logistical support
-
分类号
TJ01
[兵器科学与技术—兵器发射理论与技术]
-
-
题名基于过滤机制筛选信息的多智能体策略方法
- 7
-
-
作者
陈亮
郭婷
刘韵婷
杨佳明
-
机构
沈阳理工大学自动化与电气工程学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2022年第6期1643-1648,共6页
-
文摘
多智能体系统在进行协作或竞争时,会面临联合信息空间扩大、智能体间信息提取效率降低的问题.对此,采用增加过滤机制来筛选信息的多智能体强化学习策略方法(FMAC),以增强智能体间信息交流能力.该方法通过找到彼此相关联的智能体,根据相关性计算智能体的信息贡献,过滤掉无关智能体信息,从而实现在合作、竞争或者混合环境下智能体间有效的沟通.与此同时,采用集中训练分散执行的方式解决环境的非平稳性问题.通过对比算法进行实验,结果表明改进算法提高了策略迭代效率以及泛化能力,并且智能体数量增多时仍可保持稳定的效果,有助于将多智能体强化学习应用到更广泛的领域.
-
关键词
强化学习
多智能体决策
信息过滤
集中训练分散执行
-
Keywords
reinforcement learning
multi-agent system
filtering mechanism
centralized training decentralized execution
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名物联网环境下多智能体决策信息支持技术
被引量:1
- 8
-
-
作者
窦怀振
-
机构
徐州生物工程职业技术学院
-
出处
《无线互联科技》
2018年第2期21-22,共2页
-
文摘
物联网技术的迅猛发展,为人们的生产生活带来了较大的便利。传感器网络也得到了广泛的应用,利用传感器能够实现对信息的实时感知,为智能应用的实施提供充分的信息技术支持,为我国信息技术的发展起到了较大的促进作用。在此种状态下,对多智能体决策信息支持技术的研究显得十分必要。文章对多智能体决策信息系统的简介及现状进行分析,并对该系统的建立以及主要应用加以阐述。
-
关键词
物联网
多智能体决策信息技术
系统现状
-
Keywords
Internet of Things
multi-agent decision information technology
system status quo
-
分类号
TN929.5
[电子电信—通信与信息系统]
TP391.44
[电子电信—信息与通信工程]
-
-
题名基于深度强化学习的胃癌IMRT自动计划设计
- 9
-
-
作者
王翰林
白雪
王彬冰
单国平
-
机构
浙江省肿瘤医院放射物理科
-
出处
《中华放射肿瘤学杂志》
CSCD
北大核心
2024年第7期642-649,共8页
-
基金
国家自然科学基金(12005190)。
-
文摘
目的开发并评估一种针对治疗计划系统(TPS)的调强放疗(IMRT)无监督自动计划方案,使其能够模拟人工进行治疗计划的自动优化。方法回顾性分析2022年3月至2023年3月浙江省肿瘤医院已经完成放疗的25例胃癌患者资料,患者年龄40~60岁,其中训练集7例,测试集18例。所有患者均采用相同的临床处方剂量标准45 Gy分25次,并接受飞利浦大孔径腹部CT扫描,扫描层厚为5 mm。基于深度强化学习(DRL)框架,提出一种多智能体优化决策网络(MOPN),对多个优化目标进行调整,从而模拟临床人工计划设计的过程。所有病例的自动计划方案均借助Eclipse脚本应用程序接口(ESAPI)进行代码编程,由MOPN模型自动生成。利用Wilcoxon符号秩检验比较自动计划方案与人工计划方案在相关剂量学指标间的差异。结果初始优化目标经过MOPN调整后,自动计划的平均得分由(576.1±221.2)分上升至(1852.8±294.9)分。与临床人工计划相比,MOPN自动计划在脊髓D_(max)、肝D_(mean)和肝V5 Gy方面分别降低了21.4%、9.8%和11.5%。结论MOPN模型借助ESAPI工具完成了与TPS的数据互通,同时也实现了胃癌IMRT治疗计划的自动化设计。经过训练的MOPN模型可以模仿计划者在优化过程中的人为操作来调整多个目标,逐步改善计划质量。
-
关键词
胃肿瘤
放射疗法
调强适形
自动计划
深度强化学习
多智能体优化决策网络
-
Keywords
Stomach neoplasms
Radiotherapy,intensity-modulated
Automatic planning
Deep reinforcement learning
Multi-agent optimization policy network
-
分类号
R735.2
[医药卫生—肿瘤]
R730.55
[医药卫生—临床医学]
-
-
题名浅谈物联网环境下多智能体决策信息支持技术
被引量:3
- 10
-
-
作者
林声伟
-
机构
广东海洋大学寸金学院
-
出处
《信息系统工程》
2015年第3期112-112,共1页
-
文摘
物联网技术的兴起和应用,为社会生产和人们的生活带来了方便。其中,传感器的应用推动了我国信息技术向更高的层次发展。因此,多智能体决策信息支持技术的开发和应用,是现代物联网企业的工作重点。文章分析了多智能体决策信息系统的特点以及应用现状,介绍了物联网环境下的多智能体决策信息支持技术的应用。
-
关键词
物联网
传感器
多智能体决策信息支持技术
-
分类号
TP391.44
[自动化与计算机技术—计算机应用技术]
TN929.5
[自动化与计算机技术—计算机科学与技术]
-
-
题名新时期物联网环境下多智能体决策信息技术
被引量:1
- 11
-
-
作者
桂亚平
-
机构
江西工程学院
-
出处
《山西农经》
2016年第14期126-126,共1页
-
文摘
本文对物联网和多智能体决策信息系统进行了分析,探究了多智能体决策信息技术的应用及其应用价值,对于促进这项技术的发展具有积极的意义。
-
关键词
物联网
多智能体决策信息技术
应用
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.44
[自动化与计算机技术—控制科学与工程]
TN929.5
[电子电信—通信与信息系统]
-
-
题名物联网环境下多智能体决策信息支持技术研究
- 12
-
-
作者
谢磊
-
机构
成都理工大学
-
出处
《中国新通信》
2016年第8期70-70,共1页
-
文摘
随着信息技术的发展,物联网技术和多智能体决策信息支持技术逐渐在各行各业中得到了应用。因此,基于这种认识,本文在对物联网与多智能体决策信息系统展开介绍的基础上,对物联网环境下多智能体决策信息支持技术展开了研究,从而为关注这一话题的人们提供参考。
-
关键词
物联网环境
多智能体决策信息系统
支持技术
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.44
[自动化与计算机技术—控制科学与工程]
TN929.5
[电子电信—通信与信息系统]
-
-
题名物联网环境下茶园农业多智能体决策信息技术研究
被引量:2
- 13
-
-
作者
戚伟慧
-
机构
杭州万向职业技术学院
-
出处
《福建茶叶》
2018年第10期22-22,共1页
-
文摘
二十一世纪初期,网络技术的发展带动了新兴产业的发展与进步,物联网技术作为互联网技术基础上的技术延伸发展迅速。物联网的发展惠及了人们生活的方方面面,不仅带动了科技的发展,还在一定意义上引导了计算机行业的信息革命。多智能决策技术是计算机行业革新之后出现的信息行业更新换代的一项技术,目前虽然还没有大面积投入使用,但是,已经开始融入人们的生产生活中,这一技术也是物联网技术未来的主要发展方向之一。茶园农业作为我国小农经济的一类,发展历史悠久,随着技术的革新也逐渐与互联网产业相结合,通过互联网技术支持,提高茶园种植、运输、管理等环节的工作效率,并为管理者提供更多实时有效的信息,以期提高决策科学性。
-
关键词
物联网
茶园农业
多智能体信息决策
-
分类号
TP391.44
[自动化与计算机技术—计算机应用技术]
TN929.5
[自动化与计算机技术—计算机科学与技术]
S571.1
[电子电信—通信与信息系统]
-