期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
对抗环境中基于种群多样性的鲁棒策略生成方法
1
作者 庄述鑫 陈永红 +3 位作者 郝一行 吴巍炜 徐学永 王万元 《计算机工程与科学》 CSCD 北大核心 2024年第6期1081-1091,共11页
在对抗博弈环境中,目标智能体希望生成具有高鲁棒性的博弈策略,使得目标智能体在面对不同对手策略时,始终具有较高的收益。现有的基于自我博弈的策略生成方法通常会过拟合到针对对手某个特定策略进行学习,所学习到的策略鲁棒性低且容易... 在对抗博弈环境中,目标智能体希望生成具有高鲁棒性的博弈策略,使得目标智能体在面对不同对手策略时,始终具有较高的收益。现有的基于自我博弈的策略生成方法通常会过拟合到针对对手某个特定策略进行学习,所学习到的策略鲁棒性低且容易受到其他对手策略的攻击。此外,现有的结合深度强化学习和博弈论方法迭代生成对手策略的方法在复杂且具有庞大决策空间的对抗场景下收敛效率低。鉴于此,提出一种基于种群多样性的鲁棒策略生成方法,其中对抗双方各自维护一个种群策略池,并且需要保证种群中的策略是具有多样性的,以此生成鲁棒的目标策略。为了保证种群多样性,将从策略的行为和质量2个视角度量策略的多样性,其中行为多样性是指不同策略状态-动作轨迹的差异性,质量多样性是指不同策略面对相同对手时最终获得的收益的差异性。最后,在典型的具有连续状态、连续动作的对抗环境中验证了所提出的基于种群多样性所生成的策略的鲁棒性。 展开更多
关键词 对抗环境 深度强化学习 种群多样性 Shapley value 行为表征
下载PDF
基于不完备信息预测的多智能体分布式协同
2
作者 张宏达 李德才 何玉庆 《信息与控制》 CSCD 北大核心 2024年第1期86-97,共12页
为了解决部分可观对抗环境中多智能体协同决策难题,受人大脑皮层通过记忆进行学习和推理功能启发,提出一种新的部分可观对抗环境下基于不完备信息预测的多智能体分布式协同决策框架。该框架可采用支持向量回归等多种预测方法通过历史记... 为了解决部分可观对抗环境中多智能体协同决策难题,受人大脑皮层通过记忆进行学习和推理功能启发,提出一种新的部分可观对抗环境下基于不完备信息预测的多智能体分布式协同决策框架。该框架可采用支持向量回归等多种预测方法通过历史记忆和当前观察信息对环境中不可见信息进行预测,并将预测信息和观察到的信息融合,作为协同决策的依据;再通过分布式多智能体强化学习进行协同策略学习得到团队中每个智能体的决策模型。使用该框架结合多种预测算法在典型的部分可观对抗环境中进行了多智能体协同决策的验证。结果表明,提出的框架对多种预测算法具有普适性,且在保证对不可见部分高预测精度时能将多智能体协同决策水平提升23.4%。 展开更多
关键词 多智能体协同 部分可观 信息预测 分布式协同决策 对抗环境
原文传递
海上布防任务中无人艇对可疑目标的驱逐方法研究 被引量:1
3
作者 鲁宇琦 魏长赟 《无人系统技术》 2023年第4期51-60,共10页
海上无人船在海洋运输、环境调查、情报搜集等领域得到了日益广泛的应用。目前针对海上无人船的研究主要集中在目标跟踪、追逐避碰等问题,但布防任务中的驱逐任务有着更高要求,既要驱逐可疑船只远离保护目标,又要能够预测可疑船只运动意... 海上无人船在海洋运输、环境调查、情报搜集等领域得到了日益广泛的应用。目前针对海上无人船的研究主要集中在目标跟踪、追逐避碰等问题,但布防任务中的驱逐任务有着更高要求,既要驱逐可疑船只远离保护目标,又要能够预测可疑船只运动意图,从而提前进行拦截,这给无人船的自主决策带来了挑战。针对上述问题,提出了对抗环境下海上无人船对可疑目标的驱逐方法。建立了基于深度强化学习的策略梯度优化算法框架;设计了意图预测模型及封堵策略,实现无人船的提前拦截,并证明了该策略的最优性;提出基于专家经验的矫正纠偏策略,降低了智能体早期的盲目探索时间,加快智能体的训练速度,并证明了专家动作序列的单值性;搭建了基于gym的仿真环境,并在仿真环境中验证了方法的有效性。研究结果表明,提出的驱逐方法能够使无人船在速度不占优势的情况下仍能完成对可疑目标的驱逐,为海上无人船在对抗性环境中执行复杂任务提供了一种技术参考。 展开更多
关键词 海上无人船 深度强化学习 对抗性环境 策略梯度算法 意图预测 封堵策略 专家经验
下载PDF
Rule-N/MSP:智能体自我博弈训练方法
4
作者 张人文 赖俊 +2 位作者 陈希亮 赵春宇 朱梓涵 《陆军工程大学学报》 2023年第6期39-46,共8页
针对对抗性仿真实验环境缺数据、少知识、难学习,智能体策略突破困难的问题,结合课程学习(curriculum learning,CL)思想,提出一种基于Rule-N/MSP体系的智能体自我博弈(self-play,SP)训练方法。通过设计分级课程,采用专家经验设计规则耦... 针对对抗性仿真实验环境缺数据、少知识、难学习,智能体策略突破困难的问题,结合课程学习(curriculum learning,CL)思想,提出一种基于Rule-N/MSP体系的智能体自我博弈(self-play,SP)训练方法。通过设计分级课程,采用专家经验设计规则耦合的智能体对手,引导智能体进行热启动,初步掌握决策能力;开展经典自我博弈(naive SP,NSP)训练,丰富对战数据,稳步提升能力;进行成长式自我博弈(mature SP,MSP)训练,固强补弱,寻求策略突破。形成Rule-N/MSP训练方法,智能体决策能力不断提升,进一步提高智能体训练效率。构建对抗性仿真实验环境进行实验验证,发现使用该方法训练的智能体较仅通过规则对战训练的智能体胜率提高约12%,证明了方法的有效性,为智能决策领域尤其是智能体训练研究提供了有益借鉴。 展开更多
关键词 对抗性环境 智能体 自我博弈 课程学习 训练方法
下载PDF
面向无人机群多智能体强化学习的对抗仿真平台与攻防验证
5
作者 刘双成 李思民 +3 位作者 李海南 修敬乔 刘艾杉 刘祥龙 《网络空间安全科学学报》 2023年第2期93-111,共19页
随着深度学习的函数拟合能力不断增强,研究人员将深度学习引入到强化学习中,多智能体强化学习研究的核心是如何使一组智能体在协作中学习并实施有效的策略。通过考虑智能体之间的相互作用,使得智能体具备更通用的策略和处理不同任务的能... 随着深度学习的函数拟合能力不断增强,研究人员将深度学习引入到强化学习中,多智能体强化学习研究的核心是如何使一组智能体在协作中学习并实施有效的策略。通过考虑智能体之间的相互作用,使得智能体具备更通用的策略和处理不同任务的能力,当前在包括无人机群等一系列复杂的决策任务上应用广泛。然而,使用多智能体强化学习训练得到的无人机群模型在部署时会面临环境的动态变化、输入的不确定性甚至是恶意攻击,表现出模型不鲁棒的问题。文章基于AirSim仿真环境,设计了一个无人机群对抗环境,采用基于规则的方法,将多智能体强化学习算法MAPPO适配到无人机群中,研究得到智能的无人机群模型,并深入探讨了其在个体和集体层面的行为模式。基于上述研究成果,文章提出面向无人机群的攻击框架,包含五种无人机群鲁棒性测试方法覆盖基于策略、观测和奖励函数的三种攻击算法以及基于少数群体和多数群体两种攻击算法,较为全面地覆盖了无人机群所面临的威胁。文章集成无人机群对抗环境、训练算法和攻击算法构建无人机群对抗平台并基于该平台进行实验。结合实验的可视化结果 ,文章分析了遭受五种攻击算法时无人机群模型的异常行为,证实了无人机群模型可能暴露的脆弱性问题,为提高无人机群模型鲁棒性的研究奠定了基础。 展开更多
关键词 无人机群 强化学习 对抗攻击 仿真环境
下载PDF
基于多线性分类器拟合的攻击模拟算法
6
作者 吴玮斌 刘功申 《计算机工程》 CAS CSCD 北大核心 2016年第11期147-151,共5页
为提高分类器在对抗性环境和训练阶段的抗攻击性,提出一种新的攻击模拟算法。通过拟合成员分类器模拟并获取最差情况攻击使用的决策边界,根据阈值设定去除性能较差的成员分类器,使最终攻击结果优于模仿攻击算法。实验结果表明,该算法无... 为提高分类器在对抗性环境和训练阶段的抗攻击性,提出一种新的攻击模拟算法。通过拟合成员分类器模拟并获取最差情况攻击使用的决策边界,根据阈值设定去除性能较差的成员分类器,使最终攻击结果优于模仿攻击算法。实验结果表明,该算法无需获取目标分类器的具体信息,在保证分类准确率的同时具有较高的安全性。 展开更多
关键词 分类器 对抗性环境 攻击模拟算法 最差情况攻击 模仿攻击
下载PDF
基于深度学习的通信信号鲁棒识别算法
7
作者 李雪晴 杨杨 +2 位作者 王勤 代光发 杨祯琳 《信息与电脑》 2020年第4期33-35,共3页
虽然深度学习在计算机视觉和自然语言处理等领域取得了巨大的成功,但是许多研究发现深度神经网络在对抗性环境下鲁棒性较差。笔者分析了基于深度神经网络的通信信号识别算法在对抗性环境下存在的鲁棒性问题,为了解决这一问题,借鉴了有... 虽然深度学习在计算机视觉和自然语言处理等领域取得了巨大的成功,但是许多研究发现深度神经网络在对抗性环境下鲁棒性较差。笔者分析了基于深度神经网络的通信信号识别算法在对抗性环境下存在的鲁棒性问题,为了解决这一问题,借鉴了有效应用于图像处理的对抗训练办法,提出了可解释的鲁棒识别方法。笔者首先利用通信信号星座图的稀疏特点,提出了将I/Q信号转化为带密度的星座图的预处理办法,并将鲁棒训练转化为双层优化问题,通过使用投影梯度下降算法对抗样本进行训练,实验结果表明该方法在更广范围内具有较好的防御性能。 展开更多
关键词 深度神经网络 对抗性环境 鲁棒性 星座图 防御
下载PDF
标签引导的生成对抗网络人脸表情识别域适应方法 被引量:6
8
作者 孙冬梅 张飞飞 毛启容 《计算机工程》 CAS CSCD 北大核心 2020年第5期267-273,281,共8页
传统的人脸表情识别方法主要针对实验室环境下的基本表情,难以应对现实场景中人类微妙和复杂的表情变化,并且目前自然环境人脸表情识别数据集普遍缺乏足够的训练数据。针对该问题,利用实验室环境下的数据库样本,提出以标签引导的生成对... 传统的人脸表情识别方法主要针对实验室环境下的基本表情,难以应对现实场景中人类微妙和复杂的表情变化,并且目前自然环境人脸表情识别数据集普遍缺乏足够的训练数据。针对该问题,利用实验室环境下的数据库样本,提出以标签引导的生成对抗网络表情识别域适应方法。将情感标签作为辅助条件,训练生成对抗网络的生成模型,把实验室环境的数据库样本转化为类似自然环境数据库的样本,以扩充自然环境数据库,同时基于扩充的数据库样本训练基本分类器VGG、Resnet等,从而学习自然环境的数据库的情感特征。在RAF_DB等自然环境人脸表情数据库上的实验结果表明,与Boosting-POOF和PixelDA方法相比,该方法扩充得到的数据库可使人脸表情识别率取得6%~9%的提升。 展开更多
关键词 生成对抗网络 情感标签 人脸表情识别 域适应 自然环境 数据库样本
下载PDF
基于条件生成对抗网络的信道环境缺失数据重建方法
9
作者 罗雨寒 赵灵锴 《现代工业经济和信息化》 2024年第6期183-185,共3页
缺失数据重建是信道环境数据预处理中的重要环节,其重建效果直接关系到信道环境监测及维护质量,但现行方法重建效果并不理想,在实际应用中数据重建误差为零占比比较小,而且数据重建速率比较低,为此提出基于条件生成对抗网络的信道环境... 缺失数据重建是信道环境数据预处理中的重要环节,其重建效果直接关系到信道环境监测及维护质量,但现行方法重建效果并不理想,在实际应用中数据重建误差为零占比比较小,而且数据重建速率比较低,为此提出基于条件生成对抗网络的信道环境缺失数据重建方法。采用描述统计法识别信道环境数据集中缺失数据,建立条件生成对抗网络,利用对抗网络对信道环境数据训练,提取到缺失数据特征,选择与实际情况最贴近的生成数据对缺失数据重建,实现基于条件生成对抗网络的信道环境缺失数据重建。实验证明,设计方法数据重建误差为零占比得到了有效的提升,并且重建速率也得到了有效的提升,在信道环境缺失数据重建方面具有良好的应用前景。 展开更多
关键词 条件生成对抗网络 信道环境 缺失数据 数据重建
下载PDF
中日关系逆境中推进对日公共外交——以日本立命馆孔子学院为案例 被引量:2
10
作者 范强 张云 《现代国际关系》 CSSCI 北大核心 2017年第7期46-51,共6页
紧张的政治关系被认为是中国对日公共外交不畅的症结。作为中国公共外交的代表,孔子学院在日本也曾遭遇阻力,但最终成功存续。本文以立命馆孔子学院为例研究中日政治关系逆境中如何开展公共外交,得出以下初步结论:第一,中日关系逆境并... 紧张的政治关系被认为是中国对日公共外交不畅的症结。作为中国公共外交的代表,孔子学院在日本也曾遭遇阻力,但最终成功存续。本文以立命馆孔子学院为例研究中日政治关系逆境中如何开展公共外交,得出以下初步结论:第一,中日关系逆境并不必然导致公共外交失败,通过与日方伙伴构筑稳固的合作关系,公共外交可以克服中日关系逆境成功存续;第二,推进对日公共外交应当注重对日方合作伙伴的筛选,避免由政府强力推进;第三,区别对待不同类型的孔子学院,采取支持或退出机制并用的举措激发日方合作伙伴的积极性。 展开更多
关键词 政治关系逆境 公共外交 立命馆孔子学院 中日关系
原文传递
基于DRAGAN的通信信号波形生成技术 被引量:1
11
作者 冯奇 张君毅 +1 位作者 陈丽 刘芳 《河北工业科技》 CAS 2022年第1期2-8,共7页
为了解决非合作通信情况下,具有特定帧结构的复杂信号难以重构问题,设计了一种利用深度无悔分析生成对抗网络(deep regret analytic generative adversarial networks,DRAGAN)重构信号的方法。首先利用无悔算法(no-regret algorithms)... 为了解决非合作通信情况下,具有特定帧结构的复杂信号难以重构问题,设计了一种利用深度无悔分析生成对抗网络(deep regret analytic generative adversarial networks,DRAGAN)重构信号的方法。首先利用无悔算法(no-regret algorithms)对判别器损失函数进行约束,判别器的梯度被迫向更加稳定的方向变化;其次通过生成器与判别器的对抗学习,生成器的分布逐步拟合到目标数据的潜在分布;最后构建具有特定帧的复杂信号模型,并据此进行DRAGAN方法的实验验证。仿真实验结果表明,在信噪比为9 dB及以上的条件下,生成信号不仅学习到了样本信号的调制样式、符号速率和频率带宽等特性,还能较准确还原出特定帧部分的符号信息。相较于传统方法,利用DRAGAN生成信号具有相关性高、重构流程简易和泛化能力强等特点,所设计的网络模型在电磁环境构建等场景中具有实用价值。 展开更多
关键词 无线通信技术 信号重构 生成对抗网络 无悔算法 电磁环境构建
下载PDF
多尺度特征融合的对抗神经网络人群计数算法 被引量:1
12
作者 韩萍 刘占锋 +1 位作者 贾云飞 牛勇钢 《中国民航大学学报》 CAS 2021年第1期17-22,39,共7页
为了解决人群计数过程中人群特征提取困难和特征融合过程中信息丢失的问题,提出了多尺度特征融合的对抗神经网络人群计数算法。首先,通过多尺度特征提取结构提取不同尺度的浅层次人群特征;其次,将浅层次人群特征与卷积网络的深层次人群... 为了解决人群计数过程中人群特征提取困难和特征融合过程中信息丢失的问题,提出了多尺度特征融合的对抗神经网络人群计数算法。首先,通过多尺度特征提取结构提取不同尺度的浅层次人群特征;其次,将浅层次人群特征与卷积网络的深层次人群特征利用残差结构连接,实现不同尺度、不同深浅的人群特征融合;最后,通过对抗方式使生成器网络和判别器网络进行交替学习,通过不断学习指导模型生成高质量的人群密度图。在ShanghaiTech和UCF_CC_50数据集上验证,实验结果表明,与传统神经网络模型相比,在复杂人群环境下,该方法的人群计数准确率和鲁棒性都有较大提高。 展开更多
关键词 人群计数 对抗神经网络 特征融合 复杂人群环境
下载PDF
一种基于条件生成对抗网络的模型化策略搜索方法
13
作者 孔乐 赵婷婷 《天津科技大学学报》 CAS 2021年第1期68-74,共7页
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂... 模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂环境中有效的模型化策略搜索强化学习方法.该方法首先利用条件生成对抗网络对环境中的状态转移函数学习,再利用经典的策略搜索方法进行策略学习.通过实验验证,该方法能够准确地生成状态转移数据,为策略学习提供充足的学习样本,从而得到稳定、高性能的策略. 展开更多
关键词 条件生成对抗网络 模型化强化学习 策略搜索 状态转移函数 环境模型
下载PDF
对移植辩诉交易制度的理性思考 被引量:1
14
作者 吴笛 唐丽媛 《西华师范大学学报(哲学社会科学版)》 2005年第2期42-46,共5页
辩诉交易制度的基本机能在于规避诉讼风险,提高诉讼效率。面对案件数量的增加和司法资源的有限性之间的矛盾,我国司法机关近年来也在考虑移植美国的辩诉交易制度,但是任何制度都自有孕育其生长、发育的社会和文化环境,正是由于中美之间... 辩诉交易制度的基本机能在于规避诉讼风险,提高诉讼效率。面对案件数量的增加和司法资源的有限性之间的矛盾,我国司法机关近年来也在考虑移植美国的辩诉交易制度,但是任何制度都自有孕育其生长、发育的社会和文化环境,正是由于中美之间的诉讼制度和诉讼观念都存在较大的差异,使得我们在考虑移植辩诉交易制度时,必须谨慎地对辩诉交易制度运行的内在机理和外在环境加以理性的思考。 展开更多
关键词 辩诉交易制度 理性思考 移植 诉讼风险 诉讼效率 司法资源 案件数量 司法机关 文化环境 诉讼观念 诉讼制度 外在环境 内在机理 制度运行 有限性
下载PDF
试论体育竞争情报研究的基本内容 被引量:16
15
作者 吴晓玲 《情报科学》 CSSCI 北大核心 2002年第10期1042-1045,共4页
将竞争情报理论、方法等引入体育领域 ,结合体育领域特点 ,从体育竞争对手、体育竞争环境和体育竞争战略三方面对体育竞争情报研究的基本内容进行了详细的阐述。为科学地构建和完善我国体育竞争情报研究的理论体系 ,形成竞争情报的研究... 将竞争情报理论、方法等引入体育领域 ,结合体育领域特点 ,从体育竞争对手、体育竞争环境和体育竞争战略三方面对体育竞争情报研究的基本内容进行了详细的阐述。为科学地构建和完善我国体育竞争情报研究的理论体系 ,形成竞争情报的研究分支——体育竞争情报奠定了基础。 展开更多
关键词 体育 体育竞争情报 竞争对手 竞争环境 竞争战略 研究内容
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部