期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
小目标检测研究进展 被引量:47
1
作者 高新波 莫梦竟成 +1 位作者 汪海涛 冷佳旭 《数据采集与处理》 CSCD 北大核心 2021年第3期391-417,共27页
小目标检测长期以来是计算机视觉中的一个难点和研究热点。在深度学习的驱动下,小目标检测已取得了重大突破,并成功应用于国防安全、智能交通和工业自动化等领域。为了进一步促进小目标检测的发展,本文对小目标检测算法进行了全面的总结... 小目标检测长期以来是计算机视觉中的一个难点和研究热点。在深度学习的驱动下,小目标检测已取得了重大突破,并成功应用于国防安全、智能交通和工业自动化等领域。为了进一步促进小目标检测的发展,本文对小目标检测算法进行了全面的总结,并对已有算法进行了归类、分析和比较。首先,对小目标进行了定义,并概述小目标检测所面临的挑战。然后,重点阐述从数据增强、多尺度学习、上下文学习、生成对抗学习以及无锚机制等方面来提升小目标检测性能的方法,并分析了这些方法的优缺点和关联性。之后,全面介绍小目标数据集,并在一些常用的公共数据集上对已有算法进行了性能评估。最后本文对小目标检测技术的未来发展方向进行了展望。 展开更多
关键词 小目标检测 数据增强 多尺度学习 上下文学习 生成对抗学习 无锚机制
下载PDF
基于生成对抗网络的图像去雾算法 被引量:7
2
作者 陈玮 李正旺 尹钟 《信息与控制》 CSCD 北大核心 2019年第6期707-714,722,共9页
为了提高雾霾条件下拍摄到的模糊图像的质量,提出了一种基于生成对抗学习思想的卷积神经网络去雾算法.该卷积网络在生成模型部分将介质透射率和大气光值嵌入一个变量,进行了联合优化,避免了分离优化影响整体去雾性能的缺陷;在对抗模型部... 为了提高雾霾条件下拍摄到的模糊图像的质量,提出了一种基于生成对抗学习思想的卷积神经网络去雾算法.该卷积网络在生成模型部分将介质透射率和大气光值嵌入一个变量,进行了联合优化,避免了分离优化影响整体去雾性能的缺陷;在对抗模型部分,将生成模型部分的输出清晰图和真实的清晰图进行对比,从而判别生成的输出清晰图是否足够真实.为了生成更加逼真的清晰图像,引入了一种新的损失函数来优化网络参数,该损失函数同时纳入了图像的L2损失和双向梯度损失、特征损失和判别器损失,从4个方面来保证去雾性能的良好表现.除此之外,在训练网络的过程中,使用了真实图像和合成有雾图像同时作为数据集,其中的合成图像在合成过程中采用引导滤波算法,这样可以使得合成的有雾图像更加接近于自然情况.最后,引入了更多的评价指标验证了所提方法.基于不同方法的实验数据和实验结果证明了本文方法在已有方法上的提升. 展开更多
关键词 图像去雾 生成对抗学习 联合优化 卷积神经网络 暗通道先验
原文传递
基于反向残差注意力的光流估计
3
作者 梁建业 陈俊洪 +2 位作者 方桂标 吴兴财 刘文印 《计算机与现代化》 2024年第2期64-68,74,共6页
光流估计是视频理解和分析的一项基本任务。现有的许多方法直接将遮挡作为异常点剔除,从而提高模型计算光流的能力,但这也容易引起图像灰度不连续,导致光流估计失败。此外,物体高速运动造成的大位移问题一直是光流估计的难点。为了解决... 光流估计是视频理解和分析的一项基本任务。现有的许多方法直接将遮挡作为异常点剔除,从而提高模型计算光流的能力,但这也容易引起图像灰度不连续,导致光流估计失败。此外,物体高速运动造成的大位移问题一直是光流估计的难点。为了解决上述问题,本文提出一种用于光流估计的基于反向残差注意力的生成对抗学习框架(FlowTran-GAN,FTGAN)。该框架通过设计一个反向残差注意力模块增强特征的空间信息,提高像素之间的匹配程度;并且利用基于U-Net的鉴别器来约束生成器,减少光流估计的误差和不连续性,提高模型的泛化能力。通过在KITTI-2015数据集和MPI-Sintel数据集上进行的实验,实验结果表明本文所提出FTGAN的有效性和优越性。 展开更多
关键词 光流估计 反向残差注意力 生成对抗学习 有监督学习
下载PDF
结合对抗互信息的多变量时间序列抗噪异常检测
4
作者 张本初 乔焰 胡荣耀 《计算机应用研究》 CSCD 北大核心 2024年第8期2384-2391,共8页
近年来,对多变量时间序列的异常检测在各领域中逐渐突显出其重要性。然而,由于多变量时间序列的时空依赖性以及采集所存在的噪声干扰,使得模型学习到的分布与真实分布存在一定的偏差,进而影响检测性能。为了解决以上问题,提出一种结合... 近年来,对多变量时间序列的异常检测在各领域中逐渐突显出其重要性。然而,由于多变量时间序列的时空依赖性以及采集所存在的噪声干扰,使得模型学习到的分布与真实分布存在一定的偏差,进而影响检测性能。为了解决以上问题,提出一种结合对抗互信息的多变量时间序列抗噪异常检测模型(RADAM)。通过设计对比学习机制来达到多变量时间序列全局信息和局部信息的互信息最大化,以此来学习多变量时间序列的时间与空间依赖性;利用自适应权重和过滤器模块减少噪声样本对于训练过程的干扰,使模型在训练过程中具备较高的抗噪能力。在五个真实数据集上与六个先进的同类异常检测方法进行了对比实验,实验结果证明RADAM性能明显优于其他基线模型,说明RADAM能显著提升在包含噪声的多变量时间序列数据集上异常检测的准确度。 展开更多
关键词 多变量时间序列 抗噪异常检测 生成对抗学习 对比学习 互信息最大化
下载PDF
基于聚类和生成对抗学习模型的滤波器剪枝
5
作者 冯叶棋 张俊三 +1 位作者 邵明文 张世栋 《计算机应用与软件》 北大核心 2024年第1期253-260,共8页
深度神经网络过深的网络架构和冗余的参数会导致昂贵的计算成本,近年来深度神经网络的压缩与加速已成为研究热点。针对现有方法的范数准则局限性以及标签依赖问题,提出一种基于聚类中心和生成对抗学习的结构化滤波器剪枝方法(FPCC-GAN)... 深度神经网络过深的网络架构和冗余的参数会导致昂贵的计算成本,近年来深度神经网络的压缩与加速已成为研究热点。针对现有方法的范数准则局限性以及标签依赖问题,提出一种基于聚类中心和生成对抗学习的结构化滤波器剪枝方法(FPCC-GAN):使用K-means聚类算法按卷积层将滤波器逐层聚类;比例化修剪各簇内离聚类中心较近的提取冗余特征的滤波器;使用生成对抗学习迭代训练。实验结果分析表明,与当前主流方法相比,该方法具有更高的准确率。 展开更多
关键词 网络压缩 深度神经网络加速 参数剪枝 聚类 生成对抗学习
下载PDF
反事实增强的对抗学习序列推荐
6
作者 刘珈麟 贺泽宇 李俊 《计算机系统应用》 2024年第4期235-245,共11页
最近,强化学习技术在序列推荐系统取得成功,它能从用户长期反馈信号中学习有效的推荐策略.然而,模型的激励函数设计面临区分度过低的难题.这限制了模型学习不同用户反馈信号间的价值差异的能力,并导致推荐策略总是次优的.现有工作主要... 最近,强化学习技术在序列推荐系统取得成功,它能从用户长期反馈信号中学习有效的推荐策略.然而,模型的激励函数设计面临区分度过低的难题.这限制了模型学习不同用户反馈信号间的价值差异的能力,并导致推荐策略总是次优的.现有工作主要通过调节衰减因子来保证激励函数区分度,但它依赖专家先验知识缺乏理论基础.为了更合理地设计激励函数和提高其区分度,本文依据因果论来分析推荐系统,并提出一种基于反事实区分度增强的序列推荐算法CAL4Rec.首先,所提出方法用结构因果图描述序列推荐过程,并创造性地用因果图定义了因果可鉴别的价值激励区分度.其次,该方法用反事实生成对抗的自监督学习过程优化推荐策略网络,以学习用户的真实倾向.在一系列序列推荐基准数据集上,对CAL4Rec开展了广泛对比和消融实验,实验结果表明CAL4Rec的提升对多种网络实现结构有效(平均2.34%). 展开更多
关键词 反事实推理 生成对抗学习 结构因果模型 序列推荐
下载PDF
融合CNN和二进制生成对抗网络的多元时间序列检索 被引量:1
7
作者 汤丽君 关东海 +2 位作者 汪子璇 袁伟伟 燕雪峰 《小型微型计算机系统》 CSCD 北大核心 2023年第2期281-287,共7页
多元时间序列在日常生活中普遍存在,给定当前的时间序列片段,如何高效且精确地从历史时间片段中找出其相似的时间片段极为重要.本文提出了一种全新的基于CNN和深度非监督二进制生成对抗网络(UCBGAN)来进行多元时间序列检索,它可以有效... 多元时间序列在日常生活中普遍存在,给定当前的时间序列片段,如何高效且精确地从历史时间片段中找出其相似的时间片段极为重要.本文提出了一种全新的基于CNN和深度非监督二进制生成对抗网络(UCBGAN)来进行多元时间序列检索,它可以有效地获取多元时间序列的二进制表示.该网络由3部分构成—一个解码器,一个编码器和一个鉴别器,其中鉴别器和编码器除了最后一层外,共享参数.此外,本文引入了时序相似矩阵,通过构建时序相似矩阵,能进一步提高二进制编码的可鉴别性.在训练过程中,本文引入了对抗损失,相似对损失和重构损失.在多个数据集上的实验结果表明,该方法能有效提高多元时间序列检索的准确度.所以,该方法对于多元时间序列检索是有效的. 展开更多
关键词 多元时间序列检索 非监督学习 二进制编码 卷积神经网络 生成对抗式学习
下载PDF
基于对抗域适应的红外舰船目标分割 被引量:1
8
作者 高子航 刘兆英 +1 位作者 张婷 李玉鑑 《数据采集与处理》 CSCD 北大核心 2023年第3期598-607,共10页
为了提高红外舰船目标的分割准确率,提出一种基于对抗域适应的红外舰船目标分割方法,其中有标注的可见光舰船图像为源域,没有标注的红外舰船图像为目标域。为了解决两个域之间的风格差异问题,本文依次对源域的可见光图像进行灰度化和白... 为了提高红外舰船目标的分割准确率,提出一种基于对抗域适应的红外舰船目标分割方法,其中有标注的可见光舰船图像为源域,没有标注的红外舰船图像为目标域。为了解决两个域之间的风格差异问题,本文依次对源域的可见光图像进行灰度化和白化预处理,将其转换为具有目标域风格的图像。对于目标域的红外图像,使用去噪网络进行优化;接着,为了解决判别网络视野受限问题,设计基于空洞卷积的判别网络;最后,针对目标域预测图像置信度低问题,将目标域预测图像的信息熵加入到对抗损失中。在可见光和红外舰船图像组成的数据集上的实验结果高于现有方法,证明了本文方法的有效性。 展开更多
关键词 域适应 目标分割 生成对抗学习 红外舰船图像 信息熵
下载PDF
基于嵌套生成对抗学习的网络嵌入
9
作者 沈鹏飞 徐臻 王英 《电子学报》 EI CAS CSCD 北大核心 2022年第9期2155-2163,共9页
当前网络嵌入研究更多关注信息网络结构和结点之间一阶或高阶近似关系,对于网络结点自身属性考虑较少.本文提出一种嵌套的生成对抗网络模型N-GAN(Nesting Generative Adversarial Networks for Network Embed⁃ding),实现了网络结构和节... 当前网络嵌入研究更多关注信息网络结构和结点之间一阶或高阶近似关系,对于网络结点自身属性考虑较少.本文提出一种嵌套的生成对抗网络模型N-GAN(Nesting Generative Adversarial Networks for Network Embed⁃ding),实现了网络结构和节点属性同时嵌入到低维向量,从而最大程度保存原始高维信息网络特征.N-GAN模型设计灵活,具有很好的延伸性和扩张性,并在真实数据上验证了N-GAN的性能及其稳定性,其嵌入的低维表示在不同应用中表现出不错的性能. 展开更多
关键词 数据挖掘 网络嵌入 生成对抗学习 信息网络
下载PDF
基于改进HAT网络的多任务连续学习模型
10
作者 郭正兵 王蒙 《信息技术》 2022年第5期1-6,12,共7页
神经网络在连续学习多个任务时,随着学习任务数的增多,学习能力降低,之前学会的知识被覆盖产生灾难性遗忘。针对这一问题,提出了一种结合HAT与生成对抗学习(GAL)的HAT-GAL模型。将GAL嵌入HAT网络全连接层中,解决网络随任务数增多学习能... 神经网络在连续学习多个任务时,随着学习任务数的增多,学习能力降低,之前学会的知识被覆盖产生灾难性遗忘。针对这一问题,提出了一种结合HAT与生成对抗学习(GAL)的HAT-GAL模型。将GAL嵌入HAT网络全连接层中,解决网络随任务数增多学习能力降低以及对多姿态数据鲁棒性差的问题。同时,结合进化策略进行网络参数寻优,有效缓解参数冗余,易陷入局部最优导致的遗忘问题。实验结果表明,改进的HAT-GAL模型对多姿态数据具有很好的普适性,并且连续学习多个任务后学习能力不下降,遗忘率较小。 展开更多
关键词 多任务连续学习 灾难性遗忘 生成对抗学习(GAL) 进化策略
下载PDF
基于生成对抗网络的模仿学习综述 被引量:19
11
作者 林嘉豪 章宗长 +1 位作者 姜冲 郝建业 《计算机学报》 EI CSCD 北大核心 2020年第2期326-351,共26页
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化... 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 展开更多
关键词 模仿学习 基于生成对抗网络的模仿学习 生成对抗模仿学习 模态崩塌 样本利用效率
下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:5
12
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
下载PDF
基于多源域对抗迁移学习的可穿戴情绪识别技术
13
作者 邹永攀 王丹阳 +5 位作者 王丹 郑灿林 宋奇峰 朱毓正 范长河 伍楷舜 《计算机学报》 EI CSCD 北大核心 2024年第2期266-286,共21页
情绪影响身心健康及认知功能等,因而在人们的生活中扮演着重要角色.自动情绪识别有助于预警心理疾病和探索行为机制,具有巨大的研究与应用价值.在过去十余年中,研究者们提出了各种情绪识别方法,但均存在不同方面的不足:基于脑电图(Elect... 情绪影响身心健康及认知功能等,因而在人们的生活中扮演着重要角色.自动情绪识别有助于预警心理疾病和探索行为机制,具有巨大的研究与应用价值.在过去十余年中,研究者们提出了各种情绪识别方法,但均存在不同方面的不足:基于脑电图(Electroencephalography,EEG)信号的方法需采用专业、昂贵且不易操作的脑电仪;基于视觉和语音的方法存在隐私泄露的风险;基于手机使用模式分析的方法其可靠性和准确性有待提高等.本文利用生理信号如呼吸音、心跳音及脉搏等与情绪的潜在关联性,创新性地提出基于低成本、普适易用可穿戴硬件的情绪识别技术,借助多模态数据融合对不同类型数据进行有效利用,既减少了数据冗余又有效提升了系统性能.此外,在保证良好识别准确率的前提下,为提升情绪识别模型对不同用户的泛化性、最大化降低新用户的使用成本,本文提出了基于多源域对抗思想的情绪识别模型,借助少量来自新用户的无标签数据实现模型的无监督迁移,再辅之以极少量有标签数据微调分类器参数可进一步提升情绪识别准确率.为验证所提情绪识别方法的有效性,本文设计并实现了一套融合麦克风与光电容积脉搏波(Photoplethysmography,PPG)传感器以测量人体心跳音、呼吸音及脉搏等生理指征的可穿戴系统.基于此系统,本文在不同设置下开展了大量实验并对不同影响因素进行了评估.实验结果表明:对于四类基本情绪,本文所提方法单被试识别准确率可达95.0%,跨被试识别准确率为62.5%,比基准方法提升了5.3%.结合有监督小样本参数微调,识别准确率可进一步提高至81.1%,比基准方法提高了12.4%.上述结果验证了本文所提方法的可行性,为泛在情绪识别研究做出了崭新的探索. 展开更多
关键词 可穿戴设备 情绪识别 多模态数据 迁移学习 域迁移 生成对抗学习
下载PDF
基于生成对抗模仿学习的路段非机动车行为仿真
14
作者 魏书樵 倪颖 +1 位作者 孙剑 邱红桐 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第4期105-115,共11页
为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主... 为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主要由电动自行车产生,故以电动自行车作为研究对象。在构建的仿真环境中,使用生成对抗模仿学习(GAIL)更新仿真模型使仿真轨迹逐步逼近真实轨迹,同时加入位置奖励与Lagrangian约束方法以解决现有仿真方法中的均质化和行为不可控的问题。结果表明:在测试集表现上,GAIL和PRA-GAIL方法平均每步长距离误差相比于常用的行为克隆方法下降了61.7%和65.8%。在行为层仿真精度上,与GAIL相比,PRAGAIL的加速度分布与真实分布间的KL散度显著降低,越线、超车数量的百分比误差下降了7.2%和20.2%。使用Lagrangian方法添加安全约束使有危险行为的智能体数量相比于常用的奖励增强方法下降了75.8%。在轨迹层仿真精度上,整体仿真环境下,PRA-GAIL的平均每步长距离误差相比于GAIL下降了17.5%。本文模型真实再现了非机动车超车时的操作空间,说明PRAGAIL方法对非机动车行为仿真有良好的适用性。本文提出的改动有效提升了仿真效果,最终所得的仿真模型能够真实地再现路段非机动车的干扰行为,能够应用于自动驾驶仿真测试。 展开更多
关键词 交通工程 非机动车行为 强化学习 生成对抗模仿学习 自动驾驶测试 微观交通仿真
下载PDF
逆向强化学习研究综述 被引量:1
15
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
一种基于生成对抗模仿学习的作战决策方法
16
作者 李东 许霄 吴琳 《指挥控制与仿真》 2024年第2期18-23,共6页
为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策... 为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策和底层动作分层的基础上,采用规则定义特定任务执行逻辑,并利用生成对抗模仿学习算法提升智能体场景泛化能力。在构设的典型对抗场景中,该方法达到了预期效果,算法训练收敛,智能体输出决策合理。实验结果初步表明,生成对抗模仿学习作为一种智能作战决策方法,具有进一步研究价值。 展开更多
关键词 智能决策 作战决策 基于规则的方法 生成对抗模仿学习
下载PDF
基于生成对抗模仿学习的人机辅助决策系统
17
作者 杨高光 《微型电脑应用》 2021年第3期106-107,120,共3页
在核电人机界面操作环境中,主要依赖专家操作。将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统。从而利用模仿学得... 在核电人机界面操作环境中,主要依赖专家操作。将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统。从而利用模仿学得的专家策略来为界面操作提供参考,以降低人为因素失误发生概率。用神经网络生成专家策略,以专家策略和生成策略之间的信息熵为损失函数来解决神经网络的收敛问题。最后,在Mujoco仿真环境中验证了该方法的可行性。 展开更多
关键词 人机界面 专家操作 生成对抗模仿学习 决策支持系统
下载PDF
基于生成对抗近端策略优化的机动策略优化算法
18
作者 付宇鹏 邓向阳 +2 位作者 朱子强 高阳 张立民 《海军航空大学学报》 2023年第3期257-261,300,共6页
针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互... 针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。 展开更多
关键词 生成对抗模仿学习 近端策略优化 机动决策 强化学习 模仿学习
下载PDF
基于逆强化学习的航天器交会对接方法
19
作者 岳承磊 汪雪川 +1 位作者 岳晓奎 宋婷 《航空学报》 EI CAS CSCD 北大核心 2023年第19期252-263,共12页
针对使用神经网络解决追踪航天器接近静止目标问题,提出一种使用模型预测控制提供数据集,基于生成对抗逆强化学习训练神经网络的方法。首先在考虑追踪航天器最大速度约束,控制输入饱和约束和空间锥约束下,建立追踪航天器接近静止目标的... 针对使用神经网络解决追踪航天器接近静止目标问题,提出一种使用模型预测控制提供数据集,基于生成对抗逆强化学习训练神经网络的方法。首先在考虑追踪航天器最大速度约束,控制输入饱和约束和空间锥约束下,建立追踪航天器接近静止目标的动力学,并通过模型预测控制驱动航天器到达指定位置。其次为标称轨迹添加扰动,通过前述方法计算从各起始位置到目标点的轨迹,收集各轨迹各控制时刻的状态与控制信息,形成包含状态与对应控制的训练集。最后通过设置网络结构与参数和训练超参数,在训练集驱动下,采用生成对抗逆强化学习方法进行网络训练。仿真结果表明生成对抗逆强化学习可模仿专家轨迹行为,并成功训练神经网络,驱动航天器从起始点向目标位置运动。 展开更多
关键词 模型预测控制 生成对抗逆强化学习 模仿学习 网络训练 神经网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部