期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于深度学习的空间非合作目标特征检测与识别 被引量:9
1
作者 李林泽 张涛 《智能系统学报》 CSCD 北大核心 2020年第6期1154-1162,共9页
针对空间非合作目标检测与识别任务的智能化要求,本文将深度学习方法Mask R-CNN(mask regionbased convolutional neural network)应用于任务中,并借鉴R-FCN(region-based fully convolutional networks)和Lighthead R-CNN(light-head r... 针对空间非合作目标检测与识别任务的智能化要求,本文将深度学习方法Mask R-CNN(mask regionbased convolutional neural network)应用于任务中,并借鉴R-FCN(region-based fully convolutional networks)和Lighthead R-CNN(light-head region-based convolutional neural network)对其进行优化改进,提升检测速度,以满足空间任务实时性要求。实验结果表明,与传统的Mask R-CNN相比,改进的Mask R-CNN可缩短20%的检测时间。针对深度神经网络需要大样本数据集进行训练的特点,本文基于迁移学习提出搭建虚拟环境进行样本采集,构造空间目标特征检测与识别数据集的方法。实验结果表明,网络在虚拟环境生成的数据集上可以很好地学习到相应特征,从而具备迁移到实际任务的能力。 展开更多
关键词 空间非合作目标 特征检测与识别 深度学习 区域全卷积网络 头部轻量化卷积神经网络 改进的Mask R-CNN 数据集构建 迁移学习
下载PDF
基于SVM土壤重金属污染评价的训练数据集构建 被引量:7
2
作者 鄢文苗 任东 +2 位作者 黄应平 熊彪 董方敏 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2019年第3期316-322,共7页
支持向量机(support vector machine,SVM)用于土壤重金属污染评价时,其训练数据集的构建对模型准确性影响重大。本文对依据土壤环境质量国家标准生成数据集的方法(国标法)进行改进,提出实际测量数据集生成方法(实测法),并在实测法样本... 支持向量机(support vector machine,SVM)用于土壤重金属污染评价时,其训练数据集的构建对模型准确性影响重大。本文对依据土壤环境质量国家标准生成数据集的方法(国标法)进行改进,提出实际测量数据集生成方法(实测法),并在实测法样本中添加国标法样本扩大训练数据集,进一步提高模型分类准确率。结果表明:对同一组实测样本进行分类,国标法模型准确率(53. 33%)低于实测法模型准确率(75. 56%);扩大后的数据集训练所得模型与实测法模型相比,分类60个实测样本时,准确率由88. 33%提高至98. 33%,分类45个实测样本时,准确率由75. 56%提高至82. 22%。 展开更多
关键词 支持向量机 数据集构建 分类 土壤重金属
原文传递
高分辨率、多时相SAR图像数据集的构建 被引量:6
3
作者 郁文贤 柳彬 +3 位作者 丁拥科 胡昊 李元祥 张增辉 《测绘通报》 CSCD 北大核心 2014年第S1期119-122,158,共5页
近20年来,SAR图像理解与信息反演是一个得到广泛、深入研究的世界性难题。即使在高分辨率条件下,由于相干斑噪声、结构极度敏感性、几何畸变、成像系统干扰等原因,SAR图像的高可信解译依然非常困难。SAR测试样本数据集是发展SAR图像解... 近20年来,SAR图像理解与信息反演是一个得到广泛、深入研究的世界性难题。即使在高分辨率条件下,由于相干斑噪声、结构极度敏感性、几何畸变、成像系统干扰等原因,SAR图像的高可信解译依然非常困难。SAR测试样本数据集是发展SAR图像解译与目标认知技术的基础与支撑。但SAR数据集并不是各种SAR数据的简单收集,而是要根据研究内容的需要,制定试验方案,科学地选择样本并进行样本真值标注,并且尽可能收集各种多源辅助数据以相互验证。笔者以上海交通大学闵行校区为场景,构建了一个以高分辨率、多时相SAR图像为主的试验数据集,其由高分辨率SAR数据、地表真值标注、多源辅助数据3个主要的部分组成。笔者认为,该数据集的构建能够为高分辨率SAR图像解译、信息反演和目标识别提供高可信的、实时的、丰富的地表和目标真值信息,能够促进这些研究和相关测试工作的进展。 展开更多
关键词 高分辨率 多时相 SAR图像 数据集构建
下载PDF
基于深度学习的自然资源政策文本分类研究 被引量:4
4
作者 胡容波 郭诚 +1 位作者 王锦浩 方金云 《高技术通讯》 CAS 2023年第7期692-703,共12页
政策文本分类是一项涉及自然语言处理(NLP)、机器学习、政策解析等多领域的综合性技术,在政策管理、研究以及信息服务等方面有重要应用。首先,针对目前政策文本领域公共资源较少的问题,提出结合领域知识和NLP构建政策文本分类数据集的... 政策文本分类是一项涉及自然语言处理(NLP)、机器学习、政策解析等多领域的综合性技术,在政策管理、研究以及信息服务等方面有重要应用。首先,针对目前政策文本领域公共资源较少的问题,提出结合领域知识和NLP构建政策文本分类数据集的半自动化方法,构建了句子级自然资源政策文本分类数据集;其次,挖掘政策文本自身特点,提出基于深度学习的标题信息自适应增强政策文本分类方法,并在现有主流深度学习模型上进行扩展应用;最后,在自然资源政策文本分类数据集上的实验表明,应用该方法后,5个常用深度学习分类模型的准确率获得了3%以上提升,宏平均F_(1)值获得了5%以上提升。 展开更多
关键词 政策文本 文本分类 深度学习 自然资源 延迟决策 数据集构建
下载PDF
三维模板跟踪的基准合成数据集构建及算法评估 被引量:4
5
作者 何弦 李佳宸 +3 位作者 金立 刘力 钟凡 秦学英 《计算机学报》 EI CAS CSCD 北大核心 2022年第3期585-600,共16页
三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关... 三维模板跟踪旨在将预先构建的三维CAD模型与输入图像中的相应目标进行精确配准,在增强现实、机器人等领域具有重要的应用,也是计算机视觉领域的关键问题之一.近年来,三维模板跟踪的准确率和稳定性都得到了持续提升,但仅有少量的工作关注三维模板跟踪数据集的构建.随着深度学习的普及,各领域中大规模数据集的构建越来越被重视,为算法的训练、测试和评估奠定了基础,极大地推动了相关领域的发展.以往的三维模板跟踪数据集大多存在规模有限,画面不够自然、真实,多样性不足等问题.基于此,本文创建了一个大规模的基于真实感渲染的三维模板跟踪数据集(Render Dataset for Object Tracking,简称RDOT),其包含多种不同结构和材质的物体、复杂的运动模式,并且在场景、光照、噪声、运动模糊和遮挡等方面有丰富细致的设置,是目前三维模板跟踪领域最大的数据集,满足三维模板跟踪算法评估的各种需求.针对现有三维模板跟踪算法测评时使用的数据集不统一,测评结果难以客观全面地反映算法性能的问题,本文基于所构建的数据集,利用平均边缘距离、平均表面距离和重初始化率三种度量标准全面评估了目前主流的三维模板跟踪算法,并对评测结果进行了深入的分析讨论,给出了全面的分析报告和技术展望.此外,基于所构建的数据集,本文提出了对跟踪结果建立误差分析模型,并对结果进行校正的方法,有效改善了三维模版跟踪算法的准确率. 展开更多
关键词 三维模板跟踪 数据集构建 算法测评 增强现实 真实感渲染
下载PDF
面向财务审计的数据异常侦测算法研究
6
作者 张学凯 张仰森 +2 位作者 刘帅康 朱思文 孙圆明 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第7期158-165,共8页
为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本... 为更好地推进审计数字化,实现财务审计的数据异常侦测任务,设计了采用独立研究的改进注意力机制CMA(channel mixed attention mechanism)的CMA-Resnet18模型,提出一种基于数图转换思想的财务审计侦测数据集构建方法。使用CMA网络对样本各通道进行全局加权,对样本不同通道进行融合特征加权,实现对样本数据的全局“注意力”数据增强。通过Resnet18模型(residual network18)提取样本数据的局部特征。结果表明,在财务审计异常侦测数据集上,经典分类网络的评估结果都高于90%,验证了数据集构建方法的有效性;CMA-Resnet18模型的F1值为94.31%,相比Resnet18提高了1.49%,证明了CMA-Resnet18模型能够更好的实现侦测任务;通过经典分类网络及其CMA变种网络在Cifar10公开数据集上进行实验,表明CMA变种网络的准确率普遍高于其原始网络,证明CMA模块的有效性和泛化性。 展开更多
关键词 审计数字化 数图转换 数据集构建 改进注意力机制 残差网络
下载PDF
中文多字体古籍数据集多任务融合识别
7
作者 薛德军 师庆辉 +4 位作者 毕琰虹 芦筱菲 陈婧 王海山 吴晨 《广西科技大学学报》 CAS 2024年第4期108-114,共7页
针对中文古籍数字化处理中大规模高质量数据集匮乏的问题,本文提出了一种新颖的2级古籍数据集建设方法:一是构建了包含119.5万张图片、覆盖6610个字符类别的多字体古籍单字数据集CACID;二是基于古籍文献内容合成了包含86667列古籍文字... 针对中文古籍数字化处理中大规模高质量数据集匮乏的问题,本文提出了一种新颖的2级古籍数据集建设方法:一是构建了包含119.5万张图片、覆盖6610个字符类别的多字体古籍单字数据集CACID;二是基于古籍文献内容合成了包含86667列古籍文字图片的古籍篇章数据集CASID,这是目前报道的最大中文古籍合成数据集。本文设计了古籍多任务融合识别模型,并基于所建数据集进行了实验。结果表明,模型的识别准确率从35.62%显著提升至85.52%,验证了涵盖多字体多朝代的中文合成数据在古籍文字识别中的核心作用和良好泛化能力。 展开更多
关键词 古籍 训练数据集 自动构建 深度学习模型 融合建模
下载PDF
融合多尺度特征的高分辨率森林遥感图像分割
8
作者 贾克斌 何岩 魏之皓 《北京工业大学学报》 CAS CSCD 北大核心 2024年第9期1089-1099,共11页
为实现对青海三江源国家级自然保护区高原森林的有效监测,基于深度学习技术提出一种融合多尺度特征的遥感图像分割算法。首先,构建了该地区首个2 m空间分辨率的高原森林数据集;其次,为解决遥感图像真值标签不足影响网络模型训练的问题,... 为实现对青海三江源国家级自然保护区高原森林的有效监测,基于深度学习技术提出一种融合多尺度特征的遥感图像分割算法。首先,构建了该地区首个2 m空间分辨率的高原森林数据集;其次,为解决遥感图像真值标签不足影响网络模型训练的问题,针对森林遥感图像分割的特点提出一种将图像打乱重组的数据增强方法,将训练数据扩充至1 600张;然后,为解决主流分割网络处理大范围遥感图像存在无法聚焦细节的缺陷,基于编解码结构,提出一种融合多尺度特征的高分辨率森林遥感图像分割网络模型,该模型融合了所设计的卷积模块、多尺度特征融合模块和特征放大提取模块。实验结果表明,所提数据增强方法提升了模型的分割精度,同时该模型经数据增强训练,交并比(intersection over union, IoU)高达89.64%,结果优于当前主流图像分割模型。 展开更多
关键词 深度学习 遥感 图像分割 多尺度特征融合 数据增强 数据集构建
下载PDF
结合信息交互的人物实体链接
9
作者 周沛 陈跃鹤 +1 位作者 贾永辉 陈文亮 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2119-2125,共7页
实体链接是将文本中的实体提及链接到知识图谱中实体节点的任务,是自然语言处理许多下游任务的重要基础.而在各类实体中,人物实体承载了知识图谱中主要的事实组成部分,但由于存在大量重名导致人物链接难度大大增加.人物实体链接是人物... 实体链接是将文本中的实体提及链接到知识图谱中实体节点的任务,是自然语言处理许多下游任务的重要基础.而在各类实体中,人物实体承载了知识图谱中主要的事实组成部分,但由于存在大量重名导致人物链接难度大大增加.人物实体链接是人物知识图谱构建的重要一环,其目的是把一段文本所描述的人物实体链接到图谱中正确的实体节点上.由于目前中文人物实体链接数据集比较缺乏,而通用实体链接数据集大多覆盖多种类型实体并且规模比较有限,因此本文基于百科网页数据构建了新的大规模中文人物实体链接数据集SummaryEL和TextEL,并通过采样验证了数据集的质量.基于新构建的数据集,本文提出基于描述文本和实体属性信息交互的人物实体链接模型,有效地建立描述文本和知识图谱节点之间的联系.实验结果表明,本文所提出的人物实体链接模型取得较高的准确率,在SummaryEL和TextEL测试集上的平均准确率分别达到89.27%和87.43%.该模型可作为该任务未来研究工作的基准方法.新构建的数据集和实验代码将公开在github上. 展开更多
关键词 自然语言处理 知识图谱 人物实体链接 数据集构建
下载PDF
基于深度学习的盾构隧道表观病害自动检测方法
10
作者 王宝坤 王如路 +2 位作者 陈锦剑 潘越 王鲁杰 《上海交通大学学报》 EI CAS CSCD 北大核心 2024年第11期1716-1723,共8页
为实现高精度像素级地铁盾构隧道表观多病害检测,提出一种基于深度学习的语义分割模型SU-ResNet++.首先,设计基于残差单元结合注意力机制的编码器SE-ResNet50进行预训练,并将其作为U-Net++的主干网络设计新型神经网络模型;其次,通过原... 为实现高精度像素级地铁盾构隧道表观多病害检测,提出一种基于深度学习的语义分割模型SU-ResNet++.首先,设计基于残差单元结合注意力机制的编码器SE-ResNet50进行预训练,并将其作为U-Net++的主干网络设计新型神经网络模型;其次,通过原始数据采集、数据预处理及人工标注,构建具有4 500张图片的盾构隧道表观多病害数据集;最后,将所提出的方法通过数据集进行训练、验证和测试,并应用于实际工程检测,实现了高精度像素级的病害语义分割.实验结果表明,所提出的SU-ResNet++算法适用于盾构隧道病害数据检测,可以自动准确地识别病害类别及形态,病害识别精度相比传统语义分割模型有明显提高,并且满足实际工程需求. 展开更多
关键词 地铁盾构隧道 数据集构建 语义分割 深度迁移学习 U-Net++网络
下载PDF
SAR图像舰船目标检测数据集构建研究综述 被引量:4
11
作者 黄琼男 朱卫纲 李永刚 《电讯技术》 北大核心 2021年第11期1451-1458,共8页
算法和数据是影响深度学习技术发展的两大关键因素,大多数学者专注于算法的改进和开拓,仅有少部分学者致力于数据的研究。构建合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船数据集是SAR舰船目标检测项目的第一步,也是星载SAR图... 算法和数据是影响深度学习技术发展的两大关键因素,大多数学者专注于算法的改进和开拓,仅有少部分学者致力于数据的研究。构建合成孔径雷达(Synthetic Aperture Radar,SAR)图像舰船数据集是SAR舰船目标检测项目的第一步,也是星载SAR图像实际工程应用的基础。分析了影响SAR舰船目标检测性能的关键因素,阐述了SAR舰船数据集的构建方法,概述了TerraSAR-X、“哨兵”1号(Sentinel-1)和高分三号(GF-3)三种SAR图像数据源,并对几种公开的SAR舰船数据集进行梳理与分析,总结了各数据集的发展历程,最后指出构建SAR图像舰船数据集仍需考虑的几个方面。 展开更多
关键词 合成孔径雷达 目标检测 舰船图像 深度学习 数据集构建 数据源
下载PDF
融合自适应定权和偏差匹配的多源卫星测高数据水位提取算法
12
作者 颉旭康 李伟 《测绘学报》 EI CSCD 北大核心 2024年第11期2111-2124,共14页
利用卫星测高技术提取湖库水位信息时,融合多种卫星测高数据构建长时序和高精度的水位尤为重要。本文以青海湖为例,选取Envisat、SARAL、Sentinel-3A和Sentinel-3B这4颗测高卫星数据,基于不同数据源结果及其特征构建了20a时长的数据集,... 利用卫星测高技术提取湖库水位信息时,融合多种卫星测高数据构建长时序和高精度的水位尤为重要。本文以青海湖为例,选取Envisat、SARAL、Sentinel-3A和Sentinel-3B这4颗测高卫星数据,基于不同数据源结果及其特征构建了20a时长的数据集,提出了融合自适应定权和偏差匹配的多源卫星测高数据水位提取算法,其中自适应定权能根据不同场景选择适当的改正算法模型,并为多源测高参数确定不同的权重参数,从而统一数据。偏差匹配方法则最大程度将定性数据定量化,使水位提取更准确。同时建立了人工智能框架实现了水位提取的自动化和一体化。试验显示,经过自适应定权的多源测高特征值可以被合理分类且具有强相关性,可为构建长时序水位信息提供整体高精度的基础数据;结合偏差匹配方法,以天为尺度提取的水位和实测水位相关系数R2在0.9以上,若将相关系数R2阈值设为0.8,可单次提取5个月时长的水位。结合单天提取和多天提取提出长期提取方法,构建了12a的长时序水位,其相关系数R2在0.9以上,平均绝对误差(MAE)值在1.5~2.0cm之间,均方根误差(RMSE)值在2.0~2.5cm之间,成功构建了长时序和高精度的水位。鉴于此,该数据处理算法和构建的模型在水位信息提取及预测方面体现出一定的实用价值,其研究成果也印证了人工智能与卫星测高相结合在小尺度水域构建长时序高精度水位的可行性。 展开更多
关键词 多源卫星测高 自适应定权 偏差匹配 数据集构建 青海湖水位
下载PDF
铝硅合金实体关系抽取数据集的构建方法 被引量:4
13
作者 刘英莉 吴瑞刚 +1 位作者 么长慧 沈韬 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第2期245-253,共9页
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法.在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标... 针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法.在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注.在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集.通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务.与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差.针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%.该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集. 展开更多
关键词 数据集 构建标准 数据标注 实体关系联合抽取模型 自注意力机制
下载PDF
基于网络安全大数据的靶标系统构建分析
14
作者 王新可 《电子技术(上海)》 2024年第7期398-399,共2页
阐述靶标系统与网络安全大数据的深度融合,提供一种全新的安全防御思路。探讨靶标系统在网络安全领域的定义与功能,分析网络安全大数据集和漏洞靶标环境的构建过程。
关键词 靶标系统 网络安全大数据 数据集构建
原文传递
基于角度内插仿真的飞机目标多角度SAR数据集构建方法研究 被引量:3
15
作者 王汝意 张汉卿 +5 位作者 韩冰 张月婷 郭嘉逸 洪文 孙巍 胡文龙 《雷达学报(中英文)》 EI CSCD 北大核心 2022年第4期637-651,共15页
随着SAR技术应用领域的扩大以及SAR数据获取技术的发展,构建各种典型目标的多角度SAR数据集的需求日益迫切。针对飞机目标,目前尚未有比较完备的多角度SAR图像数据集。该文探索了一种基于实测数据和智能仿真相结合的数据集构建方法,通... 随着SAR技术应用领域的扩大以及SAR数据获取技术的发展,构建各种典型目标的多角度SAR数据集的需求日益迫切。针对飞机目标,目前尚未有比较完备的多角度SAR图像数据集。该文探索了一种基于实测数据和智能仿真相结合的数据集构建方法,通过飞行试验采集飞机目标SAR多角度数据,并基于散射分析和自注意力生成对抗网络实现特定角度的SAR图像内插仿真,从而为数据集构建和扩容提供新的解决方案。最后,在假定部分数据缺失的情况下,通过6种评价指标对仿真图像和实际采集图像的相似度进行了评价,验证了所提方法的有效性。 展开更多
关键词 数据集构建 飞机目标 图像仿真 生成对抗网络 自注意力
下载PDF
基于简单通道注意力机制的单图像超分辨率重建算法 被引量:2
16
作者 高艳鹍 刘一非 +2 位作者 李海生 彭凯康 刘朝晖 《计算机工程与设计》 北大核心 2023年第7期2140-2147,共8页
现有的单图像超分辨率重建算法一般存在重建图像过于失真或将低分辨率图像噪点放大的问题,针对上述两个问题,提出一种基于简单通道注意力机制的生成对抗网络(SCAGAN)模型。采用随机高阶退化模型缓解重建图像过于失真的问题;加入简单通... 现有的单图像超分辨率重建算法一般存在重建图像过于失真或将低分辨率图像噪点放大的问题,针对上述两个问题,提出一种基于简单通道注意力机制的生成对抗网络(SCAGAN)模型。采用随机高阶退化模型缓解重建图像过于失真的问题;加入简单通道注意力机制模块到残差密集块中作为模型的生成器网络模块,解决重建图像将低分辨率图像重建后噪点会放大的问题。实验数据表明,与现有的超分辨率算法相比,该算法有效降低了重建图像过于失真与将低分辨率图像噪点放大的问题,重建出的图像更加真实自然。 展开更多
关键词 超分辨率重建 通道注意力机制 退化模型 数据集构建 残差密集块 生成对抗模型 深度学习
下载PDF
基于特征测度的领域分析文献数据集构建方法研究 被引量:3
17
作者 孙巍 黄政 张学福 《数字图书馆论坛》 CSSCI 2015年第12期9-14,共6页
为构建高度概括学科领域综合特征的领域分析文献数据集,提出一种基于特征测度的领域分析文献数据集构建方法,阐述其实现步骤。以动物资源育种领域主题演化分析为例,考察方法有效性。结果表明,该方法能够立足分析目标与需求,在不影响分... 为构建高度概括学科领域综合特征的领域分析文献数据集,提出一种基于特征测度的领域分析文献数据集构建方法,阐述其实现步骤。以动物资源育种领域主题演化分析为例,考察方法有效性。结果表明,该方法能够立足分析目标与需求,在不影响分析效果的前提下,缩减分析数据量,降低分析成本,提高领域分析效率。 展开更多
关键词 特征测度 随机抽样 领域分析 文献集构建
下载PDF
基于改进Faster R-CNN的失效卫星部件检测方法 被引量:3
18
作者 曹毅 程向红 +2 位作者 李丹若 刘宗明 牟金震 《飞控与探测》 2022年第2期30-37,共8页
基于光学图像对失效卫星部件的精确检测可以为失效卫星的定位与捕获等任务提供支撑。然而,失效卫星部件多为密集小目标,且其光照条件变化较大,这导致一般主干网络出现特征表征分辨率低、小目标漏检等问题。针对上述问题,提出了一种基于... 基于光学图像对失效卫星部件的精确检测可以为失效卫星的定位与捕获等任务提供支撑。然而,失效卫星部件多为密集小目标,且其光照条件变化较大,这导致一般主干网络出现特征表征分辨率低、小目标漏检等问题。针对上述问题,提出了一种基于改进Faster R-CNN的失效卫星部件检测方法。首先,该方法在Faster R-CNN的基础上,融合高分辨网络构建新的特征提取主干网络,以获得可靠、高分辨率的特征表达式。其次,在模拟真实空间环境的条件下,利用1∶1的嫦娥卫星模型构建了一个信息丰富的失效卫星数据集。用该数据集进行验证,结果表明:该方法的平均精度为93.6%,与Faster R-CNN和Cascade R-CNN相比,对小部件检测的准确率与召回率分别平均提高了9.8%与5.4%。该方法可有效检测失效卫星部件。 展开更多
关键词 失效卫星部件 Faster R-CNN 高分辨率网络 目标检测 数据集构建
下载PDF
NKCorpus:利用海量网络数据构建大型高质量中文数据集 被引量:2
19
作者 李东闻 钟震宇 +3 位作者 申峻宇 王昊天 孙羽菲 张玉志 《数据与计算发展前沿》 CSCD 2022年第3期30-45,共16页
【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行... 【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。 展开更多
关键词 自然语言处理 中文数据集 数据集构建
下载PDF
异常行为检测数据集快速构建方法 被引量:2
20
作者 杜潘飞 王志辉 +1 位作者 李雄伟 朱永旺 《计算机技术与发展》 2021年第9期155-160,共6页
文中提出一种快速构建异常行为检测数据集方法,该方法以一种半自动的方式完成数据集的构建,有助于减少构建过程中人工操作的工作量。首先以网络爬虫的方式自动地从互联网上搜索并下载包含指定动作的视频,之后以当前SOTA(state-of-the-a... 文中提出一种快速构建异常行为检测数据集方法,该方法以一种半自动的方式完成数据集的构建,有助于减少构建过程中人工操作的工作量。首先以网络爬虫的方式自动地从互联网上搜索并下载包含指定动作的视频,之后以当前SOTA(state-of-the-art)的目标检测模型作为人物空间位置检测器,最后以人工标注和行为检测模型相结合的迭代方式完成人物行为的标注,其中需要手工完成的主要包括对下载的视频的挑选、人物边框核对以及一部分的行为标注,手工部分的工作量仅占整个任务的工作量的15%左右。实验表明,由该方法所构建的数据集可以作为异常行为检测模型的训练集使用,验证了该方法的有效性。通过该方法可以快速地构建一个大尺度、高质量的行为检测数据集,将有助于推动异常行为检测研究的深入开展。 展开更多
关键词 数据集构建 行为识别 目标检测 半自动构建方法 异常行为
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部