期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
面向食品安全事件新闻文本的实体关系抽取研究 被引量:16
1
作者 郑丽敏 齐珊珊 +1 位作者 田立军 杨璐 《农业机械学报》 EI CAS CSCD 北大核心 2020年第7期244-253,共10页
为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events... 为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。 展开更多
关键词 食品安全事件 实体关系抽取 依存分析 PU学习 文本相似度
下载PDF
基于虚假评论识别的微博评论情感分析的研究与应用 被引量:4
2
作者 罗昌银 但唐朋 +2 位作者 李艳红 陈昌昊 王泰 《计算机应用与软件》 北大核心 2019年第4期55-62,共8页
微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取... 微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取虚假评论特征。结合该特征与PU(Positive and unlabeled)学习算法进行虚假评论识别;运用SVM分类器和随机梯度下降回归模型对去除虚假评论的文本进行主观句分类与情感分析。实验表明,进行虚假评论识别后的情感分析准确率、召回率分别达到0.88和0.89,比传统方法具有更高的分析效能。 展开更多
关键词 机器学习 情感分析 自然语言处理 虚假评论识别 PU学习算法
下载PDF
一种面向工控系统的PU学习入侵检测方法 被引量:4
3
作者 吕思才 张格 +3 位作者 张耀方 刘红日 王子博 王佰玲 《信息安全学报》 CSCD 2021年第4期72-89,共18页
工业控制系统与物理环境联系紧密,受到攻击会直接造成经济损失,人员伤亡等后果,工业控制系统入侵检测可以提供有效的安全防护。工业控制系统中将入侵检测作为一个异常检测问题,本文围绕PU learning(Positive-unlabeled learning, PU学习... 工业控制系统与物理环境联系紧密,受到攻击会直接造成经济损失,人员伤亡等后果,工业控制系统入侵检测可以提供有效的安全防护。工业控制系统中将入侵检测作为一个异常检测问题,本文围绕PU learning(Positive-unlabeled learning, PU学习)进行工业控制系统入侵检测进行研究。首先针对工业控制系统中数据维度高的特点,提出了一种特征重要度计算方法,通过正例数据集和无标签数据集的分布差异度量特征重要度,用于PU学习的特征选择;其次提出了一种基于OCSVM(One-Class SVM)的类先验估计算法,该算法可以稳定且准确的估计出类先验概率,为PU学习提供必要的先验知识;最后采用了三个公开数据集进行实验,在仅有一类标签数据的条件下,通过PU学习发现待检测数据中的异常样本,并与一些现有的模型进行对比,验证了PU学习的有效性。 展开更多
关键词 工业控制系统 入侵检测 PU学习 类先验概率估计
下载PDF
迭代式的深度PU学习与类别先验估计框架 被引量:2
4
作者 赵昀睿 许倩倩 +1 位作者 姜阳邦彦 黄庆明 《计算机学报》 EI CAS CSCD 北大核心 2022年第12期2667-2686,共20页
近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.... 近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.二分类问题中的从正例和无标签(Positive-Unlabeled,PU)样本数据进行学习,简称PU学习,即为其一.当前主流的PU学习算法需要准确无误的类别先验知识,但实际上类别先验通常难以获得,需要估计.已有的类别先验估计算法则主要面向传统的机器学习分类器进行设计,无法直接运用在大规模数据集上,因而不利于发挥深度学习在大规模数据集上的优势.为克服以上问题,本文提出了一个基于无监督混合模型的迭代式深度PU学习与类别先验估计框架.它利用了深度神经网络对正例和负例给出的预测分数具有不同的分布这一特性,使用双高斯成分的混合模型近似拟合预测分数的混合分布.其中,各个高斯分量分别代表了正类和负类的条件概率分布,混合权重系数代表了类别先验.结合半监督学习中的平均教师和温度锐化技术,所提框架在类别先验未知以及数据缺失负例监督的条件下,估计类别先验的同时进行PU数据上的深度学习,二者相互促进.在基准数据集MNIST、Fashion-MNIST、CIFAR-10和实际应用数据集Alzheimer上的实验结果验证了所提框架的有效性,准确率分别为94.66%、95.16%、89.98%和73.20%,该结果不仅超越了现有基于类别先验估计的PU学习算法,更可与基于真实类别先验的最前沿算法相媲美. 展开更多
关键词 PU学习 类别先验估计 半监督学习 弱监督学习 深度学习
下载PDF
基于随机森林的正例与未标注学习 被引量:2
5
作者 邵强 张阳 蔡晓妍 《计算机工程与设计》 CSCD 北大核心 2014年第12期4329-4334,共6页
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生... 为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。 展开更多
关键词 正例与未标注学习 决策树 随机森林 集成学习 偏置支持向量机
下载PDF
针对不确定正例和未标记学习的最近邻算法(英文) 被引量:2
6
作者 潘世瑞 张阳 +1 位作者 李雪 王勇 《计算机科学与探索》 CSCD 2010年第9期769-779,共11页
研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数... 研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。 展开更多
关键词 不确定数据 正例和未标记样本学习 最近邻算法
下载PDF
面向社交媒体的高质量内容识别 被引量:2
7
作者 赵泉 胡骏 +2 位作者 方全 钱胜胜 徐常胜 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2020年第6期943-949,共7页
如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, ... 如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, PU)学习的图卷积高质量文章内容识别模型--基于PU学习的图卷积网络(graph convolutional network based on positive and unlabeled learning, GCN-PU),在统一的框架中使用一个异构网络同时建模社交媒体文章的文本和社交信息,并在该网络上使用图卷积网络来融合这些信息得到高阶特征.另外,使用多媒体文章的全局视觉布局信息来捕捉文章的综合视觉质量特征,用于补充图卷积网络输出的高阶特征.最后,在训练机制和损失函数中引入了PU学习来充分利用社交媒体中大量未标注的文章信息.在真实社交媒体数据集上的实验结果表明,相比于现有的方法, GCN-PU方法的F值提升了3%以上. 展开更多
关键词 社交媒体 多媒体文章 质量识别 正无标记学习 图卷积网络
下载PDF
结合PU学习的遥感影像建筑物自动提取方法 被引量:1
8
作者 王理根 张永忠 《遥感信息》 CSCD 北大核心 2023年第3期93-99,共7页
针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对... 针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对象;其次,基于影像建筑物阴影特征和边缘特征提取建筑物像素,结合分割结果自动获取正样本;再次,利用已提取的正样本和剩余的未标记样本训练Bagging-PU分类器对建筑物进行提取;最后,通过基于邻域统计的二值化处理得到建筑物检测最终结果。该方法实现了训练样本标签的自动获取,不需要外部标签样本输入,就能够自动从遥感影像中提取建筑物。在ISPRS(Vaihingen)数据集上的实验表明,该方法提取结果总体精度达到0.928,F1分数为0.864。 展开更多
关键词 建筑物提取 阴影特征 面向地理对象图像分析 正例未标注学习 二值化
下载PDF
使用少量有标签样本学习的方法
9
作者 熊智翔 陆青 王胤 《计算机应用》 CSCD 北大核心 2018年第A02期11-15,41,共6页
随着网络的普及,网络上产生了越来越多的数据,但是在实际生产的时候,会发现这些数据大部分都不会被打上标签;而要进行数据挖掘的任务,监督型学习算法要求有足够的标签才能进行训练。针对样本缺少标签的问题,提出并实现了正样本-无标签... 随着网络的普及,网络上产生了越来越多的数据,但是在实际生产的时候,会发现这些数据大部分都不会被打上标签;而要进行数据挖掘的任务,监督型学习算法要求有足够的标签才能进行训练。针对样本缺少标签的问题,提出并实现了正样本-无标签样本学习的方法。第一种方法首先对没有标签的样本进行评估,用评估值将样本打上标签,然后利用这些标签训练出一个模型。第二种方法通过对样本权重的把控,达到利用大量数据中信息的目的。实验结果表明,这两种方法的效果与之前的方法相似甚至能超过之前的算法,而且实现起来更加简单。 展开更多
关键词 弱监督学习 positive-unlabeled学习 异常检测 机器学习 数据挖掘
下载PDF
基于PUL算法及高分辨率WorldView影像的城市不透水面提取 被引量:6
10
作者 刘冉 李文楷 +2 位作者 刘小平 陈逸敏 刘珍环 《地理与地理信息科学》 CSCD 北大核心 2018年第1期40-46,130,共8页
准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量... 准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量的正样本和未标记样本即可训练分类模型。结果显示,PUL算法的提取结果优于一类支持向量机(OCSVM)以及最大熵(MAXENT)模型。使用不同正样本量时,PUL的提取结果总体精度和kappa系数均优于OCSVM和MAXENT,最高总体精度为91.27%,最高kappa系数可达0.8255,可快速、有效地从高分辨率遥感影像中提取不透水面。 展开更多
关键词 城市不透水面 positive and unlabeled learning(PUL) 一类支持向量机(OCSVM) 最大熵(MAXENT)模型
下载PDF
利用主动学习改进遥感图像单类分类:以正类和未标记样本学习方法为例 被引量:5
11
作者 孙熠 李培军 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第1期155-163,共9页
针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直... 针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直到获得稳定的分类精度,然后利用主动学习选择和增加最有用(informative)的正类或负类样本,用于PUL分类。结果表明,当利用足够多的随机选取的正类样本得到稳定的分类精度后,利用主动学习选择和增加正类样本可以提高分类精度;利用主动学习的同时加入正类和负类样本,可以得到比只加入正类样本更高的分类精度;将利用主动学习得到的正类样本经相似性筛选后得到的正类样本,分类精度与直接利用主动学习选择的样本相似,但达到同样精度时需要更少的样本。因此,利用主动学习选择和增加样本可以有效地改善单类分类的精度。 展开更多
关键词 单类分类 主动学习 正类和未标记样本学习(PUL)
下载PDF
结合原型网络的远程监督命名实体识别方法 被引量:1
12
作者 罗森林 林朝坤 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第4期410-416,共7页
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编... 针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能. 展开更多
关键词 命名实体识别 远程监督 语料自动标注 原型网络 正例-无标注学习
下载PDF
基于预测对抗网络的图像二分类模型
13
作者 余筝韵 李春 《计算机系统应用》 2023年第10期275-283,共9页
正未标记学习仅使用无标签样本和正样本训练一个二分类器,而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器.为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果,可将GAN... 正未标记学习仅使用无标签样本和正样本训练一个二分类器,而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器.为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果,可将GAN中的生成器替换为分类器C,在无标签数据集中挑选样本以欺骗判别器D,对C与D进行迭代优化.本文提出基于以Jensen-Shannon散度(JS散度)为目标函数的JS-PAN模型.最后,结合数据分布特点及现状需求,说明了PAN模型在医疗诊断图像二分类应用的合理性及高性能.在MNIST, CIFAR-10数据集上的实验结果显示:KL-PAN模型与同类正未标记学习模型对比有更高的精确度(ACC)及F1-score;对称化改进后, JS-PAN模型在两个指标上均有所提升,因此JS-PAN模型的提出更具有合理性.在Med-MNIST的3个子图像数据集上的实验显示:KL-PAN模型与4个benchmark有监督模型有几乎相同的ACC, JS-PAN也有更高表现.因此,综合PAN模型的出色分类效果及医疗诊断数据的分布特征, PAN作为半监督学习方法可获得更快、更好的效果,在医学图像的二分类的任务上具有更高的性能. 展开更多
关键词 预测对抗网络 正未标记学习 医学图像分类 对抗性训练
下载PDF
基于WEB信息的特定类型物联网终端识别方法 被引量:12
14
作者 任春林 谷雨 +3 位作者 崔杰 刘松 朱红松 孙利民 《通信技术》 2017年第5期1003-1009,共7页
通过协议特征对联网终端进行远程的类型推断、厂商与型号的有效识别,是实现网络安全测评的重要基础。以识别和推断联网设备的类型为目标,基于物联网终端WEB管理页面,利用信息增益模型提取特定类型终端的特征,提出正样本反馈增强的PU学... 通过协议特征对联网终端进行远程的类型推断、厂商与型号的有效识别,是实现网络安全测评的重要基础。以识别和推断联网设备的类型为目标,基于物联网终端WEB管理页面,利用信息增益模型提取特定类型终端的特征,提出正样本反馈增强的PU学习方法(FE-PU),进而形成从网络空间的海量设备中过滤特定类型物联网终端的一般方法。通过对100万网络空间联网终端的WEB管理页面中抽取视频监控设备的实验,表明该方法较直接采用PU学习方法的准确率和召回率都有大幅提升,较人工方法召回率也提升超过10%,且能够有效发现小品牌终端设备。 展开更多
关键词 设备类型识别 机器学习 PU学习 反馈增强
下载PDF
基于生成式对抗网络和正类无标签学习的知识图谱补全算法
15
作者 胡斌皓 张建朋 陈鸿昶 《计算机科学》 CSCD 北大核心 2024年第1期310-315,共6页
随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果。因此,知识图谱补全成为了知识图谱领域的热点。然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略... 随着知识图谱的应用越来越广泛,绝大多数真实世界的知识图谱通常具有不完备性,限制了知识图谱的实际应用效果。因此,知识图谱补全成为了知识图谱领域的热点。然而,现有方法大多集中在评分函数的设计上,少部分研究关注了负样本抽样策略。在改善负样本抽样的知识图谱补全算法的研究中,基于生成式对抗网络的方法取得了不错的进展。然而,现有研究并没有关注到负样本存在假阴性标签的问题,即生成的负样本中可能包含真实的事实。为了缓解假阴性标签问题,提出了一种基于生成式对抗网络和正类无标签学习的知识图谱补全算法。该方法利用生成式对抗网络生成无标签样本,并使用正类无标签学习缓解假阴性标签问题。在基准数据集上进行的大量实验证明了所提算法的有效性与准确性。 展开更多
关键词 知识图谱补全 生成式对抗网络 正类无标签学习 负样本抽样
下载PDF
基于PU学习的建议语句分类方法 被引量:2
16
作者 张璞 刘畅 李逍 《计算机应用》 CSCD 北大核心 2019年第3期639-643,共5页
建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语... 建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语句的正例集合;然后,为了降低特征维度,缓解数据稀疏性,在自编码神经网络(Autoencoder)特征空间中使用Spy技术划分可靠反例集合;最后,利用正例集合和可靠反例集合来训练多层感知机(MLP)对剩余的无标注样例进行分类。该方法在中文数据集上的F1值和准确率值分别达到81.98%和82.67%,实验结果表明,该方法能够有效地对建议语句进行分类,且不需要对数据进行人工标注。 展开更多
关键词 建议挖掘 建议语句分类 PU学习 自编码器 多层感知机
下载PDF
基于PU学习和自主训练的时间序列分类模型 被引量:1
17
作者 郭芷榕 王会青 白莹莹 《计算机工程与设计》 北大核心 2018年第9期2780-2786,共7页
通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭... 通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭代标记,将所有未标记数据进行标记,有效避免过早停止,增强模型的泛化能力。实验结果表明,该模型在PU学习时间序列分类中,具有较高的分类准确度、分类查全率和分类F1度量值。 展开更多
关键词 时间序列 半监督学习 正例和未标记数据学习 自主训练 停止标准
下载PDF
基于静态集成PU学习数据流分类的入侵检测方法 被引量:1
18
作者 郑科鹏 冯筠 +2 位作者 孙霞 冯宏伟 曹国震 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第4期568-572,共5页
从数据流角度提出一种静态的集成PU学习数据流分类的入侵检测方法,在实验验证中通过对不同数据集指标比较,证明了算法的有效性,可在减少人工标注量的同时取得较好的检测效果。
关键词 入侵检测 PU学习 静态集成 分类分析
下载PDF
远程监督的自适应实体抽取
19
作者 葛亮 张艺璇 李伟平 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2022年第4期564-571,共8页
针对传统领域知识实体抽取算法主要依赖专家的专业知识,需要的标注工作量较大,本文提出了基于远程监督的实体抽取算法并应用于粮油存储领域。算法在PU学习的框架下,通过判定和分类2个阶段抽取实体,利用双向长短期记忆网络进行二分类实... 针对传统领域知识实体抽取算法主要依赖专家的专业知识,需要的标注工作量较大,本文提出了基于远程监督的实体抽取算法并应用于粮油存储领域。算法在PU学习的框架下,通过判定和分类2个阶段抽取实体,利用双向长短期记忆网络进行二分类实体判别。再通过全连接网络实体类型判别,构建了一个粮油领域知识图谱。研究表明:本算法可以应用于粮油存储领域的知识图谱构建,适用于训练实体样本较少的实体抽取任务,能够缩小使用双向长短期记忆网络算法进行实体抽取任务所需的语料规模,并在使用更小语料规模的情况下达到与经典双向长短期记忆网络算法相当的实体抽取效果。 展开更多
关键词 领域知识图谱 本体设计 实体抽取 远程监督 深度学习 PU学习 双向长短期记忆网络 知识图谱构建
下载PDF
基于集成PU学习数据流分类的入侵检测方法
20
作者 宋群 张骏 智永锋 《微电子学与计算机》 CSCD 北大核心 2013年第7期173-176,共4页
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性.在PU学习算法中,仅需标注部分正例样本就可以构造分类器.对此本文提出一种动态的集成PU学习数据流分类的入侵检... 入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性.在PU学习算法中,仅需标注部分正例样本就可以构造分类器.对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器.在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU学习分类方法,并具有较高的入侵检测率. 展开更多
关键词 入侵检测 集成分类 数据流 PU学习
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部