微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取...微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取虚假评论特征。结合该特征与PU(Positive and unlabeled)学习算法进行虚假评论识别;运用SVM分类器和随机梯度下降回归模型对去除虚假评论的文本进行主观句分类与情感分析。实验表明,进行虚假评论识别后的情感分析准确率、召回率分别达到0.88和0.89,比传统方法具有更高的分析效能。展开更多
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生...为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。展开更多
研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数...研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。展开更多
如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, ...如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, PU)学习的图卷积高质量文章内容识别模型--基于PU学习的图卷积网络(graph convolutional network based on positive and unlabeled learning, GCN-PU),在统一的框架中使用一个异构网络同时建模社交媒体文章的文本和社交信息,并在该网络上使用图卷积网络来融合这些信息得到高阶特征.另外,使用多媒体文章的全局视觉布局信息来捕捉文章的综合视觉质量特征,用于补充图卷积网络输出的高阶特征.最后,在训练机制和损失函数中引入了PU学习来充分利用社交媒体中大量未标注的文章信息.在真实社交媒体数据集上的实验结果表明,相比于现有的方法, GCN-PU方法的F值提升了3%以上.展开更多
准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量...准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量的正样本和未标记样本即可训练分类模型。结果显示,PUL算法的提取结果优于一类支持向量机(OCSVM)以及最大熵(MAXENT)模型。使用不同正样本量时,PUL的提取结果总体精度和kappa系数均优于OCSVM和MAXENT,最高总体精度为91.27%,最高kappa系数可达0.8255,可快速、有效地从高分辨率遥感影像中提取不透水面。展开更多
文摘为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法FSE_ERE(Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。
文摘微博作为时下热门的社交网络平台,针对其所产生的评论文本进行情感分析已经成为人工智能领域的一个研究热点。考虑到虚假评论会降低情感分析的准确度,从评论用户的状态和行为出发,提出一种基于用户状态与行为的可信度评价体系,用于提取虚假评论特征。结合该特征与PU(Positive and unlabeled)学习算法进行虚假评论识别;运用SVM分类器和随机梯度下降回归模型对去除虚假评论的文本进行主观句分类与情感分析。实验表明,进行虚假评论识别后的情感分析准确率、召回率分别达到0.88和0.89,比传统方法具有更高的分析效能。
文摘为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。
基金The National Natural Science Foundation of China under Grant No.60873196the Fundamental Research Funds for the Central Universities under Grant No.QN2009092~~
文摘研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。
文摘如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, PU)学习的图卷积高质量文章内容识别模型--基于PU学习的图卷积网络(graph convolutional network based on positive and unlabeled learning, GCN-PU),在统一的框架中使用一个异构网络同时建模社交媒体文章的文本和社交信息,并在该网络上使用图卷积网络来融合这些信息得到高阶特征.另外,使用多媒体文章的全局视觉布局信息来捕捉文章的综合视觉质量特征,用于补充图卷积网络输出的高阶特征.最后,在训练机制和损失函数中引入了PU学习来充分利用社交媒体中大量未标注的文章信息.在真实社交媒体数据集上的实验结果表明,相比于现有的方法, GCN-PU方法的F值提升了3%以上.
文摘准确提取城市不透水面对生态环境、水热循环及热岛效应等研究具有重要意义。该文利用WorldView高分辨遥感影像,提出基于PUL(Positive and Unlabeled Learning)算法的高分辨率影像城市不透水面提取方法,该方法不需要负样本数据,只需少量的正样本和未标记样本即可训练分类模型。结果显示,PUL算法的提取结果优于一类支持向量机(OCSVM)以及最大熵(MAXENT)模型。使用不同正样本量时,PUL的提取结果总体精度和kappa系数均优于OCSVM和MAXENT,最高总体精度为91.27%,最高kappa系数可达0.8255,可快速、有效地从高分辨率遥感影像中提取不透水面。