期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于多文本特征融合的中文微博的立场检测 被引量:24
1
作者 奠雨洁 金琴 吴慧敏 《计算机工程与应用》 CSCD 北大核心 2017年第21期77-84,共8页
微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的... 微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。 展开更多
关键词 立场检测 情感分析 文本特征表示 微博 文本分类
下载PDF
文本特征提取研究现状分析与展望 被引量:3
2
作者 鹿鹏 庄敏 +1 位作者 龙刚 林宋伟 《科技创新与品牌》 2017年第4期70-74,共5页
文本挖掘作为一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学等多个领域,近年来基于文本挖掘技术的商业应用开发已成为热点。文本特征表示与提取是文本挖掘的首要基本问题,得到了研究者的广泛重视... 文本挖掘作为一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学等多个领域,近年来基于文本挖掘技术的商业应用开发已成为热点。文本特征表示与提取是文本挖掘的首要基本问题,得到了研究者的广泛重视。近年来,该领域已经有许多重要的研究成果。本文对近年来文本特征表示与提取的研究成果进行综述,展望未来文本特征表示与提取技术可能的研究热点。 展开更多
关键词 文本挖掘 文本特征表示 特征提取 模式识别
下载PDF
模拟退火K均值算法在文本挖掘中的应用 被引量:2
3
作者 谢磊 张旭毅 郑仕勇 《软件导刊》 2010年第6期41-42,共2页
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流... 讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。 展开更多
关键词 文本特征表示 模拟退火算法 聚类K均值算法
下载PDF
改进深度卷积生成式对抗网络的文本生成图像
4
作者 李云红 朱绵云 +3 位作者 任劼 苏雪平 周小计 于惠康 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期1875-1883,共9页
针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码... 针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码,得到文本的特征向量表示。引入条件增强(CA)模型,通过文本特征向量的均值和协方差矩阵产生附加的条件变量,代替原来的高维文本特征向量。将条件变量与随机噪声结合作为生成器的输入,并在生成器的损失中额外加入KL损失正则化项,避免模型训练过拟合,使模型可以更好的收敛,在判别器中使用谱约束(SN)层,防止其梯度下降太快造成生成器与判别器不平衡训练而发生模式崩溃的问题。实验验证结果表明:所提模型在Oxford-102-flowers和CUB-200数据集上生成的图像质量较alignDRAW、GAN-CLS、GAN-INT-CLS、StackGAN(64×64)、StackGAN-v1(64×64)模型更好且接近于真实样本,初始得分值最低分别提高了10.9%和5.6%,最高分别提高了41.4%和37.5%,FID值最低分别降低了11.4%和8.4%,最高分别降低了43.9%和42.5%,进一步表明了所提模型的有效性。 展开更多
关键词 深度卷积生成式对抗网络 文本生成图像 文本特征表示 条件增强 KL正则化
下载PDF
多类别文本分类方法比较研究 被引量:1
5
作者 于卫红 《计算机技术与发展》 2022年第1期54-60,共7页
文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用。目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点。为了帮助使用者或研究者更好地选... 文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用。目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点。为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象。基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语料,对15种模型在不同数据规模下进行若干次比较后,以Kappa系数和运行时间作为评估指标。综合评估后认为:使用词嵌入进行文本特征表示无论在分类模型的运行速度上还是分类效果上都具有明显的优势,KNN+CBOW、SVM+CBOW、朴素贝叶斯+CBOW都是解决多类别文本分类问题较佳的模型。 展开更多
关键词 文本分类 多类别 机器学习 文本特征表示 分类算法
下载PDF
PosNet:基于位置的因果关系抽取网络 被引量:1
6
作者 朱广丽 许鑫 +2 位作者 张顺香 吴厚月 黄菊 《计算机科学》 CSCD 北大核心 2022年第12期305-311,共7页
因果关系抽取是一种从文本中抽取因果实体对的自然语言处理技术,被广泛应用于金融、医疗等领域。传统的因果关系抽取技术需要人工选取文本特征进行因果匹配或使用神经网络多次提取特征,导致模型结构较为复杂,抽取效率不高。针对这一问题... 因果关系抽取是一种从文本中抽取因果实体对的自然语言处理技术,被广泛应用于金融、医疗等领域。传统的因果关系抽取技术需要人工选取文本特征进行因果匹配或使用神经网络多次提取特征,导致模型结构较为复杂,抽取效率不高。针对这一问题,提出一种基于位置的因果关系抽取网络(Position-based Causal Extraction Network,PosNet),以期提高因果关系的抽取效率。首先,预处理文本,构建多粒度文本特征作为网络的输入;然后,将文本特征传入位置预测网络,使用经典的浅层卷积神经网络预测因果实体的开始位置和结束位置;最后,通过组装算法按起始位置组装因果实体,抽取出全部因果实体对。实验结果证明PosNet可以提升因果关系抽取的效率。 展开更多
关键词 因果关系抽取 位置信息 文本特征表示
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部