期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
多特征融合的Voting-SRM情感分类研究 被引量:10
1
作者 赵乐 麦范金 张兴旺 《小型微型计算机系统》 CSCD 北大核心 2019年第11期2269-2273,共5页
情感分类是自然语言处理领域的一个核心问题,其目的是判断评论文本的情感极性,并挖掘其蕴含的情感价值信息.为了提取评论文本中潜在的情感信息,提高分类精度,本文提出了多特征融合的Voting-SRM情感分类方法.结合词性特征,语法特征等,提... 情感分类是自然语言处理领域的一个核心问题,其目的是判断评论文本的情感极性,并挖掘其蕴含的情感价值信息.为了提取评论文本中潜在的情感信息,提高分类精度,本文提出了多特征融合的Voting-SRM情感分类方法.结合词性特征,语法特征等,提取名词,动词,形容词,副词等特征,然后运用软投票机制,结合随机梯度下降算法、随机森林、神经网络等算法,对已获取评论文本进行极性二分类.本文通过对比实验,验证了该方法的有效性. 展开更多
关键词 词性标注 二元语法 随机梯度下降 投票机制 情感分类
下载PDF
基于词性标注序列特征提取的微博情感分类 被引量:7
2
作者 卢伟胜 郭躬德 陈黎飞 《计算机应用》 CSCD 北大核心 2014年第10期2869-2873,共5页
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列... 传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。 展开更多
关键词 特征提取 词性 标注序列 微博情感分类 极性分类
下载PDF
基于注意力头数和词性融合的藏文预训练模型
3
作者 张英 拥措 +3 位作者 斯曲卓嘎 拉毛杰 扎西永珍 尼玛扎西 《科学技术与工程》 北大核心 2024年第23期9957-9964,共8页
为了更好地学习藏文语言特征以及探究藏文预训练语言模型的最佳注意力机制头数,将词性与藏文预训练模型相结合,并进行了对比实验确定最佳的注意力头数,旨在提高语言模型对藏文语言特征的理解以及下游任务的性能。实验结果表明,在多个分... 为了更好地学习藏文语言特征以及探究藏文预训练语言模型的最佳注意力机制头数,将词性与藏文预训练模型相结合,并进行了对比实验确定最佳的注意力头数,旨在提高语言模型对藏文语言特征的理解以及下游任务的性能。实验结果表明,在多个分类任务中,注意力头数为12的预训练模型皆表现了良好的性能。此外,将词性融入预训练模型后,文本、标题和情感分类任务的模型F_(1)值分别提高了0.57%、0.92%和1.01%。实验结果证明融入词性特征后,模型可以更准确地理解藏文语言结构和语法规则,从而提高分类任务的准确率。 展开更多
关键词 注意力机制 词性 预训练语言模型 文本分类 情感分类
下载PDF
基于词性和关键词的短文本相似度计算方法 被引量:2
4
作者 赵明月 《计算机时代》 2018年第5期66-70,73,共6页
Word Mover’s Distance(WMD)是近年来非常热门的一个计算文本距离的算法,可以较为准确地进行文本相似度测量,被广泛应用于舆情分析,内容分类等。在WMD算法中,最重要的是将词进行词袋化处理,得到300维度的词向量,由于在得到词向量时,词... Word Mover’s Distance(WMD)是近年来非常热门的一个计算文本距离的算法,可以较为准确地进行文本相似度测量,被广泛应用于舆情分析,内容分类等。在WMD算法中,最重要的是将词进行词袋化处理,得到300维度的词向量,由于在得到词向量时,词的权重是随机分配的,所以最终得到的相似文本内容正确率不稳定。文章在WMD算法基础上,提取关键词,结合词性分类,给不同词性的词语分配不同的权重,从而进一步优化WMD算法,提高分类的准确率。 展开更多
关键词 词性分类 权重 提取关键词 相似度
下载PDF
基于特征词群的新闻类重复网页和近似网页识别算法
5
作者 程芃森 安俊秀 《成都信息工程学院学报》 2012年第4期374-379,共6页
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取... 新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高。 展开更多
关键词 计算机应用 网页消重 词性分类 特征词群
下载PDF
谈日语形容词的典型语义特征
6
作者 白晓光 《解放军外国语学院学报》 北大核心 2002年第2期29-33,共5页
词类划分是日语语言学界争论已久的话题。本文参考汉语该方面的研究 ,从语义学角度将日语形容词分为状态形容词和性质形容词 ,整理归纳日语形容词的典型语义特征 ,以大致理清处于同一连续统中的形容词的相关词类以及形容词内部下位分类... 词类划分是日语语言学界争论已久的话题。本文参考汉语该方面的研究 ,从语义学角度将日语形容词分为状态形容词和性质形容词 ,整理归纳日语形容词的典型语义特征 ,以大致理清处于同一连续统中的形容词的相关词类以及形容词内部下位分类在语义层面上的区别与联系 ,并以此对某些语言现象加以解释。 展开更多
关键词 日语形容词 词类划分 语义特征
下载PDF
基于注意力机制的文本作者识别 被引量:2
7
作者 张洋 江铭虎 《计算机应用》 CSCD 北大核心 2021年第7期1897-1901,共5页
基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别... 基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别。与文本卷积神经网络(TextCNN)、文本循环神经网络(TextRNN)、长短期记忆(LSTM)网络和fastText进行对比,实验结果表明,所提出的模型获得了最高的分类准确率,与fastText模型相比,注意力机制的引入使得不同POS n-gram特征对应的准确率平均提高了2.14个百分点;同时,该模型保留了fastText的快速高效,且其所使用的文本特征可以推广到其他语言上。 展开更多
关键词 作者识别 词性标签n元组合 神经网络 快速文本分类 注意力机制
下载PDF
基于细粒度多通道卷积神经网络的文本情感分析 被引量:11
8
作者 王义 沈洋 戴月明 《计算机工程》 CAS CSCD 北大核心 2020年第5期102-108,共7页
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原... 以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。 展开更多
关键词 卷积神经网络 词向量 词性对向量 情感分类 文本情感分析
下载PDF
基于词性过滤和改进边权重的短文本分类算法 被引量:1
9
作者 许梦玥 侯秀萍 王俊华 《长春工业大学学报》 CAS 2023年第6期546-551,共6页
针对短文本存在特征稀疏和信息不规范等特点,文中在TextGCN模型的基础上通过增加词性过滤减弱无关词对特征选择的影响,并加入TF-CR算法提高类别无关词权重,最后,通过与几个经典模型进行对比,验证改进模型的有效性。
关键词 词性过滤 特征选择 短文本分类
下载PDF
融合内容特征与传播特征的微博文本情感分类 被引量:1
10
作者 陈红阳 黄正洪 +1 位作者 何盈盈 周也力 《重庆理工大学学报(自然科学)》 北大核心 2023年第7期245-255,共11页
基于Word2vec的文本向量化表示方法未充分考虑微博文本的内容特征与传播特征,导致文本向量化表示欠佳,且采用单个机器学习算法进行情感分类的精度不高。提出一种融合文本中表情符号,词的语义、词性与情感等内容特征,评论、转发与点赞数... 基于Word2vec的文本向量化表示方法未充分考虑微博文本的内容特征与传播特征,导致文本向量化表示欠佳,且采用单个机器学习算法进行情感分类的精度不高。提出一种融合文本中表情符号,词的语义、词性与情感等内容特征,评论、转发与点赞数等传播特征,共同构建蕴含丰富语义与情感信息的文本特征向量。根据各基分类器在训练数据集上的性能表现设置不同权重,并与类概率向量相乘,保留最大、最小与平均加权概率值,同时结合原始文本特征向量作为元分类器的输入数据以改进原Stacking算法,进行微博文本情感分类。在微博数据集上的实验结果表明:本文方法能更好地表示文本向量,以加权方式改进的Stacking集成学习分类器优于单个分类器;相较于其他情感分类方法,本文方法的准确率提升1.75%~4.90%。 展开更多
关键词 微博文本 情感特征 词性特征 传播特征 情感分类
下载PDF
“似的”研究综述 被引量:2
11
作者 王智杰 《北方论丛》 北大核心 2006年第4期76-79,共4页
“似的”是附着在名词性、动词性、形容词性词语后面,表示比拟、推测等意义的比况助词。对它的研究从上个世纪50年代起到现在,始终没有间断,且取得成果丰厚。从“似的”的来源、词性、意义及分类、对不同“似的”辨别等几个方面进行梳... “似的”是附着在名词性、动词性、形容词性词语后面,表示比拟、推测等意义的比况助词。对它的研究从上个世纪50年代起到现在,始终没有间断,且取得成果丰厚。从“似的”的来源、词性、意义及分类、对不同“似的”辨别等几个方面进行梳理、总结,并对研究中存在的问题以及今后研究的走向加以探讨,是有着一定意义的。 展开更多
关键词 似的 来源 词性 意义 分类
下载PDF
基于多特征融合的中文文本分类研究 被引量:5
12
作者 王艳 王胡燕 余本功 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第10期1-14,共14页
【目的】通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力。【方法】多特征融合的文本分类方法,在词级别特征的基础上进行... 【目的】通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力。【方法】多特征融合的文本分类方法,在词级别特征的基础上进行词性特征、汉字字符特征和拼音字符特征构建多特征语义表示,然后将特征输入BiGRU中获取上下文语义特征,输入CNN中获取局部语义特征,最终将特征进行融合并输入Softmax中进行分类,预测需要的类别标签。【结果】在两个不同的数据集下,多特征融合的模型的准确率分别达到83.3%和91.1%,比其他分类模型准确率至少提升了7个百分点。【局限】实验数据数量较少,未在更多的数据集上进行验证。【结论】所提方法提升了模型的语义表征能力,是一种有效的文本分类模型,为企业进行高效文本分类提供了有效支持。 展开更多
关键词 词性标记 词级别特征 文本分类 拼音字符特征 汉字字符特征
原文传递
面向信息处理的蒙古语词语分类体系研究 被引量:3
13
作者 巴达玛敖德斯尔 《中央民族大学学报(哲学社会科学版)》 CSSCI 北大核心 2004年第3期93-99,共7页
 提出面向信息处理的现代蒙古语词语分类体系及其标记集,并且对分类体系中的15个词类的分布特征从形态变化、句子成分功能和短语组合功能等方面进行了描述。
关键词 蒙古文 信息处理 蒙古语词类 词语分类体系
下载PDF
基于语料库的「X+過ぎる」和“过于+X”句式对比研究 被引量:2
14
作者 陈冬姝 《高等日语教育》 2021年第2期130-142,165-166,共15页
「X+過ぎる」与"过于+X"均为日汉语表达"过量"的句法形式,在X的词性选择上却存在差异。本文基于日汉语料库中的书面语语料,通过对比分析X的词性分布以及X为动词时的语义特征和语用功能,尝试明晰「過ぎる」和"... 「X+過ぎる」与"过于+X"均为日汉语表达"过量"的句法形式,在X的词性选择上却存在差异。本文基于日汉语料库中的书面语语料,通过对比分析X的词性分布以及X为动词时的语义特征和语用功能,尝试明晰「過ぎる」和"过于"句式的异同,探索由此反映出的日汉语的共性与差异。研究发现,「過ぎる」与动词共现的比例要高于汉语,"过于"与形容词共现的比例却高于日语。该倾向产生的原因有三:一是日语存在大量「連用修飾成分+動詞+過ぎる」句式;二是在词性分类上,日语注重形态特征,汉语注重语义功能;三是日语「動詞+過ぎる」中动词的语义范畴更为丰富。此外,研究表明日汉语都极易与及物动词和非宾格动词结合,且呈现出相似的动词语义选择倾向。但是日语「過ぎる」能够统摄的语义范畴更广,能够积极地吸收并转化句中各个词类所表达的程度义;而汉语"过于"能够统摄的语义范畴较窄,只能够吸收紧跟在"过于"后面的形容词、动词本身所具备的程度义。 展开更多
关键词 过于 過ぎる 语料库 日汉对比 词性分类
原文传递
古汉语副词性连文初探
15
作者 冯凌宇 《襄樊学院学报》 1999年第6期48-51,共4页
古汉语副词性连文由若干不同音节组合而成或由同一个音节相叠而成,结构形式轻松散,内部语序较固定,构成成分一般为副词,其意义与其某一构成成分的意义无大的差别。
关键词 副词性连文 构成 类别 语法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部