期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于注意力长短时记忆网络的中文词性标注模型 被引量:21
1
作者 司念文 王衡军 +2 位作者 李伟 单义栋 谢鹏程 《计算机科学》 CSCD 北大核心 2018年第4期66-70,82,共6页
针对传统的基于统计模型的词性标注存在人工特征依赖的问题,提出一种有效的基于注意力长短时记忆网络的中文词性标注模型。该模型以基本的分布式词向量作为单元输入,利用双向长短时记忆网络提取丰富的词语上下文特征表示。同时在网络中... 针对传统的基于统计模型的词性标注存在人工特征依赖的问题,提出一种有效的基于注意力长短时记忆网络的中文词性标注模型。该模型以基本的分布式词向量作为单元输入,利用双向长短时记忆网络提取丰富的词语上下文特征表示。同时在网络中加入注意力隐层,利用注意力机制为不同时刻的隐状态分配概率权重,使隐层更加关注重要特征,从而优化和提升隐层向量的质量。在解码过程中引入状态转移概率矩阵,以进一步提升标注准确率。在《人民日报》和中文宾州树库CTB5语料上的实验结果表明,该模型能够有效地进行中文词性标注,其准确率高于条件随机场等传统词性标注方法,与当前较好的词性标注模型也十分接近。 展开更多
关键词 词性标注 长短时记忆网络 注意力机制 上下文特征
下载PDF
关于构式“有+VP” 被引量:15
2
作者 付习涛 《中国地质大学学报(社会科学版)》 2006年第5期97-103,108,共8页
“有+VP”在古汉语中早就存在。当前出现在现代汉语中的“有+VP”构式是随着社会经济的发展“有+VP”结构在当今社会掀起的复兴,是汉语言发展与时俱进的表现。该构式的复兴也有其本身具有的特点和功能的原因。“有+VP”构式中,“有”依... “有+VP”在古汉语中早就存在。当前出现在现代汉语中的“有+VP”构式是随着社会经济的发展“有+VP”结构在当今社会掀起的复兴,是汉语言发展与时俱进的表现。该构式的复兴也有其本身具有的特点和功能的原因。“有+VP”构式中,“有”依然是动词,在其为谓语中心的句子中作谓语,表存在,不是动词“有”的虚化;“VP”的内层语法特性依然是动词,表陈述,但在该构式的使用中,其体现的外层语法特性是指称,包括自指和转指,表行为事件本身或行为的对象与主体。“有+VP”构式是对现代汉语表达方式的一种补充,它具有形式简练、表达丰富、功能鲜明的特点。其中“有”的“存在”义使得其后的VP动态性弱化,从而使得其自身的意义得到强化,可以用来表明动作行为等的曾经产生、存在、完成和持续等,有表示肯定、强调、标示信息焦点的功能。但在一定语境条件下,“有”自身也是信息焦点,表“存在”。 展开更多
关键词 “有+VP”“有” “VP” 构式 词性 特点 功能
下载PDF
中医诊断古文的词性标注与特征重组 被引量:11
3
作者 王国龙 杜建强 +3 位作者 郝竹林 程春雷 蔡良俊 张鑫 《计算机工程与设计》 北大核心 2015年第3期835-840,F0003,共7页
中医诊断古文存在大量单音词,使用通用切词技术处理,结果是单个的分词结果,不能构成一个完整的诊断词汇。对此,设计一个基于键值对模型的中医诊断词性标记集,提出基于词汇联系的隐马尔可夫模型(HMM),进行词性标注,结合词法分析,采用移... 中医诊断古文存在大量单音词,使用通用切词技术处理,结果是单个的分词结果,不能构成一个完整的诊断词汇。对此,设计一个基于键值对模型的中医诊断词性标记集,提出基于词汇联系的隐马尔可夫模型(HMM),进行词性标注,结合词法分析,采用移进归约算法进行特征重组,生成中医诊断词汇。实验结果表明,改进的HMM的词性标注准确率在训练集和测试集中分别提高了2.58%和1.02%,特征重组结果是完整独立的诊断词汇,方便中医人员进行诊断分析,适合构成向量空间模型的特征。 展开更多
关键词 中医诊断古文 键值对模型 隐马尔可夫模型 词性标注 特征重组
下载PDF
词性对中英文文本聚类的影响研究 被引量:11
4
作者 韩普 王东波 +1 位作者 刘艳云 苏新宁 《中文信息学报》 CSCD 北大核心 2013年第2期65-73,共9页
不同词性特征在文本聚类中有不同的贡献度。该文对四组有代表性的中英文数据集,利用三种聚类算法验证了四种主要词性及其组合对中英文文本聚类的影响。实验结果表明,在中文和英文两种语言中,名词均是表征文本内容的最重要词性,动词、形... 不同词性特征在文本聚类中有不同的贡献度。该文对四组有代表性的中英文数据集,利用三种聚类算法验证了四种主要词性及其组合对中英文文本聚类的影响。实验结果表明,在中文和英文两种语言中,名词均是表征文本内容的最重要词性,动词、形容词和副词均对文本聚类结果有帮助,仅选择名词作为特征聚类的结果与保留所有词性聚类的结果相近,但可大大降低文本的维度;选用名词为文本特征不能实现最好的聚类效果;相对其他词性组合和单一词性,采用名词、动词、形容词和副词的组合特征往往可以实现更好的聚类效果。在词性所占的比例以及单一词性聚类的结果上,同一词性在中英文文本聚类中呈现出较大差异。相对于英文,不同词性特征及其组合在中文文本聚类中呈现的差异更为稳定。 展开更多
关键词 词性标注 文本聚类 文本特征
下载PDF
基于双通道特征融合的WPOS-GRU专利分类方法 被引量:10
5
作者 余本功 张培行 《计算机应用研究》 CSCD 北大核心 2020年第3期655-658,共4页
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和... 为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。 展开更多
关键词 专利分类 词性标注 特征融合 门限递归单元
下载PDF
基于词性特征与句法分析的商品评价对象提取 被引量:9
6
作者 邱云飞 陈艺方 +1 位作者 王伟 邵良杉 《计算机工程》 CAS CSCD 北大核心 2016年第7期173-180,共8页
针对中文在线评论中语言不规范以及多样性导致评价对象识别错误的问题,提出基于词性特征与句法分析的商品评价对象提取方法。根据中文语言特点,利用形容词、副词、动词的词性特征构建规则提取评价词。通过子句序列的句法树结构提取候选... 针对中文在线评论中语言不规范以及多样性导致评价对象识别错误的问题,提出基于词性特征与句法分析的商品评价对象提取方法。根据中文语言特点,利用形容词、副词、动词的词性特征构建规则提取评价词。通过子句序列的句法树结构提取候选评价对象并进行过滤。基于核心句法路径筛选评价搭配,以减少提取过程中引入的评价对象以及评价词噪声,从而提取出真正的评价对象。实验结果表明,引入句法树结构与核心句法路径使得商品评价对象识别的F值达到80%以上。 展开更多
关键词 中文评价词 评价对象 句法树结构 词性特征 句法路径
下载PDF
文本分类中受词性影响的特征权重计算方法 被引量:9
7
作者 路永和 王鸿滨 《现代图书情报技术》 CSSCI 2015年第4期18-25,共8页
【目的】为提高分类准确率,引入词性改进特征权重计算方法,进而影响文本特征权重的取值。【方法】采用对比实验的方法,将本文提出的引入词性的特征权重计算方法与传统的TF-IDF方法分组进行实验。在引入词性的特征权重计算方法中,采用粒... 【目的】为提高分类准确率,引入词性改进特征权重计算方法,进而影响文本特征权重的取值。【方法】采用对比实验的方法,将本文提出的引入词性的特征权重计算方法与传统的TF-IDF方法分组进行实验。在引入词性的特征权重计算方法中,采用粒子群算法迭代计算最优词性权重。两组实验均采用SVM分类器进行分类。【结果】实验结果表明:改进的权重计算方法比传统的TF-IDF方法的分类效果更好,分类准确率在不同特征维度下都得到明显的提高,提高幅度在2-6个百分点。【局限】由于实验条件的不足,在使用粒子群算法寻找最优权重配比时得出的结果仅是接近最优解的配比,需要扩大数据规模与增加迭代次数才能得出更佳的权重配比。【结论】在文本分类当中引入词性能有效提高分类准确率,各词性权重大小的排序从高到低为名词、字符串、动词;结合词性的权重计算方法并不只适用于某个特定的语料集,还可以适用于一般的语料集。 展开更多
关键词 文本分类 词性 权重计算 粒子群算法
原文传递
基于词性特征的CNN_BiGRU文本分类模型 被引量:6
8
作者 张小川 刘连喜 +1 位作者 戴旭尧 刘璐 《计算机应用与软件》 北大核心 2021年第11期155-161,共7页
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足。针对上述问题,提出一种基... 传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足。针对上述问题,提出一种基于词性特征的CNNBiGRU文本分类模型。引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测。实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力。 展开更多
关键词 词性特征 词性向量 增强词向量 CNN网络 BiGRU网络 CNN--_BiGRU模型
下载PDF
融合内容特征与传播特征的微博文本情感分类 被引量:1
9
作者 陈红阳 黄正洪 +1 位作者 何盈盈 周也力 《重庆理工大学学报(自然科学)》 北大核心 2023年第7期245-255,共11页
基于Word2vec的文本向量化表示方法未充分考虑微博文本的内容特征与传播特征,导致文本向量化表示欠佳,且采用单个机器学习算法进行情感分类的精度不高。提出一种融合文本中表情符号,词的语义、词性与情感等内容特征,评论、转发与点赞数... 基于Word2vec的文本向量化表示方法未充分考虑微博文本的内容特征与传播特征,导致文本向量化表示欠佳,且采用单个机器学习算法进行情感分类的精度不高。提出一种融合文本中表情符号,词的语义、词性与情感等内容特征,评论、转发与点赞数等传播特征,共同构建蕴含丰富语义与情感信息的文本特征向量。根据各基分类器在训练数据集上的性能表现设置不同权重,并与类概率向量相乘,保留最大、最小与平均加权概率值,同时结合原始文本特征向量作为元分类器的输入数据以改进原Stacking算法,进行微博文本情感分类。在微博数据集上的实验结果表明:本文方法能更好地表示文本向量,以加权方式改进的Stacking集成学习分类器优于单个分类器;相较于其他情感分类方法,本文方法的准确率提升1.75%~4.90%。 展开更多
关键词 微博文本 情感特征 词性特征 传播特征 情感分类
下载PDF
基于词性过滤和改进边权重的短文本分类算法 被引量:1
10
作者 许梦玥 侯秀萍 王俊华 《长春工业大学学报》 CAS 2023年第6期546-551,共6页
针对短文本存在特征稀疏和信息不规范等特点,文中在TextGCN模型的基础上通过增加词性过滤减弱无关词对特征选择的影响,并加入TF-CR算法提高类别无关词权重,最后,通过与几个经典模型进行对比,验证改进模型的有效性。
关键词 词性过滤 特征选择 短文本分类
下载PDF
融合多粒度特征的低资源语言词性标注和依存分析联合模型 被引量:1
11
作者 陆杉 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 王振晗 《中文信息学报》 CSCD 北大核心 2023年第7期13-22,共10页
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表... 研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 展开更多
关键词 低资源语言 词性标注 依存分析 多粒度特征 联合模型
下载PDF
面向英语文章的词性标注算法 被引量:3
12
作者 谭咏梅 吴坤 《北京邮电大学学报》 EI CAS CSCD 北大核心 2014年第6期120-124,共5页
面向英语文章的词性标注是对英语文章实现自动批改的基础,虽然研究者对英语词性标注做了大量有益的研究,但是大多数的研究都面向英语为第一语言的用户,而面向英语为第二语言用户的相关研究则很少.为此,对以英语为第二语言用户的英语文... 面向英语文章的词性标注是对英语文章实现自动批改的基础,虽然研究者对英语词性标注做了大量有益的研究,但是大多数的研究都面向英语为第一语言的用户,而面向英语为第二语言用户的相关研究则很少.为此,对以英语为第二语言用户的英语文章进行了人工标注,在此基础上提出了一种面向英语文章的词性标注算法,融合了词聚类、无标语料统计信息、单词发音等特征.实验结果表明,该算法能有效提高词性标注性能,标注正确率从94.49%可提高到97.07%. 展开更多
关键词 词性标注 学生英语文章 特征 词聚类
原文传递
基于SVM和词向量的Web新闻倾向性分析 被引量:1
13
作者 肖宇伦 欧阳纯萍 刘志明 《现代计算机(中旬刊)》 2016年第5期52-55,共4页
提出一种通过提取词向量,并利用机器学习对新闻文本进行分类的方法。首先,通过对预先收集好的新闻语料进行分析,获取到词的向量表示形式;然后通过新闻中的一些关键词提取出新闻的关键句;最后把词向量和关键句当中的关键词词性作为组合特... 提出一种通过提取词向量,并利用机器学习对新闻文本进行分类的方法。首先,通过对预先收集好的新闻语料进行分析,获取到词的向量表示形式;然后通过新闻中的一些关键词提取出新闻的关键句;最后把词向量和关键句当中的关键词词性作为组合特征,采用SVM算法进行分类,得到新闻的倾向性类别。实验表明,基于组合特征的SVM文本分类方法具有较高的F值。 展开更多
关键词 新闻倾向性分析 SVM 词向量 词性特征
下载PDF
基于CRF模型的英文词性标注研究
14
作者 刘星宇 宁慧 张汝波 《应用科技》 CAS 2021年第1期25-30,35,共7页
针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率。实验结果表明,条件随机场对于解决英... 针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率。实验结果表明,条件随机场对于解决英文词性标注问题有着更大的优势;将共性的特征与相对具体的后缀特征结合使用所达到的词性标注准确率最高。 展开更多
关键词 条件随机场 隐马尔可夫模型 词性特征 维特比算法 词性标注 自然语言处理
下载PDF
Mixed-Fisher特征云模型聚类在文本情感分类中的应用
15
作者 邢玉娟 郭显 +1 位作者 谭萍 李明 《计算机科学与探索》 CSCD 北大核心 2016年第9期1320-1331,共12页
海量网络信息的出现,使得提取文本信息情感观点成为研究的热点。针对文本情感分类中文本信息模糊及分类准确率低的问题,提出了一种基于Mixed-Fisher特征选择的文本云向量模型聚类算法。该算法首先分别计算文档中各个词性特征项的Fisher... 海量网络信息的出现,使得提取文本信息情感观点成为研究的热点。针对文本情感分类中文本信息模糊及分类准确率低的问题,提出了一种基于Mixed-Fisher特征选择的文本云向量模型聚类算法。该算法首先分别计算文档中各个词性特征项的Fisher判别比,根据Fisher判别比越大特征向量判别性越强的Fisher准则,选择Fisher比值较大的前q个特征,并按照词性进行组合生成文档的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上构建文档的云向量模型,根据云向量模型间的差异度对模型进行聚类和合并。将该算法应用于文本情感观点的分类,选择核Fisher判别技术用于最终文本观点的判定。仿真实验结果表明,基于Mixed-Fisher特征的云向量聚类模型的分类准确率明显优于传统向量空间模型,从而验证了核Fisher判别技术的有效性。 展开更多
关键词 文本情感分类 Fisher判别比 词性特征 云向量模型 核FISHER判别
下载PDF
基于特征词群的新闻类重复网页和近似网页识别算法
16
作者 程芃森 安俊秀 《成都信息工程学院学报》 2012年第4期374-379,共6页
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取... 新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高。 展开更多
关键词 计算机应用 网页消重 词性分类 特征词群
下载PDF
基于线性链条件随机场的用户生成文本标点标注
17
作者 苏晓宝 刘臣 唐莉 《软件》 2019年第4期145-149,共5页
标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置... 标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置左右词性对作为模型的观测序列,使用条件随机场进行标点符号的标注。实验的测试语料采用京东在线产品评论,结果表明基于线性链条件随机场的用户生成文本标点标注效率较高。 展开更多
关键词 线性链条件随机场 用户生成文本 词性 特征模板 标点符号标注
下载PDF
基于信息增益的中文网页SVM分类研究
18
作者 潘正才 陈海光 《上海师范大学学报(自然科学版)》 2013年第3期277-282,共6页
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算... 针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果. 展开更多
关键词 信息增益方法 词性过滤 同义词归并 特征加权 支持向量机
下载PDF
汉语词性标注特征模板设定定量分析
19
作者 郑霞 《安阳师范学院学报》 2013年第5期53-56,共4页
在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得... 在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响。 展开更多
关键词 汉语词性标注 CRFS 特征模板
下载PDF
基于多特征知识的先秦典籍词性自动标注研究 被引量:19
20
作者 王东波 黄水清 何琳 《图书情报工作》 CSSCI 北大核心 2017年第12期64-70,共7页
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍... [目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。 展开更多
关键词 词性标注 先秦古籍 条件随机场模型 特征模板 古文信息处理
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部