期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于机器学习的科技文摘关键词自动提取方法 被引量:15
1
作者 刘佳宾 陈超 +1 位作者 邵正荣 吉翔华 《计算机工程与应用》 CSCD 北大核心 2007年第14期170-172,共3页
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取... 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。 展开更多
关键词 信息自动抽取 决策树 词性分析 n_grams方法
下载PDF
基于词性标注序列特征提取的微博情感分类 被引量:7
2
作者 卢伟胜 郭躬德 陈黎飞 《计算机应用》 CSCD 北大核心 2014年第10期2869-2873,共5页
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列... 传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。 展开更多
关键词 特征提取 词性 标注序列 微博情感分类 极性分类
下载PDF
基于词性约束的藏文分词策略与算法 被引量:7
3
作者 才让卓玛 才智杰 《中文信息学报》 CSCD 北大核心 2020年第2期33-37,共5页
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,... 自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。 展开更多
关键词 分词 词性 未登录词 歧义
下载PDF
基于含边界词性特征的中文命名实体识别 被引量:7
4
作者 邱莎 王付艳 +3 位作者 申浩如 段玻 阿圆 丁海燕 《计算机工程》 CAS CSCD 2012年第13期128-130,共3页
根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标... 根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标注的方式在公共语料上进行多次中文命名实体识别实验。通过对多次实验结果的比较分析得出,二级词性与词边界合成的特征在系统执行性能和识别效果等方面均为最优。 展开更多
关键词 中文命名实体识别 条件随机场 特征模板 词性 词边界 标注集
下载PDF
融合强关联依赖和简洁语法的方面级情感分析模型
5
作者 柯添赐 刘建华 +2 位作者 孙水华 郑智雄 蔡子杰 《计算机应用》 CSCD 北大核心 2024年第6期1786-1795,共10页
针对语法依赖树存在多个方面词相互干扰的依赖信息、无效单词,以及标点符号带来的冗余信息和方面词与对应情感词之间的关联性较弱等问题,提出一种融合强关联依赖和简洁语法的方面级情感分析模型(SADCS)。首先,构建情感词性(POS)列表,通... 针对语法依赖树存在多个方面词相互干扰的依赖信息、无效单词,以及标点符号带来的冗余信息和方面词与对应情感词之间的关联性较弱等问题,提出一种融合强关联依赖和简洁语法的方面级情感分析模型(SADCS)。首先,构建情感词性(POS)列表,通过该列表加强方面词与对应情感的相关性;其次,构建融合POS和依赖关系的联合列表,通过该联合列表去除已优化的依赖树无效单词与标点符号的冗余信息;再次,将优化后的依赖树与图注意力网络(GAT)结合建模提取上下文特征;最后,与依赖关系类型的特征信息进行交互学习并融合特征,增强特征表示,最终使分类器能高效预测每个方面词的情感极性。将所提模型在4个公开数据集上进行实验分析,与DMF-GAT-BERT(Dynamic Multichannel Fusion mechanism based on the GAT and BERT(Bidirectional Encoder Representations from Transformers))模型相比,所提模型的准确率分别提高了1.48、1.81、0.09和0.44个百分点。实验结果表明,所提模型能够有效增强方面词与情感词的联系,使方面词情感极性的预测更准确。 展开更多
关键词 方面级情感分析 依赖关系 词性 语法依赖树 图注意力网络
下载PDF
蒙古语单词词性自动识别研究 被引量:2
6
作者 王斯日古楞 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2007年第3期319-321,共3页
在对蒙古语语法信息进行研究的基础上,设计了蒙古语单词词性自动识别系统.介绍了词性识别所需要的知识库及识别系统的设计和实现方法.
关键词 蒙古语 词性 自动识别 知识库
下载PDF
藏文词性自动标注中歧义问题处理方法研究 被引量:1
7
作者 羊毛卓玛 《计算机工程与应用》 CSCD 2013年第24期135-137,148,共4页
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏文语... 藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏文语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。 展开更多
关键词 藏文信息处理 词缀 词性 自动标注 词性排岐
下载PDF
基于词性信息的汉语时间语词消歧算法
8
作者 代建英 何中市 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第9期53-56,共4页
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,... 切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%. 展开更多
关键词 自然语言处理 切分歧义 时间语词 词性信息 统计语言模型
下载PDF
基于条件随机场的领域术语识别研究 被引量:14
9
作者 施水才 王锴 +1 位作者 韩艳铧 吕学强 《计算机工程与应用》 CSCD 2013年第10期147-149,155,共4页
领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特... 领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特征模板,同时通过10倍交叉验证法确定模型训练参数。实验结果表明,通过条件随机场模型分析领域术语的词性组合概率能够有效地识别领域术语。 展开更多
关键词 领域术语 条件随机场 词性组合 特征模板
下载PDF
一个改进的汉语词性标注系统 被引量:7
10
作者 屈刚 陆汝占 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第6期897-900,共4页
汉语词性标注的难点在于确定具有多个词类的词 (兼类词 )在上下文中的词性 .基于兼类词在词典中仅占很小的比例 (约为 3% ) ,提出了具有双重状态的隐马尔可夫模型 ,它不但有一个常规的状态转移概率矩阵 ,还在逻辑上为每个具有多个词类... 汉语词性标注的难点在于确定具有多个词类的词 (兼类词 )在上下文中的词性 .基于兼类词在词典中仅占很小的比例 (约为 3% ) ,提出了具有双重状态的隐马尔可夫模型 ,它不但有一个常规的状态转移概率矩阵 ,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵 ,使模型从一个状态转移到另一个状态的概率不再和观察无关 。 展开更多
关键词 词性标注 隐马尔可夫模型 自然语言处理
下载PDF
基于无向图序列标注模型的中文分词词性标注一体化系统 被引量:12
11
作者 朱聪慧 赵铁军 郑德权 《电子与信息学报》 EI CSCD 北大核心 2010年第3期700-704,共5页
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模... 在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。 展开更多
关键词 中文分词 词性标注 一体化系统 无向图模型
下载PDF
基于多特征的关键词抽取算法 被引量:7
12
作者 郭建波 谢飞 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第9期1215-1219,共5页
互联网技术的快速发展导致信息爆炸式的增长。因此,在海量信息中查找关键信息变得非常困难,关键信息的提取技术就变得愈加重要,该关键信息通常表现为关键词。针对该问题,文章设计了一种无监督的关键词抽取算法,无需训练文档,根据候选词... 互联网技术的快速发展导致信息爆炸式的增长。因此,在海量信息中查找关键信息变得非常困难,关键信息的提取技术就变得愈加重要,该关键信息通常表现为关键词。针对该问题,文章设计了一种无监督的关键词抽取算法,无需训练文档,根据候选词的统计特征和词性特征等直接从单个文档中提取关键词。实验表明,算法所提取的关键词优于现有算法所获取的关键词,同时,该算法的时间效率也优于现有的算法。 展开更多
关键词 抽取 信息抽取 统计特征 词性特征 机器学习
下载PDF
基于词性及词性依存的句子结构相似度计算 被引量:6
13
作者 蓝雁玲 陈建超 《计算机工程》 CAS CSCD 北大核心 2011年第10期47-49,共3页
为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得2个句子词性及词性依存关系的最优匹配,从而计算句子结构相似度。实验结果表明,该方法能... 为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得2个句子词性及词性依存关系的最优匹配,从而计算句子结构相似度。实验结果表明,该方法能使句子结构相似度计算更合理。 展开更多
关键词 句子结构 词性依存 结构相似度 自然语言处理
下载PDF
基于模式匹配与半监督学习的评价对象抽取 被引量:4
14
作者 宋晖 史南胜 《计算机工程》 CAS CSCD 2013年第10期221-226,共6页
针对产品评论中评价对象的抽取问题,提出一种基于模式匹配与半监督学习的抽取方法。通过大量样本统计,获得种子规则集,以抽取有效评价句,利用句法结构组合以及词性距离相关性算法抽取评价对象,将种子规则和评价对象存入相应的模式库,并... 针对产品评论中评价对象的抽取问题,提出一种基于模式匹配与半监督学习的抽取方法。通过大量样本统计,获得种子规则集,以抽取有效评价句,利用句法结构组合以及词性距离相关性算法抽取评价对象,将种子规则和评价对象存入相应的模式库,并通过半监督学习方法与规则的动态替换,进行规则的学习与评价对象的扩充训练。实验结果表明,该方法的抽取效果较好,证明了方法的可行性。 展开更多
关键词 评价对象 意见挖掘 词性搭配 词性距离相关性算法 模式匹配 有效评价句
下载PDF
基于MapReduce的中文词性标注CRF模型并行化训练研究 被引量:5
15
作者 刘滔 雷霖 +1 位作者 陈荦 熊伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期147-152,共6页
针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce框架的条件随机场模型训练并行化方法,设计了条件随机场模型特征提取及参数估计的并行算法,实现了迭代缩放算法的并行。实验表明,所提出的... 针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce框架的条件随机场模型训练并行化方法,设计了条件随机场模型特征提取及参数估计的并行算法,实现了迭代缩放算法的并行。实验表明,所提出的并行化方法在保证训练结果正确性的同时,大大减少了训练时间,效率得到较大提升。 展开更多
关键词 词性标注 条件随机场 MAPREDUCE 并行
下载PDF
基于方面-词性感知的方面级情感分析 被引量:1
16
作者 夏卫欢 廖列法 +1 位作者 张守信 张燕琴 《计算机工程》 CAS CSCD 北大核心 2024年第3期68-77,共10页
方面级情感分析是自然语言处理的研究热点之一,其任务目的是预测句子中给定方面的情感极性。目前已有研究大多忽略了方面词和特定词性单词在过滤情感极性相关上下文语义信息和理解上下文语法信息中的作用。为此,提出一种基于方面-词性... 方面级情感分析是自然语言处理的研究热点之一,其任务目的是预测句子中给定方面的情感极性。目前已有研究大多忽略了方面词和特定词性单词在过滤情感极性相关上下文语义信息和理解上下文语法信息中的作用。为此,提出一种基于方面-词性感知的图卷积网络ASP_POSGCN。采用双向长短期记忆网络建模上下文和词性信息,经由门控机制筛选方面词相关上下文语义信息,再使用词性信息隐藏层状态进一步过滤;同时设计方面-词性感知矩阵算法,根据不同词性单词对方面词情感极性的贡献重构句子原始依存关系以获取重构依存句法图,将原始依存句法图和重构依存句法图应用于双通道图卷积网络和多图感知机制;最后,使用过滤后的上下文语义信息与双通道图卷积网络的输出计算注意力得到最终分类表示。实验结果表明,该模型在Twitter、Laptop14、Restaurant14和Restaurant164个公开数据集上的准确率分别为74.57%、79.15%、83.84%、91.23%,F1值分别为72.59%、75.76%、77.00%、77.11%,与传统方面级情感分析基准模型相比均有提升,有助于方面级的情感极性分类。 展开更多
关键词 方面级情感分析 图卷积网络 门控机制 词性信息 多图感知机制
下载PDF
词类标注对词典释义的促进作用
17
作者 谭景春 《汉语学报》 CSSCI 北大核心 2024年第4期80-91,共12页
词类标注和词典释义有着密切的关系。从词类标注的视角来审视词典释义,更容易发现释义中以前不易发现的问题,可以使释义更加严谨、更加精细化,从而促进词典释义的质量提高。本文从词目和释义词语的语法属性的一致性、动词和形容词义项... 词类标注和词典释义有着密切的关系。从词类标注的视角来审视词典释义,更容易发现释义中以前不易发现的问题,可以使释义更加严谨、更加精细化,从而促进词典释义的质量提高。本文从词目和释义词语的语法属性的一致性、动词和形容词义项的增补、虚词释义的修改、冗余义项的删除四个方面对此予以阐述。每个方面选取若干条目,这些条目都是因词类标注而发现释义存在问题,从而对释义做出了相应的修订。通过对它们的修订来具体说明词类标注对词典释义的促进作用。 展开更多
关键词 词类标注 词典释义 词典修订 《现代汉语词典》
下载PDF
基于CRF模型的蒙古文分词及词性标注的研究 被引量:3
18
作者 那日松 淑琴 齐力格尔 《内蒙古大学学报(哲学社会科学版)》 2016年第2期23-28,共6页
为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"... 为了探讨蒙古文自动词切分及词性标注的问题,可以首先对20万词级蒙古文语料的词切分和词性标注情况进行统计和分析,并对其切分和标注错误进行二次修正,然后再采用条件随机场模型(CRF),进行自动"分词"、"词性标注"、分词及词性标注"统一实现"的研究。开放测试的结果表明,蒙古文自动分词准确率在98%以上,蒙古文分词和词性标注"统一实现"实验结果的准确率比分词和词性标注"两步走"实验结果的准确率高出3.55%,"统一实现"实验在考虑"上下文"和特征"连写的附加成分"后所得准确率可以达到93.38%,这在一定程度上解决了蒙古文分词及词性标注问题。 展开更多
关键词 蒙古文分词 蒙古文词性标注 条件随机场
下载PDF
领域自适应的合成词词性标注研究 被引量:2
19
作者 张春荣 赵琦 《计算机应用研究》 CSCD 北大核心 2018年第5期1350-1354,共5页
在词性标注研究中,未登录的专业领域合成词给词性标注增加了很大的困难。提出了一种领域自适应的合成词词性标注方法,融合支持向量机(SVM)模型和基于转换学习(TBL)的方法来进行自动词性标注。对专业领域合成词的形态特征进行了详尽的分... 在词性标注研究中,未登录的专业领域合成词给词性标注增加了很大的困难。提出了一种领域自适应的合成词词性标注方法,融合支持向量机(SVM)模型和基于转换学习(TBL)的方法来进行自动词性标注。对专业领域合成词的形态特征进行了详尽的分析,对有关的语法特点和语言现象进行了总结。有效利用这些合成词构词单元的语言学信息,把词类和词内结构信息引入SVM特征选择模板和TBL转换规则模板中,并采用核心属性渗透方法标注专业领域合成词的词性。实验结果表明,该方案能够有效地提高词性标注的准确率。 展开更多
关键词 词性标注 支持向量机 基于转换学习 合成词 领域自适应
下载PDF
基于规则的汉语兼类词标注方法 被引量:2
20
作者 李华栋 贾真 +1 位作者 尹红风 杨燕 《计算机应用》 CSCD 北大核心 2014年第8期2197-2201,共5页
针对目前汉语兼类词标注的准确率不高的问题,提出了规则与统计模型相结合的兼类词标注方法。首先,利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注;然后,将改进的互信息算法应用到词性(POS)标注规则的获取上,通过计算目... 针对目前汉语兼类词标注的准确率不高的问题,提出了规则与统计模型相结合的兼类词标注方法。首先,利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注;然后,将改进的互信息算法应用到词性(POS)标注规则的获取上,通过计算目标词前后词单元与目标词的相关性获得词性标注规则;最后,将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后,平均词性标注准确率提升了5%左右。 展开更多
关键词 词性标注 互信息 汉语兼类词 规则 中文信息处理
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部