期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种基于EM非监督训练的自组织分词歧义解决方案 被引量:14
1
作者 王伟 钟义信 +1 位作者 孙建 杨力 《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次... 本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 ) 展开更多
关键词 EM算法 分词歧义 非监督训练 分词语言模型 歧义消除 汉语处理 训练算法 分词算法
下载PDF
基于N-gram的双向匹配中文分词方法 被引量:12
2
作者 凤丽洲 杨贵军 +1 位作者 徐雪 徐玉慧 《数理统计与管理》 CSSCI 北大核心 2020年第4期633-643,共11页
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型... 针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值。 展开更多
关键词 N-GRAM模型 分词歧义 评测指标 双向匹配
原文传递
基于无监督学习的专业领域分词歧义消解方法 被引量:7
3
作者 修驰 宋柔 《计算机应用》 CSCD 北大核心 2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵... 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。 展开更多
关键词 专业领域分词 分词歧义 字符串频次 互信息 边界熵
下载PDF
基于Hash结构词典的逆向回溯中文分词技术研究 被引量:5
4
作者 梁桢 李禹生 《计算机工程与设计》 CSCD 北大核心 2010年第23期5158-5160,F0003,共4页
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一... 为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。 展开更多
关键词 中文分词 哈希结构 尾字词典 逆向最大匹配算法 分词歧义 逆向回溯算法
下载PDF
不同水平留学生汉语切分歧义识别实验研究 被引量:4
5
作者 杨万兵 蒋利平 《语言教学与研究》 CSSCI 北大核心 2012年第3期10-17,共8页
通过初、中级汉语水平留学生切分歧义识别实验研究,我们发现:(1)切分歧义识别时,汉语水平主效应显著,链长主效应显著;(2)初级学生链长为1和2的识别错误率无显著差异,而中级学生链长为1的识别错误率高于链长为2的;(3)初、中级学生各链长... 通过初、中级汉语水平留学生切分歧义识别实验研究,我们发现:(1)切分歧义识别时,汉语水平主效应显著,链长主效应显著;(2)初级学生链长为1和2的识别错误率无显著差异,而中级学生链长为1的识别错误率高于链长为2的;(3)初、中级学生各链长的修改率和修改正确率都呈"链长2>链长1>链长3"的趋势;(4)切分歧义识别时,中级学生利用语境进行调整的意识和能力均更强,且更多采取自上而下的阅读模式。 展开更多
关键词 切分歧义 链长 词语识别 汉语水平
原文传递
汉语自动分词中切分歧义及处理技术 被引量:1
6
作者 王中立 《许昌学院学报》 CAS 2006年第2期118-121,共4页
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.
关键词 自动分词 切分 切分歧义
下载PDF
音字转换中分层解码模型的研究与改进 被引量:2
7
作者 张顺昌 孙乐 《中文信息学报》 CSCD 北大核心 2009年第6期79-85,共7页
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识... 音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。 展开更多
关键词 人工智能 自然语言处理 音字转换 HMM模型 中文信息处理 切分歧义
下载PDF
基于词性信息的汉语时间语词消歧算法
8
作者 代建英 何中市 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第9期53-56,共4页
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,... 切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%. 展开更多
关键词 自然语言处理 切分歧义 时间语词 词性信息 统计语言模型
下载PDF
MIS智能接口中汉语分词系统的设计与应用 被引量:5
9
作者 谈文蓉 杨宪泽 +1 位作者 谈进 刘莉 《计算机科学》 CSCD 北大核心 2006年第7期204-206,共3页
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法... 提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。 展开更多
关键词 MIS 自动分词 切分歧义 交集型歧义 组合型歧义
下载PDF
面向新时代的人民日报语料中文分词歧义分析 被引量:3
10
作者 彭秋茹 王东波 黄水清 《情报科学》 CSSCI 北大核心 2021年第11期103-109,共7页
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报... 【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词歧义的问题,但缺少与旧语料的对比分析。 展开更多
关键词 中文分词 分词歧义 新时代人民日报分词语料 切分变异 中文信息处理
原文传递
经济学等知识文本的深度表示学习 被引量:2
11
作者 程兵 邢玲 闫强 《计量经济学报》 2022年第1期58-80,共23页
本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中... 本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中隐含表达的信息重构出来.本文的主要贡献是两个方面,第一方面是使用统计方法评估BERT模型的表示能力;第二方面是利用BERT模型来处理中文句子分词的歧义模糊困难问题.在第一方面:我们的发现:一是BERT模型的表示能力的确很充足,即使是针对数十万的文本数据,也可以获得较好的向量表示效果,这说明了BERT模型已经预留了充足的表示向量空间来包含各种复杂的语言结构,我们发现BERT模型的不同层深度的表示向量表示了语言知识的不同层次信息,其中第1层表示了单字和单词的信息,而深度越深,表示向量则越接近表示文本的整体语言知识(从中文的词组,再到句子段落,直到文档以及文档之间的主题语言信息);二是发现语义相近的句子在BERT向量空间也是处于相近的空间领域,这说明整个BERT向量表示空间是自适应地将相似的语言组织安排在相近的子空间中.在第二方面,我们巧妙地利用了这个BERT模型的MASK机制,该机制允许模型的输入句子中将部分的词随意隐藏掉,但模型依然能够自适应地预测被隐藏部分的表示向量,通过比较正确分词以及错误分词masked后的句子表示向量,我们能够正确地识别出来哪一种分词方法是正确的,平均准确率达到66.875%. 展开更多
关键词 深度学习 表示学习 分布式表示 BERT模型 PCA主成分 语言相似性 分词歧义识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部