期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
回溯正向匹配中文分词算法 被引量:16
1
作者 张劲松 袁健 《计算机工程与应用》 CSCD 北大核心 2009年第22期132-134,共3页
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹... 在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。 展开更多
关键词 中文分词 最大匹配法 回溯匹配 交集型歧义
下载PDF
基于统计规则的交集型歧义处理方法 被引量:9
2
作者 翟凤文 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2006年第2期223-228,共6页
中文分词是中文信息处理的基础,歧义问题是中文分词的一个难点,而交集型歧义问题占歧义问题的90%以上,因此对交集型歧义问题的研究是中文分词研究的一个重点.通过反复的实验和对实验结果的分析,提出了5条规则,并根据这5条规则给出了一... 中文分词是中文信息处理的基础,歧义问题是中文分词的一个难点,而交集型歧义问题占歧义问题的90%以上,因此对交集型歧义问题的研究是中文分词研究的一个重点.通过反复的实验和对实验结果的分析,提出了5条规则,并根据这5条规则给出了一种针对交集型歧义字段切分的算法,实验结果表明,基于该算法实现的分词系统DSfenci,对于交集型歧义消解的准确率高于95.22%. 展开更多
关键词 交集型歧义 规则 统计
下载PDF
改进的正向最大匹配分词算法 被引量:11
3
作者 张彩琴 袁健 《计算机工程与设计》 CSCD 北大核心 2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模... 为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。 展开更多
关键词 正向最大匹配算法 交集型歧义 预处理 互信息 分词碎片
下载PDF
中文分词中的歧义识别处理策略 被引量:6
4
作者 魏莎莎 熊海灵 《微计算机信息》 2010年第30期190-192,共3页
中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。歧义现象出现频繁,是目前中文分词的一大难题。本文通过介绍歧义存在的种类,分别介绍了目前各种歧义识别的处理策略,就各种策略进行了比较分析,以及... 中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。歧义现象出现频繁,是目前中文分词的一大难题。本文通过介绍歧义存在的种类,分别介绍了目前各种歧义识别的处理策略,就各种策略进行了比较分析,以及指出未来的研究方向。 展开更多
关键词 中文分词 交集型歧义 组合型歧义 歧义识别
下载PDF
自适应分词算法中的未登录词识别技术研究 被引量:5
5
作者 程冲 黄水清 《情报学报》 CSSCI 北大核心 2009年第4期530-536,共7页
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识... 深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题。在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%。 展开更多
关键词 汉语分词 未登录词识别 交集型歧义 汉语分词系统
下载PDF
MIS智能接口中汉语分词系统的设计与应用 被引量:5
6
作者 谈文蓉 杨宪泽 +1 位作者 谈进 刘莉 《计算机科学》 CSCD 北大核心 2006年第7期204-206,共3页
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法... 提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。 展开更多
关键词 MIS 自动分词 切分歧义 交集型歧义 组合型歧义
下载PDF
一种快速的交集型歧义检测方法 被引量:3
7
作者 刘健 张维明 《计算机应用研究》 CSCD 北大核心 2008年第11期3259-3261,共3页
中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中的交集型歧义。经实验验... 中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中的交集型歧义。经实验验证,该方法在精度与速度两方面均能满足大规模语料的处理。 展开更多
关键词 中文分词 交集型歧义 最长交集字段
下载PDF
二次回溯中文分词方法 被引量:3
8
作者 袁健 张劲松 马良 《计算机应用研究》 CSCD 北大核心 2009年第9期3321-3323,共3页
在最大匹配法(MM)的基础上,提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段;利用长词优先兼顾二词簇的方式对交集型歧... 在最大匹配法(MM)的基础上,提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段;利用长词优先兼顾二词簇的方式对交集型歧义字段进行切分,并对难点的多链长交集型歧义字段进行有效发现和切分。从随机抽取的大量语料实验结果上证明了该方法的有效性。 展开更多
关键词 中文分词 回溯匹配 交集型歧义 多链长 碎片检查
下载PDF
基于组合型中文分词技术的改进 被引量:2
9
作者 梁胜 成卫青 《南京邮电大学学报(自然科学版)》 北大核心 2013年第6期112-117,共6页
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一。文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了... 在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一。文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义。最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率。 展开更多
关键词 中文信息处理 组合型分词 交集型歧义
下载PDF
一种规则与统计相结合的汉语分词方法 被引量:35
10
作者 赵伟 戴新宇 +1 位作者 尹存燕 陈家骏 《计算机应用研究》 CSCD 北大核心 2004年第3期23-25,共3页
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。
关键词 中文信息处理 分词 语料库 交集型歧义
下载PDF
基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19
11
作者 李蓉 刘少辉 +1 位作者 叶世伟 史忠植 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页
本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义... 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 展开更多
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法
下载PDF
消解中文三字长交集型分词歧义的算法 被引量:22
12
作者 孙茂松 左正平 黄昌宁 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第5期101-103,共3页
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了... 汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。 展开更多
关键词 中文信息处理 交集型分词歧义 消解算法
原文传递
用基于词的二元模型消解交集型分词歧义 被引量:7
13
作者 陈小荷 《南京师大学报(社会科学版)》 CSSCI 北大核心 2004年第6期109-113,共5页
解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明... 解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明显的提高。 展开更多
关键词 中文信息处理 基于词的二元模型 交集型分词歧义
下载PDF
试析句子阅读中的分词加工——含“交集歧义”语段的非歧义句二语习得实验研究 被引量:2
14
作者 陈凡凡 《云南师范大学学报(对外汉语教学与研究版)》 2008年第3期19-25,共7页
文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信... 文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信息对分词的启动效应不明显;合词连写对句子理解的干扰性很大,是理解错误的主要原因。因此,适当增加分词连写的材料,有助于留学生理解句子,同时巩固和建构词的结构和界限,为阅读合词连写材料打下基础。 展开更多
关键词 交集歧义语段 分词加工 匹配方式 心理词汇
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部