期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
中文分词算法概述 被引量:39
1
作者 龙树全 赵正文 唐华 《电脑知识与技术》 2009年第4期2605-2607,共3页
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模... 当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。 展开更多
关键词 中文分词 全文检索 算法 搜索引擎 歧义切分
下载PDF
一种基于语境的中文分词方法研究 被引量:8
2
作者 张茂元 卢正鼎 邹春燕 《小型微型计算机系统》 CSCD 北大核心 2005年第1期129-133,共5页
汉语不同于英语 ,词之间没有间隔标记 .而汉语分词是文本分析的第一步 ,且存在歧义切分 ,因此分词问题成为汉语分析的首要难题 .通过中文切分过程的本质分析 ,推导并提出基于马尔可夫链的语境中文切分理论 ,进而提出一种语境中文分词方... 汉语不同于英语 ,词之间没有间隔标记 .而汉语分词是文本分析的第一步 ,且存在歧义切分 ,因此分词问题成为汉语分析的首要难题 .通过中文切分过程的本质分析 ,推导并提出基于马尔可夫链的语境中文切分理论 ,进而提出一种语境中文分词方法 .该方法建立在词法和句法基础上 ,从语境角度分析歧义字段 ,提高分词准确率 . 展开更多
关键词 语境 中文分词 马尔可夫链 歧义切分
下载PDF
中文分词技术综述 被引量:10
3
作者 冯俐 《现代计算机》 2018年第23期17-20,共4页
通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等统计结果,综述关于中文分词的算法、歧义词、未登录词和分词系统的相关研究内容,总结统计文献表现出的研... 通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等统计结果,综述关于中文分词的算法、歧义词、未登录词和分词系统的相关研究内容,总结统计文献表现出的研究发展趋势。 展开更多
关键词 中文分词 歧义词 未登录词 分词系统
下载PDF
基于二元关系分词模型解决歧义词切分 被引量:2
4
作者 万仲保 张赢 《微计算机信息》 2009年第21期168-169,155,共3页
歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率。对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出... 歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率。对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出了一种基于多元关系模型的能够有效解决歧义切分的中文分词系统模型并简要分析了这种模型未来的优化方向。 展开更多
关键词 汉语分词 歧义词切分 二元关系模型
下载PDF
词素位置概率在中文重叠歧义词识别中的作用 被引量:2
5
作者 曹海波 任亮 +2 位作者 韩丹 贾东立 王敬欣 《心理与行为研究》 CSSCI 北大核心 2022年第6期732-738,共7页
采用模糊词报告范式,探究词素位置概率在中文词汇识别中的作用。实验1操纵重叠歧义词(如“邮差距”)首、尾的词素位置概率,被试任务是快速报告重叠歧义词中间字的读音,结果发现,读者倾向于报告词素位置概率高的一侧字的读音。实验2操纵... 采用模糊词报告范式,探究词素位置概率在中文词汇识别中的作用。实验1操纵重叠歧义词(如“邮差距”)首、尾的词素位置概率,被试任务是快速报告重叠歧义词中间字的读音,结果发现,读者倾向于报告词素位置概率高的一侧字的读音。实验2操纵重叠歧义词(如“惹祸害”)首、尾的词素位置概率,被试任务是报告重叠歧义词其中的一个词,结果发现,读者倾向于报告词素位置概率高的一侧词的读音。结果表明,词素位置概率是中文词切分的有效线索,首、尾词素位置概率在词汇加工中均发挥了作用。 展开更多
关键词 词素位置概率 重叠歧义词 中文阅读 词切分
下载PDF
一种有效解决汉语歧义切分的方法 被引量:1
6
作者 朱鉴 张建 李淼 《计算机工程与应用》 CSCD 北大核心 2007年第11期175-177,共3页
提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正... 提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。 展开更多
关键词 有向图 统计模型 规则库 歧义字段 汉字切分
下载PDF
试析句子阅读中的分词加工——含“交集歧义”语段的非歧义句二语习得实验研究 被引量:2
7
作者 陈凡凡 《云南师范大学学报(对外汉语教学与研究版)》 2008年第3期19-25,共7页
文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信... 文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信息对分词的启动效应不明显;合词连写对句子理解的干扰性很大,是理解错误的主要原因。因此,适当增加分词连写的材料,有助于留学生理解句子,同时巩固和建构词的结构和界限,为阅读合词连写材料打下基础。 展开更多
关键词 交集歧义语段 分词加工 匹配方式 心理词汇
下载PDF
多种方法融合的中文自动分词系统的设计与实现
8
作者 郑炜冬 《韩山师范学院学报》 2009年第6期37-43,共7页
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的... 在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快. 展开更多
关键词 中文自动分词 最大匹配法 歧义切分 未登录词 分词词典 Visual-Prolog
下载PDF
基于非句处理的旅游业语言查询系统的研究与设计
9
作者 马婷婷 《电脑知识与技术》 2014年第12X期8754-8755,共2页
随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句... 随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。 展开更多
关键词 语音识别系统 非句 分词算法
下载PDF
交集型歧义字段切分方法研究 被引量:22
10
作者 闫引堂 周晓强 《情报学报》 CSSCI 北大核心 2000年第6期637-643,共7页
本文通过动态建立独立成词能力频次库的方法以及基于词语 /词性搭配的规则库 ,对交集型歧义字段进行处理 ,大大提高了切分正确率。在 4万语料的开放测试中 ,交集型歧义字段的切分正确率可达 98%以上。
关键词 汉语 自动分词 汉字切分 交集型 歧义 独立成词能力频次
下载PDF
三字歧义链自动分词方法 被引量:4
11
作者 张翠英 亢临生 《情报学报》 CSSCI 北大核心 1998年第3期203-207,共5页
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类。
关键词 歧义 分词系统 三字歧义链 自动分词 信息处理
下载PDF
论汉语语法改革及其对中文信息处理的促进作用
12
作者 陈海东 《微计算机信息》 2010年第24期212-214,共3页
本文引用各种例子,对汉语分词歧义类型进行分析,论述了汉语行文语法改革的必要性和改革方法,然后对汉语语法改革后的中文信息处理如字处理软件、汉语分词、计算机翻译等做了探讨。
关键词 分词歧义 词对齐 汉语语法改革 分词标点
下载PDF
字典与统计相结合的中文分词方法 被引量:42
13
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
消解中文三字长交集型分词歧义的算法 被引量:22
14
作者 孙茂松 左正平 黄昌宁 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第5期101-103,共3页
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了... 汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。 展开更多
关键词 中文信息处理 交集型分词歧义 消解算法
原文传递
结合局部歧义词网格与条件随机场的双层分词法 被引量:2
15
作者 陈雷 李淼 +1 位作者 张健 曾伟辉 《计算机科学与技术汇刊(中英文版)》 2013年第1期1-8,共8页
本文提出了一种结合局部歧义词网格与条件随机场的双层中文分词模型。首先在底层使用局部歧义词网格对文本进行粗切分,并将切分结果作为一项特征提供给高层的条件随机场模型;然后使用条件随机场模型对文本进行标注分词。局部歧义词网... 本文提出了一种结合局部歧义词网格与条件随机场的双层中文分词模型。首先在底层使用局部歧义词网格对文本进行粗切分,并将切分结果作为一项特征提供给高层的条件随机场模型;然后使用条件随机场模型对文本进行标注分词。局部歧义词网格方法能够检测分词过程中产生的歧义问题,条件随机场模型能够平衡对待词表词和未登录词。两种方法的结合能够较好地解决分词中的分词歧义和未登录词问题。本文在国际ee文分词评测活动Bakeoff2005提供的PKU和MSRA语料上对该双层分词模型进行了系统封闭测试,并进行了四字位标注集与六字位标注集的对比。实验结果的最佳F值分别达到了95.1%和97.1%,优于单独使用条件随机场的分词效果。此外,开放测试的实验结果表明该模型也具有一定的实际意义。 展开更多
关键词 局部歧义词网格 条件随机场 分词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部