期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
最大概率分词问题及其解法 被引量:16
1
作者 刘挺 吴岩 王开铸 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1998年第6期37-41,共5页
提出了一种新的汉语自动分词算法,该算法运用人工智能中的问题求解技术,先将汉语句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列.
关键词 自然语言理解 自动分词 汉语分词 最大概率分词
下载PDF
汉语分词技术综述 被引量:9
2
作者 熊回香 夏立新 《图书情报工作》 CSSCI 北大核心 2008年第4期81-84,共4页
首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自... 首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。 展开更多
关键词 汉语自动分词 中文全文检索 文献自动标引 自然语言检索
原文传递
基于知网语义相关度计算的词义消歧方法 被引量:10
3
作者 王广正 王喜凤 《安徽工业大学学报(自然科学版)》 CAS 2008年第1期71-75,共5页
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在... 歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在规则的完备性与合理性问题,统计消歧则只取大概率事件而忽视小概率事件。在研究了知网表达汉语知识的基础上,改进了基于知网语义相关度的计算模型,并应用于汉语的歧义字段处理中。经大量例句作实验,以句子为单位的切分正确率可达到97.1%,验证了该消歧方法的有效性。 展开更多
关键词 汉语自动分词 词义消歧 语义相关度 知网
下载PDF
一种改进的高效分词词典机制 被引量:8
4
作者 王东 陈笑蓉 《贵州大学学报(自然科学版)》 2007年第4期380-384,389,共6页
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字... 汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。 展开更多
关键词 汉语自动分词 Hash索引算法 中文信息处理
下载PDF
基于最大熵模型的交集型切分歧义消解 被引量:6
5
作者 张锋 樊孝忠 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期590-593,共4页
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过... 利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 展开更多
关键词 中文信息处理 汉语自动分词 交集型歧义 最大熵模型
下载PDF
一种基于规则优先级的词性标注方法 被引量:4
6
作者 王广正 王喜凤 《安徽工业大学学报(自然科学版)》 CAS 2008年第4期426-429,共4页
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对... 词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注。并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%。 展开更多
关键词 汉语自动分词 词性标注 兼类词 规则优先级
下载PDF
自动答疑系统中文自动分词模块设计与实现 被引量:3
7
作者 江耿豪 《现代计算机》 2010年第2期8-10,14,共4页
中文自动分词模块是自动答疑系统的一个重要功能模块。在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词... 中文自动分词模块是自动答疑系统的一个重要功能模块。在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词的表示、构建分词词典、检索分词词典和分词谓词的实现。 展开更多
关键词 自动答疑系统 中文自动分词 分词词典 Visual—Prolog
下载PDF
隐式分词的中文输入法及其实现 被引量:1
8
作者 蒋发群 周经野 曹娟 《湘潭大学自然科学学报》 CAS CSCD 2003年第3期26-29,130,共5页
提出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法.该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本.这为解决长期困扰中文信息处理... 提出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法.该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本.这为解决长期困扰中文信息处理的分词此问题找到了一个可行的办法. 展开更多
关键词 输入法 分词连写 汉语自动分浏 中文信息处理
下载PDF
基于动态规划算法单字估价值的中文自动分词研究 被引量:1
9
作者 李艳秋 李成城 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2010年第2期202-205,共4页
提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估价值,将分词问题转换为... 提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估价值,将分词问题转换为决策树求最优解问题,采用动态规划选取最优路径,从而确保切分结果的整体估价值最优. 展开更多
关键词 自然语言处理 自动分词 动态规划 估价值
下载PDF
一种面向中文信息检索的汉语自动分词方法 被引量:7
10
作者 孙巍 《现代图书情报技术》 CSSCI 北大核心 2006年第7期33-36,共4页
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词 中文信息检索 汉语自动分词 词典 互联网 正反向最大增字匹配法
下载PDF
汉语自动分词方法 被引量:32
11
作者 殷建平 《计算机工程与科学》 CSCD 1998年第3期60-66,共7页
本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词 汉语自动分词 词库 分词算法 中文信息处理
下载PDF
浅谈汉语自动分词的几种方法
12
作者 王希杰 赵晓凡 《价值工程》 2011年第13期176-177,共2页
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和... 汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。 展开更多
关键词 汉语自动分词 词库 分词算法
下载PDF
一种中文分词词典新机制——四字哈希机制 被引量:16
13
作者 张培颖 李村合 《微型电脑应用》 2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一... 词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 展开更多
关键词 中文信息处理 自动分词 分词词典 四字哈希
下载PDF
一种组合型中文分词方法 被引量:11
14
作者 郑晓刚 韩立新 +1 位作者 白书奎 曾晓勤 《计算机应用与软件》 CSCD 北大核心 2012年第7期26-28,39,共4页
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
关键词 中文信息处理 中文自动分词 组合型分词
下载PDF
一种基于双哈希二叉树的中文分词词典机制 被引量:4
15
作者 罗洋 《计算机应用与软件》 CSCD 北大核心 2013年第5期251-253,306,共4页
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说... 汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。 展开更多
关键词 中文信息处理 自动分词 词典 哈希 二叉树 索引
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部