期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
最大概率分词问题及其解法
被引量:
16
1
作者
刘挺
吴岩
王开铸
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
1998年第6期37-41,共5页
提出了一种新的汉语自动分词算法,该算法运用人工智能中的问题求解技术,先将汉语句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列.
关键词
自然语言理解
自动分词
汉语分词
最大概率分词
下载PDF
职称材料
汉语分词技术综述
被引量:
9
2
作者
熊回香
夏立新
《图书情报工作》
CSSCI
北大核心
2008年第4期81-84,共4页
首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自...
首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。
展开更多
关键词
汉语自动分词
中文全文检索
文献自动标引
自然语言检索
原文传递
基于知网语义相关度计算的词义消歧方法
被引量:
10
3
作者
王广正
王喜凤
《安徽工业大学学报(自然科学版)》
CAS
2008年第1期71-75,共5页
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在...
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在规则的完备性与合理性问题,统计消歧则只取大概率事件而忽视小概率事件。在研究了知网表达汉语知识的基础上,改进了基于知网语义相关度的计算模型,并应用于汉语的歧义字段处理中。经大量例句作实验,以句子为单位的切分正确率可达到97.1%,验证了该消歧方法的有效性。
展开更多
关键词
汉语自动分词
词义消歧
语义相关度
知网
下载PDF
职称材料
一种改进的高效分词词典机制
被引量:
8
4
作者
王东
陈笑蓉
《贵州大学学报(自然科学版)》
2007年第4期380-384,389,共6页
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字...
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。
展开更多
关键词
汉语自动分词
Hash索引算法
中文信息处理
下载PDF
职称材料
基于最大熵模型的交集型切分歧义消解
被引量:
6
5
作者
张锋
樊孝忠
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2005年第7期590-593,共4页
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过...
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.
展开更多
关键词
中文信息处理
汉语自动分词
交集型歧义
最大熵模型
下载PDF
职称材料
一种基于规则优先级的词性标注方法
被引量:
4
6
作者
王广正
王喜凤
《安徽工业大学学报(自然科学版)》
CAS
2008年第4期426-429,共4页
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对...
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注。并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%。
展开更多
关键词
汉语自动分词
词性标注
兼类词
规则优先级
下载PDF
职称材料
自动答疑系统中文自动分词模块设计与实现
被引量:
3
7
作者
江耿豪
《现代计算机》
2010年第2期8-10,14,共4页
中文自动分词模块是自动答疑系统的一个重要功能模块。在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词...
中文自动分词模块是自动答疑系统的一个重要功能模块。在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词的表示、构建分词词典、检索分词词典和分词谓词的实现。
展开更多
关键词
自动答疑系统
中文自动分词
分词词典
Visual—Prolog
下载PDF
职称材料
隐式分词的中文输入法及其实现
被引量:
1
8
作者
蒋发群
周经野
曹娟
《湘潭大学自然科学学报》
CAS
CSCD
2003年第3期26-29,130,共5页
提出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法.该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本.这为解决长期困扰中文信息处理...
提出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法.该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本.这为解决长期困扰中文信息处理的分词此问题找到了一个可行的办法.
展开更多
关键词
输入法
分词连写
汉语自动分浏
中文信息处理
下载PDF
职称材料
基于动态规划算法单字估价值的中文自动分词研究
被引量:
1
9
作者
李艳秋
李成城
《内蒙古师范大学学报(自然科学汉文版)》
CAS
2010年第2期202-205,共4页
提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估价值,将分词问题转换为...
提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估价值,将分词问题转换为决策树求最优解问题,采用动态规划选取最优路径,从而确保切分结果的整体估价值最优.
展开更多
关键词
自然语言处理
自动分词
动态规划
估价值
下载PDF
职称材料
一种面向中文信息检索的汉语自动分词方法
被引量:
7
10
作者
孙巍
《现代图书情报技术》
CSSCI
北大核心
2006年第7期33-36,共4页
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词
中文信息检索
汉语自动分词
词典
互联网
正反向最大增字匹配法
下载PDF
职称材料
汉语自动分词方法
被引量:
32
11
作者
殷建平
《计算机工程与科学》
CSCD
1998年第3期60-66,共7页
本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词
汉语自动分词
词库
分词算法
中文信息处理
下载PDF
职称材料
浅谈汉语自动分词的几种方法
12
作者
王希杰
赵晓凡
《价值工程》
2011年第13期176-177,共2页
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和...
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
展开更多
关键词
汉语自动分词
词库
分词算法
下载PDF
职称材料
一种中文分词词典新机制——四字哈希机制
被引量:
16
13
作者
张培颖
李村合
《微型电脑应用》
2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一...
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。
展开更多
关键词
中文信息处理
自动分词
分词词典
四字哈希
下载PDF
职称材料
一种组合型中文分词方法
被引量:
11
14
作者
郑晓刚
韩立新
+1 位作者
白书奎
曾晓勤
《计算机应用与软件》
CSCD
北大核心
2012年第7期26-28,39,共4页
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
关键词
中文信息处理
中文自动分词
组合型分词
下载PDF
职称材料
一种基于双哈希二叉树的中文分词词典机制
被引量:
4
15
作者
罗洋
《计算机应用与软件》
CSCD
北大核心
2013年第5期251-253,306,共4页
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说...
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。
展开更多
关键词
中文信息处理
自动分词
词典
哈希
二叉树
索引
下载PDF
职称材料
题名
最大概率分词问题及其解法
被引量:
16
1
作者
刘挺
吴岩
王开铸
机构
哈尔滨工业大学计算机系
出处
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
1998年第6期37-41,共5页
文摘
提出了一种新的汉语自动分词算法,该算法运用人工智能中的问题求解技术,先将汉语句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列.
关键词
自然语言理解
自动分词
汉语分词
最大概率分词
Keywords
Artificial
intelligence
natural
language
understanding
chinese
automatic
word segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语分词技术综述
被引量:
9
2
作者
熊回香
夏立新
机构
华中师范大学信息管理系
出处
《图书情报工作》
CSSCI
北大核心
2008年第4期81-84,共4页
基金
国家社会科学基金项目"基于中文XML文档的全文检索研究"(项目编号:04CTQ005)研究成果之一。
文摘
首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。
关键词
汉语自动分词
中文全文检索
文献自动标引
自然语言检索
Keywords
chinese
automatic
word segmentation
chinese
full-text
retrieval
document
auto-index
natural
language
retrieval
分类号
H146 [语言文字—汉语]
原文传递
题名
基于知网语义相关度计算的词义消歧方法
被引量:
10
3
作者
王广正
王喜凤
机构
安徽工业大学计算机学院
出处
《安徽工业大学学报(自然科学版)》
CAS
2008年第1期71-75,共5页
基金
安徽工业大学计算机学院青年教师科研资助项目
文摘
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在规则的完备性与合理性问题,统计消歧则只取大概率事件而忽视小概率事件。在研究了知网表达汉语知识的基础上,改进了基于知网语义相关度的计算模型,并应用于汉语的歧义字段处理中。经大量例句作实验,以句子为单位的切分正确率可达到97.1%,验证了该消歧方法的有效性。
关键词
汉语自动分词
词义消歧
语义相关度
知网
Keywords
chinese
automatic
word segmentation
word
sense
disambiguation
(WSD)
semantic
relevancy
Hownet
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的高效分词词典机制
被引量:
8
4
作者
王东
陈笑蓉
机构
贵州大学计算机科学与技术学院
出处
《贵州大学学报(自然科学版)》
2007年第4期380-384,389,共6页
基金
贵州省教育厅自然科学研究项目(2004102)
文摘
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。
关键词
汉语自动分词
Hash索引算法
中文信息处理
Keywords
chinese
automatic
word segmentation
hash
index
algorithm
chinese
information
processing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于最大熵模型的交集型切分歧义消解
被引量:
6
5
作者
张锋
樊孝忠
机构
北京理工大学信息科学技术学院计算机科学工程系
出处
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2005年第7期590-593,共4页
文摘
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.
关键词
中文信息处理
汉语自动分词
交集型歧义
最大熵模型
Keywords
chinese
information
processing
chinese
automatic
word segmentation
overlapping
ambiguity
strings
maximum
entropy
model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于规则优先级的词性标注方法
被引量:
4
6
作者
王广正
王喜凤
机构
安徽工业大学计算机学院
出处
《安徽工业大学学报(自然科学版)》
CAS
2008年第4期426-429,共4页
文摘
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注。并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%。
关键词
汉语自动分词
词性标注
兼类词
规则优先级
Keywords
chinese
automatic
word segmentation
POS
tagging
syntactic
category
priority
of
rules
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自动答疑系统中文自动分词模块设计与实现
被引量:
3
7
作者
江耿豪
机构
韩山师范学院教育系
出处
《现代计算机》
2010年第2期8-10,14,共4页
基金
广东省本科高等教育教学改革项目(NoBKJG200746)
文摘
中文自动分词模块是自动答疑系统的一个重要功能模块。在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词的表示、构建分词词典、检索分词词典和分词谓词的实现。
关键词
自动答疑系统
中文自动分词
分词词典
Visual—Prolog
Keywords
automatic
Answering
System
chinese
automatic
word segmentation
word segmentation
Lexicon
Visual-Prolog
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
隐式分词的中文输入法及其实现
被引量:
1
8
作者
蒋发群
周经野
曹娟
机构
湘潭大学信息工程学院
出处
《湘潭大学自然科学学报》
CAS
CSCD
2003年第3期26-29,130,共5页
文摘
提出了一种隐式分词的中文输入法,并应用分词技术和输入法技术实现了这种隐式分词的中文输入法.该输入法在用户输入中文文本的同时进行分词,并形成包含分词信息的计算机文本以作为中文信息处理的标准文本.这为解决长期困扰中文信息处理的分词此问题找到了一个可行的办法.
关键词
输入法
分词连写
汉语自动分浏
中文信息处理
Keywords
chinese
input
approach
link
writing
for
chinese
word
chinese
automatic
word segmentation
chinese
information
processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于动态规划算法单字估价值的中文自动分词研究
被引量:
1
9
作者
李艳秋
李成城
机构
内蒙古师范大学计算机与信息工程学院
出处
《内蒙古师范大学学报(自然科学汉文版)》
CAS
2010年第2期202-205,共4页
基金
国家自然科学基金资助项目(2002AA117010-07)
教育部
国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-022)
文摘
提出一种基于动态规划算法单字估价值的中文自动分词的研究方法,使用该方法对大量语料进行统计,通过分析四字词及四字词以下词单字的出现位置和出现次数,把出现概率转换为估价值.根据单字的出现位置和该位置的估价值,将分词问题转换为决策树求最优解问题,采用动态规划选取最优路径,从而确保切分结果的整体估价值最优.
关键词
自然语言处理
自动分词
动态规划
估价值
Keywords
natural
language
processing
chinese
automatic
word segmentation
dynamic
programming
evaluation
value
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种面向中文信息检索的汉语自动分词方法
被引量:
7
10
作者
孙巍
机构
黑龙江大学信息管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2006年第7期33-36,共4页
文摘
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词
中文信息检索
汉语自动分词
词典
互联网
正反向最大增字匹配法
Keywords
chinese
information
retrieval
chinese
automatic
word segmentation
Dictionary
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语自动分词方法
被引量:
32
11
作者
殷建平
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
1998年第3期60-66,共7页
文摘
本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词
汉语自动分词
词库
分词算法
中文信息处理
Keywords
chinese
language
automatic
word segmentation
,lexicon,
word segmentation
algorithm.
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
浅谈汉语自动分词的几种方法
12
作者
王希杰
赵晓凡
机构
安阳师范学院
出处
《价值工程》
2011年第13期176-177,共2页
文摘
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词
汉语自动分词
词库
分词算法
Keywords
chinese
language
automatic
word segmentation
lexicon
word segmentation
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种中文分词词典新机制——四字哈希机制
被引量:
16
13
作者
张培颖
李村合
机构
中国石油大学(华东)计算机与通信工程学院
出处
《微型电脑应用》
2006年第10期35-36,55,共3页
文摘
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。
关键词
中文信息处理
自动分词
分词词典
四字哈希
Keywords
chinese
information
processing
automatic
word segmentation
segmentation
dictionary
Four-character-hash-indexing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种组合型中文分词方法
被引量:
11
14
作者
郑晓刚
韩立新
白书奎
曾晓勤
机构
河海大学计算机与信息学院
出处
《计算机应用与软件》
CSCD
北大核心
2012年第7期26-28,39,共4页
基金
国家自然科学基金项目(60673186
60971088)
江苏省高校"青蓝工程"中青年学术带头人培养对象资助项目
文摘
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
关键词
中文信息处理
中文自动分词
组合型分词
Keywords
chinese
information
processing
chinese
word
automatic
segmentation
Combination-type
word segmentation
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种基于双哈希二叉树的中文分词词典机制
被引量:
4
15
作者
罗洋
机构
鞍山师范学院高职院
出处
《计算机应用与软件》
CSCD
北大核心
2013年第5期251-253,306,共4页
文摘
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。
关键词
中文信息处理
自动分词
词典
哈希
二叉树
索引
Keywords
chinese
information
processing
automatic
word segmentation
Dictionary
Hash
Binary
tree
Index
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
最大概率分词问题及其解法
刘挺
吴岩
王开铸
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
1998
16
下载PDF
职称材料
2
汉语分词技术综述
熊回香
夏立新
《图书情报工作》
CSSCI
北大核心
2008
9
原文传递
3
基于知网语义相关度计算的词义消歧方法
王广正
王喜凤
《安徽工业大学学报(自然科学版)》
CAS
2008
10
下载PDF
职称材料
4
一种改进的高效分词词典机制
王东
陈笑蓉
《贵州大学学报(自然科学版)》
2007
8
下载PDF
职称材料
5
基于最大熵模型的交集型切分歧义消解
张锋
樊孝忠
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2005
6
下载PDF
职称材料
6
一种基于规则优先级的词性标注方法
王广正
王喜凤
《安徽工业大学学报(自然科学版)》
CAS
2008
4
下载PDF
职称材料
7
自动答疑系统中文自动分词模块设计与实现
江耿豪
《现代计算机》
2010
3
下载PDF
职称材料
8
隐式分词的中文输入法及其实现
蒋发群
周经野
曹娟
《湘潭大学自然科学学报》
CAS
CSCD
2003
1
下载PDF
职称材料
9
基于动态规划算法单字估价值的中文自动分词研究
李艳秋
李成城
《内蒙古师范大学学报(自然科学汉文版)》
CAS
2010
1
下载PDF
职称材料
10
一种面向中文信息检索的汉语自动分词方法
孙巍
《现代图书情报技术》
CSSCI
北大核心
2006
7
下载PDF
职称材料
11
汉语自动分词方法
殷建平
《计算机工程与科学》
CSCD
1998
32
下载PDF
职称材料
12
浅谈汉语自动分词的几种方法
王希杰
赵晓凡
《价值工程》
2011
0
下载PDF
职称材料
13
一种中文分词词典新机制——四字哈希机制
张培颖
李村合
《微型电脑应用》
2006
16
下载PDF
职称材料
14
一种组合型中文分词方法
郑晓刚
韩立新
白书奎
曾晓勤
《计算机应用与软件》
CSCD
北大核心
2012
11
下载PDF
职称材料
15
一种基于双哈希二叉树的中文分词词典机制
罗洋
《计算机应用与软件》
CSCD
北大核心
2013
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部