-
题名基于HMM的柯尔克孜语词性标注的研究
被引量:1
- 1
-
-
作者
陈莉
古丽拉.阿东别克
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
2014年第15期120-124,共5页
-
基金
国家自然科学基金(No.61063025)
-
文摘
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。
-
关键词
柯尔克孜语
自动分词词典
隐马尔可夫模型(HMM)
词性标注
-
Keywords
Kirghiz
automatic words segmentation dictionary
Hidden Markov Model(HMM)
part-of-speech tagging
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名单数组全映射分词词典
被引量:4
- 2
-
-
作者
魏进
常朝稳
-
机构
解放军信息工程大学电子技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第23期184-186,共3页
-
基金
公安部金盾工程资助项目
-
文摘
通过研究和分析目前几种典型的分词词典机制:整词二分、TRIE索引树、逐字二分及双字哈希,提出并实现了新的单数组全映射(SAFM)分词词典。该词典具有构造简单,分词速度快,占用空间小的优点。
-
关键词
中文信息处理
汉语自动分词
汉语自动分词词典机制
单数组全映射
-
Keywords
Chinese information processing
Chinese word segmentation
dictionary mechanism for Chinese word segmentation
single array full mapping
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于变型B-树的中文自动分词词典机制
被引量:1
- 3
-
-
作者
吴昊
潘无名
王硕
杨博
-
机构
四川大学计算机学院
-
出处
《技术与市场》
2007年第4期37-38,共2页
-
文摘
中文自动分词技术是许多中文智能领域尤其是中文信息的数据净化和数据挖掘的基础技术,而分词词典又是影响到中文自动分词的重要因素。本文针对中文地址数据净化和挖掘的具体需要提出了一种新的词典机制,即基于首字HASH,逐字二分和变型B-树的词典,从而明显提高了对短词的处理速度。
-
关键词
分词
B-树
二分查找
中文自动分词词典
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种高效的个性化中文分词词典
被引量:1
- 4
-
-
作者
刘珂
任翔
-
机构
泰山学院物理与电子科学系
重庆大学计算机学院
-
出处
《泰山学院学报》
2007年第6期91-95,共5页
-
基金
高等学校博士学科点专项科研基金资助课题(20030611016)
-
文摘
Web个性化服务的核心技术之一是准确描述用户兴趣的用户模型,通过用户行为来挖掘用户兴趣是这一领域研究的重要手段.该文为了对Web个性化服务中用户浏览文档进行分析研究,采用了一种新型的个性化分词词典,通过实验证明是切实可行的,并且极大提高了系统的效率.
-
关键词
中文信息处理
汉语自动分词词典机制
个性化
-
Keywords
Chinese information processing
dictionary mechanism for Chinese word segmentation
personaliza-tion
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-