字典与统计相结合的中文分词方法被引量：42

Chinese Word Segmentation Based on Dictionary and Statistics

下载PDF

导出

摘要提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. Proposed a method based on dictionary integrated with statistics. The method uses the segmentation method based on dictionary in the first step and then employs segmentation based on statistics to resolve ambiguity and unregistered words left over in the first step. An improved data structure of dictionary is employed to accelerate dictionary looking up speed in the first step, and during the second step, statistics integrated with rules is adopted in order to improve accuracy of crossing ambiguity division and to deal with the unregistered words. The integrity of Dsfenci System which is realized on the method proposed by this paper is 99.52%, the accuracy is 98.52%.

作者翟凤文赫枫龄左万利

机构地区吉林大学软件学院

出处《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60373099)资助.

关键词中文分词基于字典的分词基于统计的分词交集型分词歧义 chinese word segmentation chinese word segmentation based on dictionary chinese word segmentation based on statistical method crossing ambiguities in chinese word segmentation

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
2闫引堂,周晓强.交集型歧义字段切分方法研究[J].情报学报,2000,19(6):637-643. 被引量：22
3马玉春,宋瀚涛.Web中文文本分词技术研究[J].计算机应用,2004,24(4):134-135. 被引量：39
4韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
5谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
6李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108

二级参考文献15

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
4马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996.. 被引量：4
5.中国新闻社[EB/OL].http://www.chinanews.com.cn/,2003-10-01. 被引量：1
6Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491. 被引量：1
7Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56. 被引量：1
8梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52. 被引量：45
9张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：80
10刘挺,王开铸.关于歧义字段切分的思考与实验[J].中文信息学报,1998,12(2):63-64. 被引量：14

共引文献285

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
7徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
8普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
9崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
10曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18

同被引文献284

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
5黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
6于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
7苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3

引证文献42

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
3周军,王艳红.一种基于词典的中文分词法的设计与实现[J].黑龙江科技信息,2008(25):70-70. 被引量：5
4易军凯,颜婷婷.垃圾邮件的改进贝叶斯过滤算法[J].北京化工大学学报（自然科学版）,2008,35(6):93-97. 被引量：1
5孙铁利,李晓微,张妍.信息过滤中的中文自动分词技术研究[J].计算机工程与科学,2009,31(3):80-82. 被引量：7
6陈明华,殷景华,舒昌,王明江.基于正反向最大匹配分词系统的实现[J].信息技术,2009,33(6):124-127. 被引量：7
7张庆扬,柴胜.使用二级索引的中文分词词典[J].计算机工程与应用,2009,45(19):139-141. 被引量：10
8齐忠琪.智能化中文机械分词组件的设计[J].中国教育技术装备,2009(21):95-96.
9袁健,张劲松,马良.二次回溯中文分词方法[J].计算机应用研究,2009,26(9):3321-3323. 被引量：3
10赵春红,高希龙,王柠,赵威,刘国华.一种应用分治策略的中文分词方法[J].燕山大学学报,2009,33(5):444-449. 被引量：3

二级引证文献277

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
3包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
4杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
5俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
6李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
7游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59.
8蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
9杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
10苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14

1陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
2曹月雷,纪文彦,贾斌.词典与后缀数组相结合的中文分词方法[J].硅谷,2012,5(21):151-154. 被引量：2
3滕秋霞,杨金霄,方永佳.基于投票混合模型的中文地址分词研究[J].工业控制计算机,2015,28(11):105-106. 被引量：2
4孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报（自然科学版）,1999,39(5):101-103. 被引量：22
5熊泉浩.中文分词现状及未来发展[J].科技广场,2009(11):222-225. 被引量：7
6沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016,18(3):45-48. 被引量：2
7杨晓恝,蒋维,郝文宁.基于本体和句法分析的领域分词的实现[J].计算机工程,2008,34(23):26-28. 被引量：2
8李小龙.基于统计的分词系统字典模型研究[J].湖北工业大学学报,2010,25(5):71-73. 被引量：2
9刘挺,王开铸.关于歧义字段切分的思考与实验[J].中文信息学报,1998,12(2):63-64. 被引量：14
10羊毛卓玛,欧珠.一种改进的藏文分词交集型歧义消解方法[J].西藏科技,2012(1):66-68. 被引量：3

小型微型计算机系统

2006年第9期

浏览历史

内容加载中请稍等...

字典与统计相结合的中文分词方法被引量：42

参考文献6

二级参考文献15

共引文献285

同被引文献284

引证文献42

二级引证文献277

相关作者

相关机构

相关主题

浏览历史

字典与统计相结合的中文分词方法 被引量：42

参考文献6

二级参考文献15

共引文献285

同被引文献284

引证文献42

二级引证文献277

相关作者

相关机构

相关主题

浏览历史

字典与统计相结合的中文分词方法被引量：42