基于双层哈希表的中文分词算法优化被引量：2

Optimization of Chinese Word Segmentation Algorithm Based on Double-Hash

下载PDF

导出

摘要采用基于词典的正向增字最大匹配算法,分词词典采用改进的双层哈希表加动态数组的数据结构。在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,一定程度上提高了中文分词的速度和效率。 Chinese word segmentation is the key point of Chinese Natural language processing,the words dictionary＇s data structure directly influences speed and efficiency of the segmentation.In order to enhance the search speed of the dictionary,the algorithm is based on forward maximum match,words dictionary＇s data structure is Improved Double-Hashtable and dynamic array in this system.It can increase speed and efficiency,but do not enhance the space complexity and maintenance complexity of words dictionary.

作者习明王增辉庄怡

机构地区吉林农业大学信息技术学院武汉纺织大学计算机科学学院

出处《软件导刊》 2010年第10期54-55,共2页 Software Guide

关键词自然语言处理中文分词最大匹配算法双哈希表 Natural Language Processing Chinese Word Segmentation Maximum Matching Word Method Double-Hash

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1廖名学,范植华.基于素数序列的Java哈希表性能优化[J].计算机工程与应用,2008,44(3):108-109. 被引量：3
2向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
3李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
4陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26

二级参考文献34

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
3王张宜,李波,张焕国.Hash函数的安全性研究[J].计算机工程与应用,2005,41(12):18-19. 被引量：26
4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
5徐凤刚,许俊奎,潘清.可扩展Hash方法的一种改进算法[J].计算机工程与应用,2006,42(4):95-97. 被引量：3
6毕秀丽,王晅,肖斌,袁益民.一种基于HASH变换的循环散列分档排序算法[J].计算机工程与应用,2006,42(14):50-51. 被引量：3
7陈军,韦鹏程,张伟,杨华千.基于RBF神经网络和混沌映射的Hash函数构造[J].计算机科学,2006,33(8):198-201. 被引量：3
8唐红,吴勇军,赵国锋.用于特定流匹配的随机矩阵映射Hash算法研究[J].通信学报,2007,28(2):17-22. 被引量：3
9马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996.. 被引量：4
10Sun MicroSystems.Java SE Downloads[EB/OL].[2007-06-15].http://java.sun.com/javase/downloads/index.jsp. 被引量：1

共引文献154

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
4滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
5温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
6马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
7冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
8解析慧聪资讯有限公司的经营策略[J].人才资源开发,2005(8):39-40.
9钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.
10于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4

同被引文献22

1李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
2王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5
3孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
4邹智敏,郭荷清,高英.一种对英文字符串进行分词的方法[J].计算机应用研究,2007,24(7):52-54. 被引量：2
5徐哲,刘循.贝叶斯决策树在英文现在分词词性识别中的应用[J].计算机应用,2009,29(9):2571-2574. 被引量：6
6张雪英,闾国年,李伯秋,陈文君.基于规则的中文地址要素解析方法[J].地球信息科学,2010,12(1):9-16. 被引量：73
7李宏波.词典与统计相结合的中文分词算法研究[J].武汉理工大学学报（信息与管理工程版）,2010,32(6):907-909. 被引量：7
8马照亭,李志刚,孙伟,印洁.一种基于地址分词的自动地理编码算法[J].测绘通报,2011(2):59-62. 被引量：28
9程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J].地理与地理信息科学,2011,27(3):26-29. 被引量：48
10赵阳阳,王亮,仇阿根.地址要素识别机制的地名地址分词算法[J].测绘科学,2013,38(5):74-76. 被引量：25

引证文献2

1李新放,宋转玲,陈学业,贺彪,刘海行.K叉树地址的模糊匹配研究与实现[J].测绘通报,2018(9):126-129. 被引量：6
2李一,刘纪平,罗安.深度学习的中文地址切分算法[J].测绘科学,2018,43(10):107-111. 被引量：6

二级引证文献11

1李净,朱贵鲜,周亮,郑西川.基于标志词的正向自适应长度匹配的地址分词算法与缺失地址要素补充方法[J].中国医疗设备,2019,34(4):112-114. 被引量：1
2王勇,罗安,曹元晖,刘纪平.语义因子支持的多源POI分类信息一致化处理[J].测绘科学,2019,44(6):285-290. 被引量：5
3程博,李卫红,童昊昕.基于BiLSTM-CRF的中文层级地址分词[J].地球信息科学学报,2019,21(8):1143-1151. 被引量：15
4张平,曾伟东,汪艳霞,陈建,黄磊.基于业务联动的地名地址数据协同更新方法[J].城市勘测,2020,0(1):9-12. 被引量：8
5张弘弢,肖炼,周尧,赵东保.多源在线地理编码与地名检索服务聚合方法[J].地理与地理信息科学,2020,36(4):1-7. 被引量：7
6徐兵,石少青,陈超.基于自然语言的中文地址匹配研究[J].电子设计工程,2020,28(16):7-10. 被引量：4
7殷滋伟,张伟,王佳慧,马利民.面向地址数据基于ISM理论构建数据清洗规则链方法研究[J].北京信息科技大学学报（自然科学版）,2021,36(6):87-92. 被引量：1
8郁汀,王铎,陈钦.基于伪语义相似度模型的中文地址匹配方法[J].测绘通报,2022(3):101-106. 被引量：1
9卢春阳,沈雯.基于空间数据库的地名地址动态更新系统设计[J].测绘技术装备,2022,24(3):120-124.
10刘啸婵,丁宗玮,戴煜炜,刘晓川.中文地名地址匹配方法综述[J].测绘与空间地理信息,2023,46(9):64-67.

1向永红,李甦,袁勇,林毓材,赵景秀.串的最大匹配算法[J].计算机工程与科学,2003,25(4):72-74. 被引量：4
2郑德权.汉语自动分词最大匹配算法的改进[J].中文信息,1998,15(12):101-101. 被引量：2
3胡明.最大匹配算法在校园网信息提取中的应用[J].洛阳师范学院学报,2015,34(8):82-85.
4张卫华.C语言中动态数组的定义[J].电脑知识与技术（过刊）,1999,6(2):19-19.
5段春笋,杜立新.C#中动态数组设计原理[J].电脑编程技巧与维护,2005(7):24-25. 被引量：5
6赵明军.Turbo Pascal动态数组的实现方法[J].计算机世界月刊,1993(1):58-58.
7陈宣钱.BASIC语言中动态,数组的实现[J].中华学习机,1990(4):2-3.
8毕世红.用C语言中的指针模拟动态数组[J].计算机应用,1993,13(5):59-60.
9马良.Turbo Pascal与Turbo C动态数组的一种用法[J].微型计算机,1993,13(3):71-72.
10沈新.关于《浅谈C语言的模拟动态数组》的讨论[J].新浪潮,1992(3):62-63.

软件导刊

2010年第10期

浏览历史

内容加载中请稍等...

基于双层哈希表的中文分词算法优化被引量：2

参考文献4

二级参考文献34

共引文献154

同被引文献22

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于双层哈希表的中文分词算法优化 被引量：2

参考文献4

二级参考文献34

共引文献154

同被引文献22

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于双层哈希表的中文分词算法优化被引量：2