基于二进制串的Trie索引树分词词典机制的研究被引量：1

Research on Dictionary Mechanism Based on Binary of Trie Index Trees

下载PDF

导出

摘要分词词典是信息处理系统的一个基本组成部分,其查询效率将直接影响信息处理系统的性能。根据信息在计算机内都是以二进制编码存放的原理,本文把对字符串的处理转化成对二进制串的处理(支持任何语言的字符串),建立基于Trie索引树的分词词典机制。可以根据不同应用系统需求,自动调整二进制串的长度,建立不同的Trie树结构,便于在存储空间和查询效率之间寻找合适的平衡点。这种基于索引的查询速度与词库中词的多少无关,只与词本身的长度有关系;并且公共的前缀索引值随着词汇量的增大而节省大量内存空间。 The dictionary mechanism serves as one of the basic components in Chinese word segmentation system. Its performance influences the segmentation speed significantly. Based on binary system, processing of text（ any language string） can be conver- ted into a binary processing, a mechanism of the Tile index tree dictionary can be created. According to different application re- quirements, the dictionary mechanism can automatically adjust the structure of the Tile which can help to find the right balance between storage space and query efficiency. The query speed of this dictionary mechanism is nothing to do with the total word number of dictionary, only influenced by the word length ; Common prefix of the index value with the increase of vocabulary save a lot of memory space.

作者韩莹丰继林袁静王茂发张艳霞陈福明陈新房潘志安

机构地区防灾科技学院灾害信息工程系清华大学计算机科学与技术系

出处《计算机与现代化》 2013年第1期5-7,共3页 Computer and Modernization

关键词信息处理分词词典机制 Trie索引树 Chinese information processing Chinese word segmentation dictionary mechanism Trie

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献16

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2殷人昆等编著..数据结构用面向对象方法与C++描述[M].北京:清华大学出版社,1999:402.
3Douglas Schmidt. GPERF: A Perfect Hash Function Gen- erator[ EB/OL]. http://citeseerx, ist. psu. edu/viewdoc/ summary? doi = 10.1.1.34. 1056, 2012-08-03. 被引量：1
4杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：30
5温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
6吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
7Kazuhiro M, E1-Sayed A, Masao F, et al. Fast and com- pact updating algorithms of a double-array structure [ J ]. Information Sciences, 2004,159 (1-2) :53-67. 被引量：1
8王秀坤,李政,简幼良,刘剑.基于Hash方法的机器翻译词典的组织与构造[J].大连理工大学学报,1996,36(3):352-355. 被引量：12
9孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
10李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108

二级参考文献36

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
3骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
4王秀坤,李政,简幼良,刘剑.基于Hash方法的机器翻译词典的组织与构造[J].大连理工大学学报,1996,36(3):352-355. 被引量：12
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
7李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996.. 被引量：4
10Asahara M,Goh C L, Wang X J, et al. Combining segmenter and chunker for Chinese word segmentation[ C]//Proceedings of Second SIGHAN Workshop on Chinese Language Processing.2003:144-147. 被引量：1

共引文献300

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
5范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
6马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
7黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
8曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
9于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
10崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2

同被引文献13

1姚奇富,李翠凤,马华林,张森.灰色系统理论和马尔柯夫链相结合的网络流量预测方法[J].浙江大学学报（理学版）,2007,34(4):396-400. 被引量：44
2张晓利.基于小波分析与神经网络的交通流短时预测方法[J].信息与控制,2007,36(4):467-470. 被引量：8
3聂佩林,余志,何兆成.基于约束卡尔曼滤波的短时交通流量组合预测模型[J].交通运输工程学报,2008,8(5):86-90. 被引量：38
4陈岳明,萧德云.基于动态交通分配的路网应急疏散模型[J].清华大学学报（自然科学版）,2009(8):1102-1105. 被引量：19
5靳引利.基于交通量演变模式检索的高速公路交通量预测方法[J].公路交通科技,2010,27(1):116-121. 被引量：6
6朱中,杨兆升.实时交通流量人工神经网络预测模型[J].中国公路学报,1998,11(4):89-92. 被引量：61
7田刚,李南.江苏省物流货运量灰色预测及灰色关联研究[J].价格月刊,2010(4):83-85. 被引量：6
8樊娜,赵祥模,戴明,安毅生.短时交通流预测模型[J].交通运输工程学报,2012,12(4):114-119. 被引量：30
9赵玲,许宏科.基于新维无偏灰色马尔可夫的交通事故预测[J].计算机工程与应用,2013,49(7):35-38. 被引量：17
10张兴强,汪滢,胡庆华.交叉口混合交通流元胞自动机模型及仿真研究[J].物理学报,2014,63(1):82-89. 被引量：27

引证文献1

1尹素素,严凌.基于二进制序列索引的灰色马尔科夫交通流量预测模型[J].天津师范大学学报（自然科学版）,2016,36(2):33-38. 被引量：2

二级引证文献2

1南爱强,王锋宪.经典灰色理论和马尔科夫链的交通量预测模型构建[J].微型电脑应用,2018,34(7):85-87. 被引量：4
2刘成勇,万伟强,陈蜀喆,甘浪雄.基于灰色马尔科夫模型的船舶交通流预测[J].中国航海,2018,41(3):95-100. 被引量：13

1高文利,高元先.基于三数组Trie索引树词典查询机制的分词系统[J].情报杂志,2009,28(2):69-71. 被引量：2
2孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
3马志强,周长胜,丁维,杨娜.自扩充中文分词词典的研究与实现[J].计算机与数字工程,2007,35(6):143-146. 被引量：3
4魏进,常朝稳.单数组全映射分词词典[J].计算机工程与应用,2007,43(23):184-186. 被引量：4
5许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.
6高文利,李德华.基于三数组Trie索引树的词典查询机制[J].现代图书情报技术,2007(7):76-78. 被引量：1
7翟伟斌,周振柳,蒋卓明,许榕生.汉语分词词典设计[J].计算机工程与应用,2007,43(1):1-2. 被引量：11
8原佳丽,杨仁广,孟祥增.快速双向中文分词算法[J].山东师范大学学报（自然科学版）,2009,24(1):75-77.
9彭焕峰,丁宋涛.一种基于全Hash的整词二分词典机制[J].计算机工程,2011,37(21):40-42. 被引量：2
10罗洋.一种基于双哈希二叉树的中文分词词典机制[J].计算机应用与软件,2013,30(5):251-253. 被引量：4

计算机与现代化

2013年第1期

浏览历史

内容加载中请稍等...

基于二进制串的Trie索引树分词词典机制的研究被引量：1

参考文献16

二级参考文献36

共引文献300

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于二进制串的Trie索引树分词词典机制的研究 被引量：1

参考文献16

二级参考文献36

共引文献300

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于二进制串的Trie索引树分词词典机制的研究被引量：1