基于PATRICIA tree的汉语自动分词词典机制被引量：30

PATRICIA-tree based Dictionary Mechanism for Chinese Word Segmentation

下载PDF

导出

摘要分词词典是汉语信息处理系统的一个基本组成部分 ,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIAtree的数据结构 ,设计了一种可以对词典词条进行快速查询、更新的分词词典机制 ,并从理论上初步分析了它的性能。最后通过实验 ,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明 ,基于PATRICIAtree的分词词典机制具有更高的查询速度和更新效率 ,能满足大规模、开放文本处理系统的需求。 The dictionary mechanism is the basic component of Chinese informationprocessing systems,and its efficiency will greatly affect the performances of those systems.Based on the data structure of PATRICIA tree,this paper designed a new PATRICIA tree based dictionary mechanism.Firstly,the paper presents the primary function analysis of this PATRICIA tree based dictionary mechanism.Then a comparison is given between PATRICIA tree based and binary seek by characters dictionary mechanism.All the results prove that the PATRICIA tree based dictionary mechanism is better than recently used dictionary mechanisms in many aspects such as the efficiency of retireving and modifing the words and more suitable for the large scale Chinese text processing systems.

作者杨文峰陈光英李星

机构地区清华大学电子工程系

出处《中文信息学报》 CSCD 北大核心 2001年第3期44-49,共6页 Journal of Chinese Information Processing

基金 8 6 3计划!(86 3- 30 6 -ZD0 2 - 0 2 - 7)

关键词信息检索 PATRICA TREE 汉语自动分词信息处理 information retrieval PATRICIA tree Chinese word segmentation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
2严蔚敏,吴伟民..数据结构第2版[M].北京:清华大学出版社,1992:340.

二级参考文献2

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52. 被引量：45

共引文献117

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
4崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
7钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.
8蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
9翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
10王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1

同被引文献135

1马哲,姚敏.一种改进的基于PATRICIA树的汉语自动分词词典机制[J].华南理工大学学报（自然科学版）,2004,32(z1):28-31. 被引量：3
2张烈材.特斯尼埃的《结构句法基础》简介[J].当代语言学,1985(2):19-21. 被引量：12
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
9余战秋.中文分词技术及其应用初探[J].电脑知识与技术（认证考试）,2004(11M):81-83. 被引量：11
10张彦,邵志清.具有概念联想功能的特定领域分词词典的自动构建[J].计算机工程,2004,30(20):148-150. 被引量：3

引证文献30

1李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
2曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
3金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
4钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.
5蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
6杨春花,万建成,姜合.书面汉语全切分中的重复切分研究[J].小型微型计算机系统,2006,27(3):520-523.
7杨春花,张洁,胡芳立.一个书面汉语词库系统的设计与实现[J].山东轻工业学院学报（自然科学版）,2006,20(2):29-34.
8王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
9李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
10吴昊,潘无名,王硕,杨博.一种基于变型B-树的中文自动分词词典机制[J].技术与市场,2007,14(4):37-38. 被引量：1

二级引证文献136

1简玲,叶天鹏,林祥,谢方军.多源融合的大数据网络安全态势感知平台研究与探索[J].信息网络安全,2020(S02):139-143. 被引量：8
2董坤,张海霞,刘艳梅,李洋.宽带卫星网络安全态势感知技术研究[J].信息网络安全,2020(S02):98-101. 被引量：2
3丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：4
4李国涛.破解征地拆迁难题的几点思考初探[J].新商务周刊,2019,0(9):181-181.
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
7乐娟.基于Trie树的京剧术语语义词典[J].计算机工程,2011,37(S1):30-32. 被引量：3
8张辉丽,孟昭鹏,王慧芝.汉语自动分词中的歧义处理[J].微计算机应用,2006,27(6):685-688. 被引量：3
9路永刚,赵伟.一种改进的MM分词方法的研究与实现[J].长春工业大学学报,2006,27(4):320-323. 被引量：3
10杨来,何清,许立达,史忠植.Dynamic Hash TRIE算法的研究与分析[J].广西师范大学学报（自然科学版）,2008,26(1):134-138.

1马哲,姚敏.一种改进的基于PATRICIA树的汉语自动分词词典机制[J].华南理工大学学报（自然科学版）,2004,32(z1):28-31. 被引量：3
2陈杰,薛质,单蓉胜.一种基于Patricia树的检测Syn Flood攻击的方法[J].计算机工程,2004,30(13):26-28. 被引量：4
3孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
4魏进,常朝稳.单数组全映射分词词典[J].计算机工程与应用,2007,43(23):184-186. 被引量：4
5张飞飞,李华伟,韩银和.一种无回溯的最长前缀匹配搜索算法[J].计算机工程,2008,34(10):52-54. 被引量：1
6李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
7刘珂,任翔.一种高效的个性化中文分词词典[J].泰山学院学报,2007,29(6):91-95. 被引量：1
8马达,王佳强.一种基于压缩FP-树的最大频繁项集挖掘算法[J].长春理工大学学报（自然科学版）,2009,32(3):457-461. 被引量：3
9何长林,张蕾.基于PATRICIA树的NetFlow数据蠕虫病毒分析[J].自动化与仪器仪表,2015(1):135-136 138.
10蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3

中文信息学报

2001年第3期

浏览历史

内容加载中请稍等...

基于PATRICIA tree的汉语自动分词词典机制被引量：30

参考文献2

二级参考文献2

共引文献117

同被引文献135

引证文献30

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

基于PATRICIA tree的汉语自动分词词典机制 被引量：30

参考文献2

二级参考文献2

共引文献117

同被引文献135

引证文献30

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

基于PATRICIA tree的汉语自动分词词典机制被引量：30