基于改进Trie树结构的正向最大匹配算法被引量：11

FORWARD MAXIMUM MATCHING ALGORITHM BASED ON IMPROVED TRIE TREE STRUCTURE

下载PDF

导出

摘要提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。 In this paper we present an improved Trie tree structure,the tree node records the position information of the character in forming a word,the sub-node uses hash searching mechanism,and based on this basis we optimise the forward maximum matching algorithm（ FFM） for Chinese word segmentation. In segmentation process we utilise automata mechanism to judge whether the longest word is formed, this solves the problem that the forward maximum matching algorithm requires to adjust the character string according to the length of the word. The time complexity of the algorithm is 1. 33,the contrast experimental results show that there is the faster word segmentation speed. The forward maximum matching algorithm based on the improved Trie tree structure improves the speed of Chinese word segmentation,and is particularly suitable for the situations where the lexicon structure requires real-time update.

作者熊志斌朱剑锋

机构地区琼州学院电子信息工程学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第5期276-278,共3页 Computer Applications and Software

基金海南省教育厅基金项目(Hjkj201137) 三亚市院地合作项目(2011YD19)

关键词中文信息处理分词正向最大匹配算法 Chinese information processing Word segmentation Forward maximum matching algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
2奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
3孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
4王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
5陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56
6吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
7李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
8严蔚敏吴伟民.数据结构[M].北京：清华大学出版社,1994.. 被引量：35
9Thomas H Cormen,Charles E Leiserson, Ronald L Rivest,等.算法导论[M].北京:机械工业出版社,2006. 被引量：10

二级参考文献50

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
7张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1
8徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
9骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
10王秀坤,李政,简幼良,刘剑.基于Hash方法的机器翻译词典的组织与构造[J].大连理工大学学报,1996,36(3):352-355. 被引量：12

共引文献381

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
3游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59.
4李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
7崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
8丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
9文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
10温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19

同被引文献92

1吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
2崔尚森,冯博琴.最长前缀匹配查找的索引分离trie树结构及其算法[J].计算机工程与应用,2005,41(20):131-134. 被引量：5
3李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
4宋文,张剑,邵燕.顶层本体研究[J].图书馆理论与实践,2006(1):43-45. 被引量：9
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
7李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
8李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007,28(3):530-531. 被引量：7
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10卢林兰,李明.利用ontology实现的多库知识获取方法[J].计算机工程与设计,2007,28(15):3731-3733. 被引量：1

引证文献11

1王晓丽,邓达康,孟祥龙,唐先明,郭攀红,林畅松.基于领域本体的油气勘探开发知识获取模式及实现[J].东北石油大学学报,2016,40(4):74-79. 被引量：1
2刘超,王卫东.基于双哈希词典机制中文分词的研究[J].信息技术,2016,40(11):152-156. 被引量：1
3付蝶.基于自适应混合中继协议的网络安全研究[J].信息技术,2018,42(10):94-98. 被引量：1
4蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛.基于领域词典的动态规划分词算法[J].南京理工大学学报,2019,43(1):63-71. 被引量：16
5杨光豹,杨丰赫,毛贵军.基于分组hash与变长匹配的中文分词技术[J].计算机时代,2019(4):52-55. 被引量：1
6朱钟元,杨莹,薛醒思,詹先银,王家华,范淑娟,刘艳萍.基于改进正向最大匹配算法的股票资讯新闻自动标注技术[J].宝鸡文理学院学报（自然科学版）,2019,39(1):58-62.
7杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.
8熊健,翟紫姹.基于词性标注与分词消歧的中文分词方法[J].广州大学学报（自然科学版）,2019,18(5):27-33. 被引量：3
9张恒源.基于Trie树的最大长度匹配分词的Python实现[J].电子制作,2020,28(18):56-58. 被引量：1
10董永强.一种带改进密钥样本函数的Trie树算法[J].许昌学院学报,2021,40(2):98-102.

二级引证文献25

1蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
2杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
3杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.
4于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：38
5潘锋.面向信道编码的OFDM系统PAPR抑制研究[J].舰船电子工程,2019,39(10):113-116. 被引量：1
6朱咸军,洪宇,黄雅琳,张馨予,肖芳雄.基于HMM的算法优化在中文分词中的应用[J].金陵科技学院学报,2019,35(3):1-7. 被引量：6
7张亚娜,高子婷,胡溢,杨成.融媒体新闻生产中的中文评论关键词提取[J].人工智能,2020(2):57-66. 被引量：4
8陈美,李顿伟,高洪美,吴小丽.基于深度学习的《辞海》分词方法[J].现代计算机,2020,26(16):60-64. 被引量：2
9Hang Zhang,Bin Wen.Construction of Word Segmentation Model Based on HMM+BI-LSTM[J].国际计算机前沿大会会议论文集,2020(2):47-61.
10刘哲,马乐荣.基于淘宝平台的笔记本电脑商品知识发现[J].延安大学学报（自然科学版）,2020,39(4):63-66. 被引量：1

1姚兴山.基于哈希算法的中文分词算法的改进[J].图书情报工作,2008,52(6):60-62. 被引量：6
2李建军,熊选东,谭晓贞.基于多环的Chord改进算法[J].计算机工程,2010,36(2):116-118. 被引量：6
3李红斌.词典结构及其在编译构造中的应用[J].计算机研究与发展,1991,28(7):53-55.
4蔡蕊.一种改进的基于Hash的中文分词算法研究[J].福建电脑,2010,26(2):69-70. 被引量：3
5郝海涛.基于向量机的文本分类中词典结构研究[J].福建电脑,2009,25(3):83-84.
6於文刚,于春玲.分布式哈希查找模型的研究[J].电脑编程技巧与维护,2010(4):3-4.
7叶继平,张桂珠.中文分词词典结构的研究与改进[J].计算机工程与应用,2012,48(23):139-142. 被引量：12
8潘楠,王勇,陶晓玲.一种基于SNMP的链路层拓扑发现算法[J].计算机工程,2012,38(2):103-105. 被引量：6
9廉佐政,王海珍.基于对等网络的分布式哈希查找机制的研究[J].齐齐哈尔大学学报（自然科学版）,2006,22(1):53-55.
10杨建军.论三维动画片中的影调思维[J].艺术科技,2013,26(12):68-68.

计算机应用与软件

2014年第5期

浏览历史

内容加载中请稍等...

基于改进Trie树结构的正向最大匹配算法被引量：11

参考文献9

二级参考文献50

共引文献381

同被引文献92

引证文献11

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于改进Trie树结构的正向最大匹配算法 被引量：11

参考文献9

二级参考文献50

共引文献381

同被引文献92

引证文献11

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于改进Trie树结构的正向最大匹配算法被引量：11