基于邻接字符对的三元后缀树全文索引模型被引量：1

Three Dimensional Suffix Tree Full-text Index Model Based on Adjacent Character Pair

下载PDF

导出

摘要传统后缀树全文索引模型的索引建立复杂、难以维护,且空间消耗大。为此,提出一种改进的后缀树全文索引模型。将一棵完整后缀树划分为若干个三元后缀树,从而简化后缀树的组织结构,便于其建立和维护索引。将邻接字符对的公共前缀作为后缀树的根结点,以降低模型的空间消耗,提高查询效率。实验结果表明,与传统模型相比,该模型具有较高的时空效率。 Because of indexical high complexity of establishment,superior difficulty of maintenance and high consumption of space,an improved suffix tree full-text index model is proposed for those drawbacks of the traditional one.It divides the relatively large suffix tree into several Three Dimensional Suffix Tree（3DST）.It makes the establishment and maintenance of index more convenient and faster by simplifying the structure of the suffix tree.Meanwhile,the improved model reduces the space and increases time and space efficiency by making the common prefix of Adjacent Character Pair（ACP） root node of the suffix tree.Experimental result shows that the improved model has a higher space and time efficiency than the traditional one.

作者姚全珠赵凯郭梁涛

机构地区西安理工大学计算机科学与工程学院

出处《计算机工程》 CAS CSCD 2012年第18期42-44,49,共4页 Computer Engineering

关键词后缀树全文索引邻接字符对三元后缀树公共前缀时空效率 suffix tree； full-text index； Adjacent Character Pair（ACP）； Three Dimensional Suffix Tree（3DST）； common prefix； time and space efficiency

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Zobel J, Moffat A. Inverted Files for Text Search Engines[J]. ACM Computing Surveys, 2006, 38(2): 1-56. 被引量：1
2Carterette B, Can F. Comparing Inverted Files and Signature Files for Searching a Large Lexicon[J]. Information Processing and Management, 2005, 41(3): 613-633. 被引量：1
3申展,江宝林,陈祎,唐磊,胡运发.全文检索模型综述[J].计算机科学,2004,31(5):61-64. 被引量：12
4Moffat A, Puglisi S J, Sinha R. Reducing Space Requirements for Disk Resident Suffix Arrays[C]//Proc. of the 14th International Conference of Database Systems for Advanced Applications. Brisbane, Australia: [s. n.], 2009: 730-744. 被引量：1
5Kim D K, Kim M, Park H. Linearized Suffix Tree: An Efficient Index Data Structure with the Capabilities of Suffix Trees and Suffix Arrays[J]. Algorithmica, 2008, 52(3): 350-377. 被引量：1
6姚全珠,张楠,杨增辉,田元.基于压缩后缀数组技术的搜索引擎[J].计算机工程,2008,34(10):83-85. 被引量：2
7刘小珠,彭智勇.全文索引技术时空效率分析[J].软件学报,2009,20(7):1768-1784. 被引量：17
8周水庚,胡运发,关佶红.基于邻接矩阵的全文索引模型(英文)[J].软件学报,2002,13(10):1933-1942. 被引量：10

二级参考文献37

1刘小珠,孙莎,曾承,彭智勇.基于缓存的倒排索引机制研究[J].计算机研究与发展,2007,44(z3):153-158. 被引量：8
2姚全珠,丁晓剑,任雪利,张志锋.一种新的基于XML的索引机制[J].计算机工程,2006,32(15):90-92. 被引量：5
3[1]Zeng Haiquan, Shen Zhan, Hu Yunfa. Mining Sequence Pattern from Time Series Based on Inter-Relevant Successive Trees Model. In:Proc. of 9th. Intl. Conf. on Rough Sets, Fuzzy Sets,Data Mining and Granular Computing (RSFDGrC'2003), LNCS/LNAI, Spring-Verlag, Chongqing, China, 2003 被引量：1
4[3]Knuth D E. The Art of Computer Programming, Sorting and Searching. 1st edition. Addision-Wesley Pub. Co. , 1973 被引量：1
5[4]Weiner P. Linear pattern matching algorithm. In: Proc. 14th IEEE Symposium on Switching and Automata Theory, 1973.1～11 被引量：1
6[5]Manber U,Myers E. Suffix arrays: A new method for on-line string searches. In: Proc. of the FISTREE Ann. ACM-SIAM Symp. on Discrete Algorithms, 1990. 319～327 被引量：1
7[6]Hu Yunfa, Zhou Shuigeng. A New Model of Chinese Full-text databases. In: Proc. World Multiconference on Systemics,Cybernetics and Informatics, Florida, USA, 2001. 528～533 被引量：1
8[7]Tao Xiaopeng, Hu Yunfa, Zhou Shuigeng. Subsequent Array: A New Full Text Index. In: Proc. World Multiconference on Systemics, Cybernetics and Informatics, Florida, USA, 2001. 551～556 被引量：1
9[11]Zobel J, Moffat A, Ramamohanarao K. Inverted files versus signature files for text indexing. Transactions on Database Systems,1998,23(4): 453～490 被引量：1
10[12]Grossi R, Vitter J S. Compressed suffix arrays and suffix trees with applications to text indexing and string matching (extendedabstract). STOC 2000. 397～406, 1999 被引量：1

共引文献36

1郭琦娟,陈通照.全文检索系统中动态更新索引结构的设计与实现[J].计算机工程与科学,2006,28(z2):18-20.
2聂文琪.面向中文的全文索引模型的比较[J].武汉交通职业学院学报,2007,9(3):76-80.
3聂文琪.全文索引模型探析[J].武汉交通职业学院学报,2006,8(1):73-75.
4郭琦娟,陈通照.全文检索系统中动态索引技术的研究[J].微型电脑应用,2006,22(11):11-12.
5郭琦娟,陈通照.一种动态更新索引结构的设计与实现[J].计算机系统应用,2006,15(12):76-79. 被引量：2
6郭琦娟,陈通照.全文检索系统中动态索引技术的研究[J].计算机与数字工程,2007,35(1):40-42. 被引量：2
7刘小珠,彭智勇.全文索引技术时空效率分析[J].软件学报,2009,20(7):1768-1784. 被引量：17
8张立岩,吕玲,王井阳.基于最大熵算法的全文检索研究[J].河北科技大学学报,2009,30(2):112-115. 被引量：6
9刘鹏,康建初,诸彤宇.导航终端中的兴趣点数据压缩检索技术[J].计算机工程,2009,35(14):81-83. 被引量：3
10李朝鹏,成运.并行无存储冲突的邻接矩阵算法[J].电脑知识与技术,2009,5(9):7201-7202.

同被引文献27

1索引工作的性质与索引工作者劳动的性质[J].中国索引,2004,2(3):2-3. 被引量：7
2四种索引标准综述[J].中国索引,2005,3(1):2-4. 被引量：4
3史睿.索引与知识发现[J].中国索引,2006,4(1):2-9. 被引量：6
4温国强,张敏,仇琛（译）,侯汉清（校）.情报工作和文献工作——索引的内容、组织和表示准则(国际标准ISO 999:1996)[J].中国索引,2006,4(2):39-53. 被引量：7
5百度百科.大数据[DB/OL].[2013-07-01].http://baike.baidu.com/view/6954399.htm. 被引量：1
6百度百科.非结构化数据[DB/OL].[2013-07-01].http://baike.baidu.com/view/2119114.htm. 被引量：1
7百度百科.非聚簇索引[DB/OL].[2013-07-01].http://baike.baidu.com/view/1615249.htm. 被引量：1
8百度百科.文献计量学[DB/OL].[2013-07-01].http://baike.baidu.com/view/40533.htm. 被引量：1
9张琪玉.关于我国实施索引员资格认证和专业培训的思考[J].中国索引,2009,7(1):2-3. 被引量：2
10吴飞,庄越挺.互联网跨媒体分析与检索:理论与算法[J].计算机辅助设计与图形学学报,2010,22(1):1-9. 被引量：35

引证文献1

1朱晓霄.大数据时代索引员的使命[J].中国索引,2013,11(4):38-43. 被引量：4

二级引证文献4

1李珍连.“大数据”时代图书馆员角色定位及职业能力提升策略探讨[J].广西教育,2015,0(27):167-168. 被引量：5
2王兰成,黄永勤.近十年我国融合数据库索引研究成果的知识图谱分析[J].中国索引,2015,13(4):14-21.
3任云妹.艺术学门类学科视野下科研成果分类初探——以天津部分高校为例[J].艺术与设计（理论版）,2016(9):148-150. 被引量：3
4龚笑寒.大数据时代图书馆员数据素养的提升策略研究[J].河南图书馆学刊,2016,36(10):118-119. 被引量：3

1张红梅,范明钰.模式匹配BM算法改进[J].计算机应用研究,2009,26(9):3249-3252. 被引量：15
2黄影.一种有效的后缀树建立方法[J].电子科技,2013,26(10):73-75.
3买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江.维吾尔文后缀树构造算法的设计与实现[J].计算机工程与应用,2013,49(8):9-11.
4黄晨晖,林泳琴.基于后缀结构进行数据块优化的重复数据删除系统[J].计算机系统应用,2010,19(11):75-78. 被引量：1
5王卫红,李君.基于局部变化性的改进编辑距离算法[J].计算机工程,2015,41(7):294-298. 被引量：3
6钱忠胜,缪淮扣.面向用户会话的Web应用测试用例生成及其优化[J].计算机科学与探索,2008,2(6):627-640. 被引量：4
7翟玉梅,魏衍君.入侵检测系统的融合模式匹配算法[J].价值工程,2012,31(18):172-173.
8刘学文,陶晓鹏,于玉,胡运发.一种全新的全文索引模型——后继数组模型[J].软件学报,2002,13(1):150-158. 被引量：11
9周文鹃,刘自伟,陈昌平.基于DC3算法的非编码区序列最大串联重复识别[J].兵工自动化,2009,28(3):42-44. 被引量：1
10方媛,车启凤.基于后缀数组技术识别网络热点话题的研究[J].信息与电脑（理论版）,2013,0(8):141-142.

计算机工程

2012年第18期

浏览历史

内容加载中请稍等...

基于邻接字符对的三元后缀树全文索引模型被引量：1

参考文献8

二级参考文献37

共引文献36

同被引文献27

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于邻接字符对的三元后缀树全文索引模型 被引量：1

参考文献8

二级参考文献37

共引文献36

同被引文献27

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于邻接字符对的三元后缀树全文索引模型被引量：1