基于邻接矩阵的全文索引模型(英文) 被引量：10

Adjacency Matrix Based Full-Text Indexing Models

下载PDF

导出

摘要文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用. With the rapid growth of online text information and user accesses, query-processing efficiency has become the major bottleneck of information retrieval (IR) systems. This paper proposes two new full-text indexing models to improve query-processing efficiency of IR systems. By using directed graph to represent text string, the adjacency matrix of text string is introduced. Two approaches are proposed to implement the adjacency matrix of text string, which leads to two new full-text indexing models, i.e., adjacency matrix based inverted file and adjacency matrix based PAT array. Query algorithms for the new models are developed and performance comparisons between the new models and the traditional models are carried out. Experiments over real-world text collections are conducted to validate the effectiveness and efficiency of the new models. The new models can improve query-processing efficiency considerably at the cost of much less amount of extra storage overhead compared to the size of original text database, so are suitable for applications of large-scale text databases.

作者周水庚胡运发关佶红

机构地区复旦大学计算机科学与工程系复旦大学计算机与信息技术系武汉大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2002年第10期1933-1942,共10页 Journal of Software

基金国家自然科学基金No.60173027 湖北省自然科学基金No.2001ABB050~

关键词邻接矩阵全文索引模型倒排文 PAT数组信息检索系统 information retrieval full-text indexing inverted file PAT array adjacency matrix model

分类号 G354.45 [文化科学—情报学]

引文网络
相关文献

参考文献9

1Baesa-Yates, R., Ribeiro-Neto, B.Modern Information Retrieval. Reading, M A: Addison Wesley, 1999. 被引量：1
2Sullivan, D. Search Engine Watch. http://www.searchenginewatch.com. 被引量：1
3AltaVista, http://www.altavista.com. 被引量：1
4周水庚..中文文本数据库若干关键技术研究[D].复旦大学,2000:
5Tomasic, A., Garcia-Molina, H., Shoens, K. Incremental updates of inverted listsfor text document retrieval. In: Snodgrass, R.T., Winslett, M., eds. Proc eedings of theSIGMOD'94. New York: ACM Press, 1994. 289～300. 被引量：1
6Ribeiro-Neto, B.A., Silva de Moura, E., Neubert, M.S., Ziviani, N. Efficie ntdistributed algorithms to build inverted files. In: Hearst, M., Tong, R., eds .Proceedings of the SIGIR'99. New York: ACM Press, 1999. 105～112 被引量：1
7Faloutsos, C. Signature-Based text retrieval methods: a survey. Data Engin eeringBulletin, 1990,13(1):25～32. 被引量：1
8Manber, U., Myers, E. Suffix arrays: a new method for on-line string searc hes.SIAM Journal of Computing, 1993,22(5):935～948. 被引量：1
9Chavez, E, Navarro, G., et al. Searching in metric spaces. ACM Computing S urveys,2001,33(3):273-321. 被引量：1

同被引文献38

1刘小珠,孙莎,曾承,彭智勇.基于缓存的倒排索引机制研究[J].计算机研究与发展,2007,44(z3):153-158. 被引量：8
2申展,江宝林,陈祎,唐磊,胡运发.全文检索模型综述[J].计算机科学,2004,31(5):61-64. 被引量：12
3雷向欣,胡运发,杨智应,刘勇,张凯.基于互关联后继树的XML索引技术[J].计算机研究与发展,2005,42(7):1261-1271. 被引量：6
4周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
5夏莹,马少平,常新功,朱小燕,金奕江.基于统计的汉字识别文本自动后处理方法[J].模式识别与人工智能,1996,9(2):172-178. 被引量：14
6曹锋,周傲英.基于图形处理器的数据流快速聚类[J].软件学报,2007,18(2):291-302. 被引量：24
7郎显宇,陆忠华,迟学斌.一种基于“基因表达谱”的并行聚类算法[J].计算机学报,2007,30(2):311-316. 被引量：11
8胡运发.扩展的∑2邻接矩阵模型-小膨胀比的全文数据模型 .复旦大学技术报告[R].,1999.8.. 被引量：1
9胡运发.另一种全文数据模型-邻接矩阵模型 .复旦大学技术报告[R].,1999,4.. 被引量：1
10陶晓鹏胡运发.文本压缩技术在全文检索系统中的应用 . 复旦大学技术报告[R].,1999,6.. 被引量：1

引证文献10

1聂文琪.面向中文的全文索引模型的比较[J].武汉交通职业学院学报,2007,9(3):76-80.
2聂文琪.全文索引模型探析[J].武汉交通职业学院学报,2006,8(1):73-75.
3刘小珠,彭智勇.全文索引技术时空效率分析[J].软件学报,2009,20(7):1768-1784. 被引量：17
4李朝鹏,成运.并行无存储冲突的邻接矩阵算法[J].电脑知识与技术,2009,5(9):7201-7202.
5李朝鹏.基于图形处理器的邻接矩阵算法[J].科技信息,2010(10):14-14.
6霍林,黄俊文,卢正鼎,黄保华,潘英花,王力.二元互关联后继树精简索引模型研究[J].小型微型计算机系统,2011,32(2):286-290. 被引量：2
7姚全珠,赵凯,郭梁涛.基于邻接字符对的三元后缀树全文索引模型[J].计算机工程,2012,38(18):42-44. 被引量：1
8李青彦,彭进业,李展.基于构造空间金字塔度量矩阵的图像分类算法[J].西北大学学报（自然科学版）,2018,48(1):50-56.
9陶晓鹏,胡运发.基于邻接矩阵全文索引模型的文本压缩技术[J].中文信息学报,2004,18(1):33-41. 被引量：1
10谭舜泉,陈有青.基于三维特征索引空间的分布式全文索引模型[J].计算机应用,2004,24(5):151-153.

二级引证文献21

1聂文琪.全文索引模型探析[J].武汉交通职业学院学报,2006,8(1):73-75.
2刘小珠,彭智勇,陈旭.高效的随机访问分块倒排文件自索引技术[J].计算机学报,2010,33(6):977-987. 被引量：14
3霍林,黄保华,鲍洋,胡和平.用于对等全文检索的安全覆盖网[J].计算机科学,2011,38(1):104-106.
4龙柏,方维,孙广中,陈国良.一种并行计算平台KD-60上的可实时更新文本搜索[J].小型微型计算机系统,2012,33(4):712-715. 被引量：1
5赵宏亮,杨鹤标.面向领域的语义搜索引擎的应用研究[J].计算机工程与设计,2012,33(5):1801-1805. 被引量：5
6姚全珠,赵凯,郭梁涛.基于邻接字符对的三元后缀树全文索引模型[J].计算机工程,2012,38(18):42-44. 被引量：1
7刘小珠,彭智勇.基于分配空间自学习的在线动态索引混合更新机制[J].计算机研究与发展,2012,49(10):2118-2130.
8刘畅.全文索引结构的研究[J].计算机光盘软件与应用,2012,15(24):86-87. 被引量：1
9刘昆,李颖芳,李红林.一种时序数据间断频繁项挖掘算法[J].科技视界,2013(6):25-25.
10霍林,邢霄.密文动态后继树精简索引模型研究[J].小型微型计算机系统,2013,34(7):1610-1614.

1江华,赵建新,王海岚.PAT数组全文检索技术的研究与改进[J].现代图书情报技术,2005(8):37-41. 被引量：2
2陶晓鹏,胡运发,张锦.Pat数组创建算法的研究[J].计算机研究与发展,2000,37(7):783-788. 被引量：2
3《化学试剂》欢迎网上投稿[J].化学试剂,2009,31(12):1017-1017.
4陈超泉,严华.粗集理论在信息检索中的应用研究[J].情报杂志,2011,30(2):164-166. 被引量：1
5唐金文,张廷宪,聂建国,胡振渝.邻接矩阵在高校图书馆借阅数据挖掘中的应用[J].现代情报,2011,31(8):25-31. 被引量：1
6蔡彪.一种新的投稿编辑出版方式—在线方式[J].编辑学报,1999,11(3):144-145. 被引量：6
7石冰,黄诒珩.倒排文件的散列组织方法[J].情报学报,1991,10(4):282-287.
8卫丽君,卢军.邻接矩阵的性质及其在生活中的应用[J].中国科技博览,2011(10):116-116.
9北京大学图书馆副馆长聂华:倾向于利用在线方式提供资源[J].中国教育网络,2010(1):29-29.
10杨新立.声像资料的计算机管理系统[J].计算机应用研究,1995,12(2):60-61. 被引量：1

软件学报

2002年第10期

浏览历史

内容加载中请稍等...

基于邻接矩阵的全文索引模型(英文) 被引量：10

参考文献9

同被引文献38

引证文献10

二级引证文献21

相关作者

相关机构

相关主题

浏览历史