西安市数字方志全文检索系统的设计与实现被引量：1

Design and Implementation of Full-Text Retrieval System for Xi'an Data Chorography

下载PDF

导出

摘要通过Lucene API实现对PDF文档的一次全文检索,为了更精确地定位搜索关键词,设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似Google Book的图书检索效果。系统测试结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足用户快速检索的需求。系统作为西安市数字方志全文检索平台投入使用已有2年,取得了较好的应用成果。 In the paper,it implements the fu＇st index in PDF document by Lucene API. In order to locate the search keyword more accurately,this paper designs and implements a new algorithm for the second index. It contains the information about the keywords＇ page number, coordinates, context and so on. Which can be made used of locating the retrieval results in the specific page of the book and marking the specific positions of the keywords. Thus, the effect of the second retrieval in PDF document is as similar as Google Book. The test result proved that this system is provided with high retrieval performance, recall rate and precision rate. It can be satisfied with the requirement of quickly retrieving websites ＇ documents. This system has been using for 2 years as the full-text retrieval system for Xi ＇ an data chorography and it gets lots of application fruit.

作者吴代文詹海生

机构地区渭南师范学院传媒工程系西安电子科技大学计算机学院

出处《计算机技术与发展》 2011年第10期121-124,共4页 Computer Technology and Development

基金教育部特色专业建设点(TS11772)

关键词全文检索二次索引二次检索查全率查准率 full-text retrieval second Index second retrieval recall precision

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1朱学昊,王儒敬,余锋林,唐昱.基于Lucene的站内搜索设计与实现[J].计算机应用与软件,2008,25(10):6-8. 被引量：12
2王雅戈,朱原谅.“常熟数字方志全文检索数据库系统”项目研究报告[J].山东图书馆季刊,2009(1):78-80. 被引量：1
3郑榕增,林世平.基于Lucene的中文倒排索引技术的研究[J].计算机技术与发展,2010,20(3):80-83. 被引量：50
4邱哲,符滔滔编著..开发自己的搜索引擎 Lucene 2.0+Heritrix[M].北京:人民邮电出版社,2007:521.
5李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55
6余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
7郑轶媛..基于J2EE的站内搜索引擎的研究[D].上海交通大学,2005:
8孟涛,闫宏飞,王继民.一个增量搜集中国W eb的系统模型及其实现[J].清华大学学报（自然科学版）,2005,45(S1):1882-1886. 被引量：7

二级参考文献34

1李育嫦.文献检索中提高查全率与查准率的方法探讨[J].图书馆学研究,2002(11):92-93. 被引量：26
2彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
3孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,29(1):125-128. 被引量：20
4郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
5向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
6沈艳红.信息检索中检索词的选择对查全率的影响[J].情报探索,2006(11):73-74. 被引量：11
7林碧英,赵锐,陈良臣.基于Lucene的全文检索引擎研究与应用[J].计算机技术与发展,2007,17(5):184-186. 被引量：19
8江苏省常熟市地方志编纂委员会.常熟市志:修订本[M].上海辞书出版社,2006:1088. 被引量：1
9丁祖荫.重修常昭合志:第20卷[M].1949:120. 被引量：1
10Gospodnetic O,Hatcher E. Lucene in action[M]. [s. l. ] :Manning Publications Co,2005. 被引量：1

共引文献122

1吴代文.基于Lucene二次全文检索系统的设计与实现[J].微型电脑应用,2011(8):39-41. 被引量：1
2裴志松.基于Lucene的毕业论文相似性检测[J].长春工程学院学报（自然科学版）,2013,14(4):105-107.
3黄连恩,张燕,李晓明.互联网上信息报道的最早发布时间检测[J].计算机科学与探索,2009,3(1):51-59. 被引量：3
4王颖.主控网状通信策略在web搜集系统中的应用及模拟分析[J].中小企业管理与科技,2009(1):250-251.
5吴翠雁,黄建波,李浩,袁华.基于主动哈希和多级缓存的域名解析策略[J].广西师范大学学报（自然科学版）,2009,27(1):205-208. 被引量：1
6李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55
7王小利,曹导叶,王杉.科技查新中查全率与查准率的辨析[J].科技情报开发与经济,2010,20(14):139-140. 被引量：5
8潘春华.浅谈用Lucene开源库提高馆藏目录检索性能[J].科技情报开发与经济,2010,20(16):3-5.
9曾文,湛腾西.网络视频爬虫系统的设计与实现[J].中国科技信息,2010(15):96-99. 被引量：2
10杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38-39. 被引量：6

同被引文献1

1张维刚,徐永东,雷小强,何辉.Web全文检索中间件的设计与应用[J].计算机应用,2011,31(8):2261-2264. 被引量：2

引证文献1

1朱艳洁.大数据背景下学生信息集成管理研究[J].课程教育研究,2015,0(1):9-10. 被引量：2

二级引证文献2

1孙文文,宋眉眉,张更辉.大数据背景下的高校教务管理工作[J].中国轻工教育,2016,19(4):49-52. 被引量：11
2刘波,蔡志远,魏孔鹏.职业院校学生管理工作大数据的构建与创新应用[J].软件,2021,42(2):21-23.

1定位搜索很强悍手机帮你指路、找朋友[J].电脑爱好者,2010(14):116-116.
2阿进.拨云见日——快速定位搜索答案[J].网友世界,2006(2):23-23.
3梁倩.基于电子地图的移动基站定位管理系统的设计与实现[J].计算机应用与软件,2012,29(8):182-184. 被引量：2
4阎宏艳,梁倩.应用.NET技术调用电子地图的可行性分析[J].煤炭技术,2012,31(12):137-138.
5孙瑶,赵逢禹.全站点内容定位搜索的研究与实现[J].信息技术,2013,37(10):134-138.
6魏德米勒中文产品样本上线[J].轨道交通,2012(5):86-86.
7免费的手机导航[J].电脑爱好者（普及版）,2011(A01):270-270.
8阿里巴巴推出安全WiFi热点应用[J].中国信息安全,2015(2):105-105.
9田奕,李庆华.图元信息有效管理的方法研究[J].交通与计算机,1993(1):21-25.
10刘晓平,田景成,韩江洪,唐卫清,刘慎权.基于智能线模型的管线特征定位搜索策略研究(英文)[J].软件学报,1999,10(12):1323-1328.

计算机技术与发展

2011年第10期

浏览历史

内容加载中请稍等...

西安市数字方志全文检索系统的设计与实现被引量：1

参考文献8

二级参考文献34

共引文献122

同被引文献1

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

西安市数字方志全文检索系统的设计与实现 被引量：1

参考文献8

二级参考文献34

共引文献122

同被引文献1

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

西安市数字方志全文检索系统的设计与实现被引量：1