基于Lucene的PDF文档文本解析的实现被引量：3

Text Analysis for PDF Document Based on Lucene

导出

摘要互联网和信息技术的迅速发展,使得如何高效、快速地从海量信息中获取所需信息成为一个非常重要的问题。基于Lucene的搜索引擎的广泛应用,为我们实现高效查找提供了一种可能。本文研究了Lucene的系统结构及检索原理,提出了对PDF文档进行文本解析的方法,实现了对PDF文档文本数据的提取。 With the rapid development of Internet and information technology,how to effectively and quickly retrieval Gigabytes has become an absolutely important problem.However,the great Application of Search Engine Based on Lucene has offered a potential method.In this paper,the structure and the index principles of Lucene has been analyzed,the method of text analyzing for PDF documents has been put forward,and text extracting PDF documents has been implemented.

作者申兵一巩青歌

机构地区武警工程学院通信工程系

出处《信息与电脑（理论版）》 2009年第11期66-66,共1页 China Computer & Communication

关键词搜索引擎非结构化文档 LUCENE 索引文本解析 search engine unstructured documents Lucene index text analysis

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李海丰.基于Lucene的企业搜索引擎研究及应用[J].电脑知识与技术,2009,5(2):926-929. 被引量：1

二级参考文献1

1刘畅,张辉.一种应用于搜索引擎的索引结构研究[J].计算机与数字工程,2005,33(9):41-44. 被引量：2

同被引文献19

1高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
2孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,29(1):125-128. 被引量：20
3车东.Lucene:基于Java的全文检索引擎简介[EB/OL].(2009-03-20)[2009-07-20].http://www.chedong.com/tech/lucene.html. 被引量：4
4夏立新,王忠义.基于XML的全文检索原型系统的设计与实现[J].现代图书情报技术,2007(8):67-70. 被引量：9
5车东.在应用中加入全文检索功能一基于Java的全文索引引擎Lucene简介[EB/OL].(2006-03-10)[2012-04-27]http://www.chedong.com/tech/lucene.html. 被引量：1
6Owens SJ.Lucene tutorial[EB/OL].(2000-09)[2012-04-27]. Http://www.lucenetutorial.com. 被引量：1
7Goetz B.The Lucene search engine:powerful,flexible and free[EB/OL].(2000-09-15) [2012-04-27].Http://www. javaworld.com/jw-09-2000/jw-0915 -lucene.html. 被引量：1
8Lueene Features[ EB/OL]. [ 2012-12-21 ] .http ://lucene.apache.org/core/. 被引量：1
9Gospodnetic O, Hatcher E.Lucene in Action [ M ].北京:电子工业出版社,2011:98-103. 被引量：1
10Michael McCandless;Erik Hatcher;Otis Gospodnetic.Lucene实战[M]北京:人民邮电出版社,20116-7. 被引量：1

引证文献3

1韩晟,陈衍,彭红波,张铭,葛煦.基于Lucene搜索引擎的非结构化电子病历检索系统[J].中国医疗设备,2012,27(11):64-66. 被引量：4
2彭红波,陈衍,张铭,葛煦,蔡宏伟,韩晟.基于Lucene的非结构化电子病历文档解析的实现[J].中国医疗设备,2013,28(1):49-51. 被引量：1
3钟锋.基于Lucene的全文检索系统研究与实现[J].浙江外国语学院学报,2013(4):77-81. 被引量：1

二级引证文献6

1姚力,李哲.医院信息系统故障解决方案探讨[J].中国数字医学,2015,10(5):95-97. 被引量：2
2徐正伟,安冬青.中医临床科研一体化平台研究现状[J].新疆中医药,2015,33(3):67-71.
3邵明义,刘保延,谢琪,张润顺,王斌.中医药临床科研数据的发展现状和趋势探讨[J].世界科学技术-中医药现代化,2015,17(8):1743-1747. 被引量：12
4杨雪,徐晓莉,向筱铭,宋智.气象综合观测业务规范查阅平台的研究与实现[J].电子测量技术,2018,41(8):84-90. 被引量：1
5李天凤,杨凌燕,耿娟,杨珂,黄艳平.电子病历文本分析系统的设计[J].中国医学装备,2019,16(11):113-118. 被引量：7
6王保成,刘利军,黄青松.面向中文医疗问答网站的相似问题检索研究[J].中文信息学报,2022,36(6):135-145. 被引量：1

1周洪翠,庄新妍.基于向量空间模型的文本信息表示[J].呼伦贝尔学院学报,2011,19(1):111-116. 被引量：3
2刘琰,王强,王清贤.一种基于树的Whois文档解析方法[J].计算机应用研究,2007,24(3):72-75. 被引量：2
3刘保麟.Python文本解析研究和比较[J].电脑编程技巧与维护,2015(9):14-15. 被引量：3
4井惟栋,夏利,赵静波.基于Web服务的局数据管理系统[J].计算机工程与设计,2006,27(17):3151-3153. 被引量：1
5吴洁明,周正喜,史建宜.面向视频场景内容检索的文本解析工具设计与实现[J].微型机与应用,2012,31(14):70-74. 被引量：1
6王文斌,窦汝鹏.数据驱动的自动化测试方法研究[J].电脑编程技巧与维护,2015(24):91-91.
7李海丰.基于Lucene的企业搜索引擎研究及应用[J].电脑知识与技术,2009,5(2):926-929. 被引量：1
8冯春江,刘勇,潘成胜.远程故障诊断系统数据采集仪的软件设计与实现[J].沈阳理工大学学报,2005,24(3):61-64. 被引量：1
9黄明,林家骏,方楠.基于加权有限状态机的电话号码规范解析[J].计算机应用与软件,2016,33(6):76-78.
10安靖.面向网络舆情的检索系统设计研究[J].软件导刊,2013,12(7):40-41. 被引量：1

信息与电脑（理论版）

2009年第11期

浏览历史

内容加载中请稍等...

基于Lucene的PDF文档文本解析的实现被引量：3

参考文献1

二级参考文献1

同被引文献19

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Lucene的PDF文档文本解析的实现 被引量：3

参考文献1

二级参考文献1

同被引文献19

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Lucene的PDF文档文本解析的实现被引量：3