基于Solr的分布式全文检索系统的研究与实现被引量：23

Research and Implementation of Distributed Full-text Retrieval System Based on Solr

下载PDF

导出

摘要随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。 With the rapid growth of network information resources,traditional retrieval system has been difficult to provide efficient and reliable services to the mass data.In response to this situation,this paper designs a distributed full-text retrieval system based on Solr.The system uses a Web crawler to collect information which is stored as text files.Then the system creates indexes in parallel on multiple computers through Solr index module.It turns out that the design improves the indexing speed effectively.The system improves the retrieval performance by applying Zookeeper management and distributed design in search module.Finally a user-friendly interface is designed.Currently,the system can operate millions of data stably and has a strong practical value.

作者李戴维李宁

机构地区华北计算技术研究所信息技术与应用系统部

出处《计算机与现代化》 2012年第11期171-176,共6页 Computer and Modernization

关键词全文检索 SOLR 分布式 Zookeeper full-text search Solr distribution Zookeeper

分类号 TP311.133.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1David Smiley, Eric Pugh. Apache Solr 3 Enterprise Search Server[ M]. Packt Publishing, 2011. 被引量：1
2王小森..基于Solr的搜索引擎的设计与实现[D].北京邮电大学,2010:
3都云程,卢献华.中文搜索引擎现状与展望[J].中文信息学报,1999,13(3):61-64. 被引量：25
4王学松编著..Lucene+nutch搜索引擎开发[M].北京:人民邮电出版社,2008:452.
5罗刚,王振东编著..自己动手写网络爬虫[M].北京:清华大学出版社,2010:347.
6孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009,33(7):187-189. 被引量：39
7庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010,18(3):70-74. 被引量：4
8Torn White.Hadoop权威指南[M].周敏,曾大聃,周傲英译.北京:清华大学出版社,2011. 被引量：1
9Solr官方网站.Apache Solr[EB/OL].http://lucene.a-pache.org/solr/,2011-01-10. 被引量：1
10Michael McCandless.Lucene实战[M].北京:人民邮电出版社,2010. 被引量：3

二级参考文献35

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
5吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
7陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
8饶文碧,柯慧燕.Web文本分类技术研究及其实现[J].计算机技术与发展,2006,16(3):116-118. 被引量：5
9孙晓,黄德根.基于动态规划的最小代价路径汉语自动分词[J].小型微型计算机系统,2006,27(3):516-519. 被引量：5
10翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9

共引文献78

1曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
2胡春静,韩兆强,王文博.全文术语搜索算法的研究与实现[J].计算机工程与应用,2004,40(20):67-69.
3肖晓旦,陈先来.互联网信息资源组织发展趋势分析[J].高校图书馆工作,2004,24(6):19-21. 被引量：1
4韩化雪,康鲲鹏.基于WEB搜索引擎的发展[J].福建电脑,2006,22(9):67-67. 被引量：1
5王小林,刘宏申.搜索引擎的设计研究[J].计算机技术与发展,2007,17(2):5-7. 被引量：7
6张海东.关于对互联网信息采集支持静态页面和动态页面的抓取技术的文献综述[J].科学咨询,2007(5):49-51.
7潘明,陈艺,刘海峰,刘红刚.农业机械垂直搜索引擎的设计与实现[J].现代农业装备,2007,28(4):44-47. 被引量：4
8董妍汝.中文分词技术在搜索引擎中的应用[J].办公自动化（综合月刊）,2010(2):44-45. 被引量：3
9盛启东,谭守标,徐超,冯二媛,陈军宁.巧用黑盒法逆推百度中文分词算法[J].计算机技术与发展,2010,20(4):136-139. 被引量：2
10何友全,徐小乐,徐澄,栾红玉,唐华姣.搜索引擎用户接口设计[J].重庆理工大学学报（自然科学）,2010,24(9):63-68. 被引量：2

同被引文献170

1程景龙.大数据环境下的医院统计工作变革初探[J].医学信息（医学与计算机应用）,2014,0(20):2-2. 被引量：4
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：6896
4刘裕,吴坚.中间件技术与ICE[J].微机发展,2004,14(10):37-39. 被引量：13
5鲁学军,王钦敏,明冬萍,王晶,徐志刚.空间特征在遥感影像分析中的应用[J].中国图象图形学报（A辑）,2004,9(6):737-743. 被引量：7
6张伯礼,王玉来.国家“十五”科技攻关课题“中风病急性期综合治疗方案研究”——碟脉灵苦碟子注射液治疗缺血性中风临床研究[J].中国医药指南,2006,4(1):112-117. 被引量：11
7刘建国,黄厚宽.使用分类和聚类提高搜索引擎的可用性[J].铁路计算机应用,2006,15(3):44-46. 被引量：1
8北京中医药大学：国家中医药管理局重点学科——中医内科血液病学科介绍[J].北京中医药大学学报,2006,29(5). 被引量：2
9王春梅.基于数据仓库的数据挖掘技术[J].西安邮电学院学报,2006,11(5):99-102. 被引量：6
10林碧英,赵锐,陈良臣.基于Lucene的全文检索引擎研究与应用[J].计算机技术与发展,2007,17(5):184-186. 被引量：19

引证文献23

1徐树振,罗学礼,王森,杨莉,段嘉杰,张德刚.企业非结构化数据检索研究[J].信息技术,2014,38(4):196-200. 被引量：6
2罗学礼,徐树振,王森,杨莉,段嘉杰.电力企业的非结构化数据检索研究[J].计算机与数字工程,2014,42(4):729-733. 被引量：8
3赵璞,朱志祥,张康益.高性能分布式搜索引擎Solr的研究与实现[J].电子科技,2015,28(4):73-75. 被引量：6
4薛以锋,顾广隶,赵伯诚,杨辉.基于元数据文件存储的医疗大数据平台研究与实现[J].中国数字医学,2015,10(10):73-75. 被引量：7
5张震,甘克勤.基于Solr的大规模标准文献可视化分析系统[J].计算机系统应用,2016,25(3):67-71. 被引量：8
6周斌,薛淞,顾广隶,杨辉.Solr在医疗大数据检索中的应用[J].中国数字医学,2016,11(9):21-23. 被引量：4
7蔡宇晶,孙玫肖,朱建军.Solr在乐龄易购网站中的应用[J].铁路计算机应用,2016,25(10):53-56. 被引量：1
8冯钧,佟瑶,陆佳民,沈光泽.跨内外网的数据资源整合与共享关键技术研究[J].水利信息化,2016(5):1-5. 被引量：4
9李聪颖,王瑞刚,于金良.大数据分布式全文检索系统的设计与实现[J].计算机与数字工程,2016,44(12):2426-2430. 被引量：10
10印奇,李青,黄鹏.基于Solr的飞机故障异构信息检索系统设计[J].航空科学技术,2017,28(4):30-36. 被引量：1

二级引证文献150

1何丽梅,陈婷,李红.八段锦联合角调乐对肝气郁结型帕金森抑郁患者的疗效观察[J].心理月刊,2024(14):128-131.
2佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
3樊继东.一种数据库多层深度查询算法的实现[J].信息化研究,2018,44(5):62-65.
4艾力亚力.艾力,郭敏,孙立,李波霖,温浩.基于云计算的网络平台在医疗信息化中的应用研究[J].中国研究型医院,2018,5(6):42-47. 被引量：3
5徐新爱.无人机海量飞行数据快速检索方法研究[J].计算机测量与控制,2014,22(12):4181-4183. 被引量：8
6张沛,吴潇雨,和敬涵.大数据技术在主动配电网中的应用综述[J].电力建设,2015,36(1):52-59. 被引量：48
7金保华,张兴,郭小娟.档案管理中半结构化数据智能检索研究[J].郑州轻工业学院学报（自然科学版）,2015,30(5):81-84. 被引量：1
8邱剑,王慧芳,应高亮,张波,邹国平,何奔腾.文本信息挖掘技术及其在断路器全寿命状态评价中的应用[J].电力系统自动化,2016,40(6):107-112. 被引量：59
9赵立川.基于搜索引擎技术的医院精准决策应用研究与实现[J].电子设计工程,2016,24(8):120-122.
10李程.构建以专利为核心的科技大数据平台以促进创新的设想[J].中国新技术新产品,2016(13):28-30. 被引量：3

1尤元建,黄增建.Hadoop管理系统研究与实现[J].中国新通信,2016,18(17):19-20.
2唐志勇,王占林.任务管理式新型余度飞控系统的研究[J].系统仿真学报,2002,14(5):599-601. 被引量：2
3艾云霄,谭跃生,王静宇.MooseFS中chunkserver负载均衡算法研究[J].微型机与应用,2013,32(5):1-3. 被引量：2
4刘辉.共享SRAM法实现计算机节点之间数据传输[J].七一六所科技学报,1992(4):54-56.
5宋玉琴,龚超.基于CAN总线的计算机测控系统[J].西安工程科技学院学报,2003,17(3):244-247. 被引量：3
6余泽.基于相对密度和熵的混合属性聚类融合算法[J].计算机系统应用,2014,23(12):125-130.
7dream.绝对隐私——IE Privacy Keeper[J].玩电脑,2005(8):13-14.
8XiaoW.伪装又加密视频保安全[J].软件指南,2011(4):74-75.
9王波涛,赵凯利,常立东,李睿,黄山,李静,李响.基于Storm的连续范围查询优化技术[J].计算机工程与科学,2017,39(1):1-14. 被引量：1
10李锐,刘刚,尹书伟,徐煜.基于ZooKeeper和ACE的分布式计算框架研究与设计[J].电力信息与通信技术,2015,13(6):31-35. 被引量：3

计算机与现代化

2012年第11期

浏览历史

内容加载中请稍等...

基于Solr的分布式全文检索系统的研究与实现被引量：23

参考文献15

二级参考文献35

共引文献78

同被引文献170

引证文献23

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

基于Solr的分布式全文检索系统的研究与实现 被引量：23

参考文献15

二级参考文献35

共引文献78

同被引文献170

引证文献23

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

基于Solr的分布式全文检索系统的研究与实现被引量：23