期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
基于HBase的气象地面分钟数据分布式存储系统 被引量:25
1
作者 陈东辉 曾乐 +1 位作者 梁中军 肖卫青 《计算机应用》 CSCD 北大核心 2014年第9期2617-2621,共5页
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气... 针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。 展开更多
关键词 分钟数据 分布式存储 HADOOP solr HBASE 辅助索引
下载PDF
基于Solr的分布式全文检索系统的研究与实现 被引量:23
2
作者 李戴维 李宁 《计算机与现代化》 2012年第11期171-176,共6页
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr... 随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。 展开更多
关键词 全文检索 solr 分布式 Zookeeper
下载PDF
基于Solr的司法大数据检索模型研究与实现 被引量:18
3
作者 贾贺 艾中良 +2 位作者 贾高峰 刘忠麟 陈伯雄 《计算机工程与应用》 CSCD 北大核心 2017年第20期249-253,共5页
围绕司法领域信息要素的高维性特征以及司法信息要素间的紧耦合性特征,针对司法数据检索技术中由高维信息要素间的紧耦合性导致的检索效率问题,研究和实现了一个基于Solr的司法大数据检索模型。该模型采用Solr超级集群作为数据索引库,采... 围绕司法领域信息要素的高维性特征以及司法信息要素间的紧耦合性特征,针对司法数据检索技术中由高维信息要素间的紧耦合性导致的检索效率问题,研究和实现了一个基于Solr的司法大数据检索模型。该模型采用Solr超级集群作为数据索引库,采用HBase集群作为数据存储库,通过引入数据与索引分离、redis缓存、动态参数调整、动态cache释放等设计思路,实现了一个高效、可靠、可扩展的司法大数据检索模型。 展开更多
关键词 司法大数据 信息检索 solr HBASE
下载PDF
使用Solr为大数据库搭建搜索引擎 被引量:16
4
作者 霍庆 刘培植 《软件》 2011年第6期11-14,共4页
如今信息快速发展,数据库信息不断增多,尤其是对于中文信息,传统的数据库搜索方式(like%%)不仅效率低下,而且搜索速度极慢,此时就需要为数据库搭建外部的中文搜索引擎。Apache Solr是基于Lucene的企业搜索引擎。本文介绍了Solr的结构和... 如今信息快速发展,数据库信息不断增多,尤其是对于中文信息,传统的数据库搜索方式(like%%)不仅效率低下,而且搜索速度极慢,此时就需要为数据库搭建外部的中文搜索引擎。Apache Solr是基于Lucene的企业搜索引擎。本文介绍了Solr的结构和特点,并使用它搭建大数据量的数据库搜索引擎,并在最后比较了数据库和搜索引擎的搜索时间,证明了使用Solr能大大增加搜索效率。 展开更多
关键词 计算机软件 搜索引擎 solr 数据库
下载PDF
基于开源全文检索系统Solr的OPAC分面浏览 被引量:14
5
作者 陈波 《现代图书情报技术》 CSSCI 北大核心 2007年第11期72-75,共4页
简单介绍开源的全文检索系统Solr的起源、功能特点、系统架构与使用方法,然后对分面浏览的定义与当前检索方式相比的优越性进行分析。通过自建的后台服务程序对现有MARC数据进行分析并传递给Solr以生成索引文件,修改Solr的配置完成对现... 简单介绍开源的全文检索系统Solr的起源、功能特点、系统架构与使用方法,然后对分面浏览的定义与当前检索方式相比的优越性进行分析。通过自建的后台服务程序对现有MARC数据进行分析并传递给Solr以生成索引文件,修改Solr的配置完成对现有OPAC系统的改进,提供一种快速高效的分面浏览解决方案。Solr的性能卓越,在百万级的数据量下表现良好,值得推广使用。 展开更多
关键词 solr 分面浏览 OPAC 全文检索
下载PDF
一种基于Solr的HBase海量数据二级索引方案 被引量:15
6
作者 王文贤 陈兴蜀 +1 位作者 王海舟 吴小松 《信息网络安全》 CSCD 2017年第8期39-44,共6页
针对HBase不提供二级索引和华为的hindex方案难以满足海量数据检索速度需求的问题,文章设计了基于Solr的HBase二级索引方案SIHBase(Solr Indexing HBase)。该方案使用HBase的Coprocessor(协处理器)为数据表的创建、修改、删除以及数据... 针对HBase不提供二级索引和华为的hindex方案难以满足海量数据检索速度需求的问题,文章设计了基于Solr的HBase二级索引方案SIHBase(Solr Indexing HBase)。该方案使用HBase的Coprocessor(协处理器)为数据表的创建、修改、删除以及数据的插入、更新、删除和恢复等操作都实现了相应的回调函数,通过回调函数向Solr发送相关请求,以实现在Solr中自动为HBase建立和维护二级索引,保证数据与索引的一致性。该方案具有良好的通用性,可以同时为多张表的多列数据建立索引。该方案扩展了HBase的客户端功能,增加了直接查询Solr的接口,利用Solr提供的高效、灵活、多样的检索功能实现对HBase海量数据的快速检索。最后,与hindex进行了二级索引的查询性能对比实验,证明了该方案在查询速度上要远快于hindex。 展开更多
关键词 HBASE 二级索引 solr 快速检索
下载PDF
基于Solr的标准信息检索技术及其优化 被引量:13
7
作者 于晓明 史胜楠 甘克勤 《科学技术与工程》 北大核心 2020年第4期1504-1508,共5页
针对标准文献资源的多样性和异构性,现有的标准号和关键词检索系统中检索结果不准确、不全面、效率低的情况,通过对Solr搜索引擎技术等关键理论进行了研究,针对标准主题词表进行修改、中文和标准号的拆分和检索结果排序的优化,并将其应... 针对标准文献资源的多样性和异构性,现有的标准号和关键词检索系统中检索结果不准确、不全面、效率低的情况,通过对Solr搜索引擎技术等关键理论进行了研究,针对标准主题词表进行修改、中文和标准号的拆分和检索结果排序的优化,并将其应用到标准文献资源统一检索工程实践中。实践证明,基于Solr搜索引擎技术实现的标准号和关键词的统一检索系统的优化达到了预期效果,大大提高了用户的检索效率和准确率,对标准文献资源的利用和服务方面具有一定的实用价值,证明了Solr搜索引擎技术的实用性,同时,这项技术在标准领域的应用也能够促进该技术日后的发展。 展开更多
关键词 标准 solr 检索 优化
下载PDF
基于Solr的分布式实时搜索模型研究与实现 被引量:12
8
作者 傅巍玮 李仁发 +1 位作者 刘钰峰 黄松立 《电信科学》 北大核心 2011年第11期51-56,共6页
实时搜索已成为信息检索领域的热点问题之一。传统搜索引擎在分布式环境下无法保证大数据量、高并发情况下的实时响应和数据容灾。本文提出了一种基于Solr的分布式实时搜索模型,分析了其实现原理。模型通过内存索引与磁盘索引相结合保... 实时搜索已成为信息检索领域的热点问题之一。传统搜索引擎在分布式环境下无法保证大数据量、高并发情况下的实时响应和数据容灾。本文提出了一种基于Solr的分布式实时搜索模型,分析了其实现原理。模型通过内存索引与磁盘索引相结合保证索引信息的实时展示,同时引入CommitLog日志保证内存索引数据容灾,并通过Master/Slave模型保证搜索服务的可用性。最终应用于实际生产系统中,实践结果充分证明了该模型的可行性。 展开更多
关键词 信息检索 分布式实时搜索模型 solr 数据容灾
下载PDF
开源搜索引擎Elasticsearch和Solr对比和分析 被引量:10
9
作者 魏涛 孟方园 +1 位作者 袁平 殷锋 《现代计算机》 2018年第4期58-61,共4页
现如今,互联网及信息技术已经遍布我们生活的各个方面,信息的获取对于我们来说更为方便和快捷,而其中扮演着重要角色的搜索引擎,是我们快速精确获取信息和数据的利器。一个优秀的搜索引擎框架,需要具备高效的索引效率、及时的搜索响应... 现如今,互联网及信息技术已经遍布我们生活的各个方面,信息的获取对于我们来说更为方便和快捷,而其中扮演着重要角色的搜索引擎,是我们快速精确获取信息和数据的利器。一个优秀的搜索引擎框架,需要具备高效的索引效率、及时的搜索响应以及可靠的系统服务等特点,而Elasticsearch和Solr正是这样的开源搜素引擎。Elasticsearch和Solr均是基于Apache Lucene框架的开源搜索引擎,具有全文搜索、分布式搜索等特性,从配置使用、索引和查询速度等方面对二者进行研究和分析。 展开更多
关键词 Elasticsearch solr 搜索引擎
下载PDF
大数据分布式全文检索系统的设计与实现 被引量:10
10
作者 李聪颖 王瑞刚 于金良 《计算机与数字工程》 2016年第12期2426-2430,共5页
论文是基于一种开源企业搜索引擎Solr实现对大数据分布式数据库HBase中数据的检索。论文简单地介绍了分布式存储技术HBase和分布式索引技术SolrCloud,实现了基于Solr和Zookeeper的分布式搜索方式SolrCloud模式对HBase表的索引的建立。... 论文是基于一种开源企业搜索引擎Solr实现对大数据分布式数据库HBase中数据的检索。论文简单地介绍了分布式存储技术HBase和分布式索引技术SolrCloud,实现了基于Solr和Zookeeper的分布式搜索方式SolrCloud模式对HBase表的索引的建立。该系统通过python程序在对HBase中的Rowkey建立索引的同时还对每列数据都建立索引,实现了Hbase的二级索引,克服了HBase只能通过Rowkey单一查询的不足。经过反复测试,充分地表明了基于Solr的分布式搜索系统的高效性及高可靠性。 展开更多
关键词 solr HBASE 大数据 搜索 PYTHON
下载PDF
基于Python的网络新闻爬虫与检索 被引量:10
11
作者 陈欢 黄勃 +2 位作者 刘文竹 高永彬 姜晓燕 《软件导刊》 2019年第5期168-171,共4页
网络上存在众多新闻门户网站,新闻信息繁多,造成严重的新闻信息过载。针对该类问题,设计一个基于Python的网络新闻信息搜集与检索系统。该系统通过使用Scrapy网络爬虫框架进行网络新闻信息搜集,同时对新闻链接、标题进行去重,最后使用S... 网络上存在众多新闻门户网站,新闻信息繁多,造成严重的新闻信息过载。针对该类问题,设计一个基于Python的网络新闻信息搜集与检索系统。该系统通过使用Scrapy网络爬虫框架进行网络新闻信息搜集,同时对新闻链接、标题进行去重,最后使用Slor检索服务对爬虫获得的新闻数据进行全文检索。与传统方法相比,该系统设计的去重方法在保证链接不重复的情况下,对标题进行去重,并引入Solr检索服务,可以帮助读者更快速地找到想要阅读的新闻。 展开更多
关键词 爬虫 信息检索 Scrapy solr 数据去重
下载PDF
基于分面搜索引擎Solr的机构知识库访问统计 被引量:10
12
作者 姚晓娜 祝忠明 《现代图书情报技术》 CSSCI 北大核心 2011年第7期37-40,共4页
采用Solr对中国科学院机构知识库CAS-IR的访问统计部分进行改进,结果表明改进后的系统即使在海量数据的环境下也能达到很快的响应速度。
关键词 solr 分面搜索 访问统计 机构知识库
原文传递
大数据处理技术在安全审计系统中的应用 被引量:9
13
作者 许杰 冷冰 +1 位作者 李明桂 丁文超 《通信技术》 2016年第3期346-351,共6页
随着大数据时代的到来,数据出现了爆炸式的增长。这些海量数据的出现,影响了很多现有数据存储、处理和分析系统,其中就包括在网络安全中发挥着重要作用的审计系统。目前的审计系统中使用关系数据库对数据进行存储和处理,由于关系数据库... 随着大数据时代的到来,数据出现了爆炸式的增长。这些海量数据的出现,影响了很多现有数据存储、处理和分析系统,其中就包括在网络安全中发挥着重要作用的审计系统。目前的审计系统中使用关系数据库对数据进行存储和处理,由于关系数据库的局限性,使得审计系统无法存储和处理大数据。针对该问题,提出了一种兼容现有系统的大数据存储方法,能够有效的解决大数据存储问题。同时,为了解决大数据(HBase)检索效率低下的问题,提出了一种使用Solr建立二级索引的方法,大大的提高了检索效率,满足了审计系统存储和处理大数据的需求。 展开更多
关键词 大数据 审计系统 HBASE solr
下载PDF
分布式爬虫的研究与实现 被引量:8
14
作者 马蕾 冯锡炜 +3 位作者 窦予梓 高天铸 朱睿 吴衍兵 《计算机技术与发展》 2020年第2期192-196,共5页
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的K... 网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。 展开更多
关键词 分布式集群 NUTCH solr 企业官网
下载PDF
基于Solr的大规模标准文献可视化分析系统 被引量:8
15
作者 张震 甘克勤 《计算机系统应用》 2016年第3期67-71,共5页
国家标准馆是唯一的国家级标准收藏机构,建成了规模庞大的标准文献题录数据库、全文数据库.但是面对海量的数据资源,标准文献研究人员在没有计算机相关知识的情况下难以对相关数据进行全面的了解和研究,传统的研究方式也无法实时并直观... 国家标准馆是唯一的国家级标准收藏机构,建成了规模庞大的标准文献题录数据库、全文数据库.但是面对海量的数据资源,标准文献研究人员在没有计算机相关知识的情况下难以对相关数据进行全面的了解和研究,传统的研究方式也无法实时并直观的对统计数据进行展示.本文基于这些问题,开发了大规模标准文献可视化分析系统,设计和实现了可以自由定制的数据统计功能以及对标准文献的起草人、起草机构的关联分析功能.本系统为标准文献研究领域的研究人员提供了一个对标准文献资源高效便捷的可视化分析工具,研究人员对统计数据进行定制就能够获取到有效的数据,大幅提升了标准文献资源的分析效率. 展开更多
关键词 solr 数据分析 标准文献 关联分析
下载PDF
电力企业的非结构化数据检索研究 被引量:8
16
作者 罗学礼 徐树振 +2 位作者 王森 杨莉 段嘉杰 《计算机与数字工程》 2014年第4期729-733,共5页
电网公司多年来建设了很多业务系统,各业务系统相互孤立应用。随着企业信息化建设的深入,业务系统中数据特别是非结构化数据的数据量急剧增长,人员查找数据信息极为不便。建设面向整个电网公司的分布式非结构化数据检索平台,该平台在Li... 电网公司多年来建设了很多业务系统,各业务系统相互孤立应用。随着企业信息化建设的深入,业务系统中数据特别是非结构化数据的数据量急剧增长,人员查找数据信息极为不便。建设面向整个电网公司的分布式非结构化数据检索平台,该平台在Linux计算机集群上部署Hadoop开发框架以及Solr分布式全文检索系统,将各业务系统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务,使得企业相关人员能够高效、便捷地检索出所需的数据。实现知识服务无处不在,为员工工作提供帮助,为企业提供决策支持。 展开更多
关键词 非结构化数据 分布式 HADOOP solr 存储 检索
下载PDF
基于Solr的电子病历全文检索系统的设计与实现 被引量:8
17
作者 彭红波 韩晟 王婷婷 《中国医疗设备》 2019年第3期102-105,共4页
目的构建一个简单、高效和异构的电子病历全文检索平台。方法以Solr为搜索引擎,通过对电子病历存储格式的异构处理,完成电子病历内容的索引化,从而实现电子病历的全文检索。结果该技术屏蔽了电子病历存储格式的差异,构建的全文检索平台... 目的构建一个简单、高效和异构的电子病历全文检索平台。方法以Solr为搜索引擎,通过对电子病历存储格式的异构处理,完成电子病历内容的索引化,从而实现电子病历的全文检索。结果该技术屏蔽了电子病历存储格式的差异,构建的全文检索平台不依赖于电子病历系统本身,易于操作且查询效率较高。结论本文构建的电子病历全文检索系统,不仅为用户提供了一个操作便捷的搜索平台,而且还提高了检索效率和查准率,同时为进一步的科研统计工作提供了数据支撑。 展开更多
关键词 solr 电子病历 全文检索 搜索引擎
下载PDF
基于Solr的数据检索技术研究 被引量:7
18
作者 程知群 章超 韩高帅 《杭州电子科技大学学报(自然科学版)》 2017年第1期11-15,共5页
针对海量过车数据检索困难的问题,设计了一款基于Solr的大规模分布式数据检索系统.前端IPC采集的数据经过结构化处理之后发送到后端,数据先缓存在消息队列中,再通过Spark Streaming实时计算框架对缓存的数据进行消费,将数据搬运到数据库... 针对海量过车数据检索困难的问题,设计了一款基于Solr的大规模分布式数据检索系统.前端IPC采集的数据经过结构化处理之后发送到后端,数据先缓存在消息队列中,再通过Spark Streaming实时计算框架对缓存的数据进行消费,将数据搬运到数据库HBase中,最后由Solr爬取HBase中的数据,根据用户的配置建立索引文件.查询时,用户通过点击Web界面下发查询条件,系统将查询条件解析为Solr能够识别的查询语句,从索引文件中取出相应的信息,最后从HBase中取出完整的数据,返回到界面显示.测试结果表明,系统工作稳定,可存储海量多种类型数据,索引建立速度为1 000条/s,当数据库中存储一千亿条过车记录时,对此类TB级别数据进行各种条件查询的响应时间均在10s之内. 展开更多
关键词 大数据 智能交通 solr 索引
下载PDF
一种对在片测量系统中串扰误差进行修正的新型校准方法 被引量:7
19
作者 王一帮 吴爱华 +5 位作者 刘晨 梁法国 栾鹏 霍晔 孙静 赵伟 《计量学报》 CSCD 北大核心 2021年第12期1553-1558,共6页
现有高频段在片S参数校准方法有16-term误差模型校准方法和基于多线TRL的二次串扰修正算法,它们对测试系统之间的串扰误差进行了较好的表征。提出了一种新型校准方法,即把测试系统之间的串扰等效为一个与被测件并联的二端口网络。整个... 现有高频段在片S参数校准方法有16-term误差模型校准方法和基于多线TRL的二次串扰修正算法,它们对测试系统之间的串扰误差进行了较好的表征。提出了一种新型校准方法,即把测试系统之间的串扰等效为一个与被测件并联的二端口网络。整个校准方法一共分为两步,第一步采用常规的SOLR校准方法得到基本8项误差模型,第二步通过测量一个串扰标准件(可以是SOLR中的开路校准件)完成对串扰误差的表征。仿真和测试结果表明,新型校准方法准确度可达到16-term误差模型的准确度,并对串扰误差具有相当的抑制效果。同时,新模型方法只需使用4个校准件,数量少于传统16-term误差模型方法,在保证准确度的前提下,提高了测试效率。 展开更多
关键词 计量学 在片S参数 16项误差模型 串扰 solr
下载PDF
基于Solr的农田数据索引方法与大数据平台构建 被引量:7
20
作者 苑严伟 冀福华 +3 位作者 赵博 姜含露 王猛 樊学谦 《农业机械学报》 EI CAS CSCD 北大核心 2019年第11期186-192,共7页
针对农田数据在高吞吐量、高并发、多条件处理过程中易产生运算负载大、响应速度慢等难题,研究了负载均衡大规模集群数据处理技术,优化了多条件检索时Hbase农田数据库,提出了基于Solr的二级非主键索引方法,搭建了基于Hadoop的农田大数... 针对农田数据在高吞吐量、高并发、多条件处理过程中易产生运算负载大、响应速度慢等难题,研究了负载均衡大规模集群数据处理技术,优化了多条件检索时Hbase农田数据库,提出了基于Solr的二级非主键索引方法,搭建了基于Hadoop的农田大数据平台,采用农机深松、植保、保护性耕作等8种作业生成的100 TB数据对平台进行了检索实验和压力测试实验。实验结果表明,多条件检索时,优化后的技术模型在数据规模达到5×10^7条时,系统的响应时间小于1 s,优化的性能与原生Hbase相比提高了3倍;在模拟用户达到5×10^5次时,系统的QPS及TPS提高了1倍左右、RT提高了2.5倍,系统的平均响应时间为183 ms。本研究解决了高吞吐量、高并发导致农田数据检索效率低的问题,提高了海量农田数据实时处理的计算能力。 展开更多
关键词 农田 大数据 索引 solr HBASE HADOOP
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部