期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
216
篇文章
<
1
2
…
11
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
中文分词算法概述
被引量:
39
1
作者
龙树全
赵正文
唐华
《电脑知识与技术》
2009年第4期2605-2607,共3页
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模...
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。
展开更多
关键词
中文分词
全文检索
算法
搜索引擎
歧义切分
下载PDF
职称材料
基于Lucene的全文检索引擎研究与应用
被引量:
19
2
作者
林碧英
赵锐
陈良臣
《计算机技术与发展》
2007年第5期184-186,190,共4页
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实...
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。
展开更多
关键词
全文检索
索引
应用研究/Lucene
下载PDF
职称材料
基于Lucene的网站全文搜索的设计与实现
被引量:
15
3
作者
陈庆伟
刘军
《科技情报开发与经济》
2005年第15期242-244,共3页
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全...
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全文搜索工具,并对在构建系统中应注意的若干问题进行了探讨。
展开更多
关键词
全文搜索
LUCENE
JAVA
下载PDF
职称材料
关于自然语言检索问题
被引量:
23
4
作者
张琪玉
《图书馆论坛》
CSSCI
北大核心
2004年第6期211-213,145,共4页
自然语言检索当前仅在关键词检索的层次上已经实现 ,重点分析了全文检索所适应和不适应的检索要求及其评价 ,用分析说明了当前关于自然语言检索的主流观点的不切实际 ,指出自然语言检索的发展方向是与情报检索语言结合和融合。
关键词
自然语言检索
情报检索语言
关键词检索
实际
全文检索
观点
重点分析
层次
融合
下载PDF
职称材料
基于Solr的分布式全文检索系统的研究与实现
被引量:
23
5
作者
李戴维
李宁
《计算机与现代化》
2012年第11期171-176,共6页
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr...
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。
展开更多
关键词
全文检索
SOLR
分布式
Zookeeper
下载PDF
职称材料
基于Lucene的地名数据库快速检索系统
被引量:
20
6
作者
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器...
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
展开更多
关键词
LUCENE
地名
全文检索
数据库
中文分词
相关度排序
下载PDF
职称材料
基于Lucene的BM25模型的评分机制的研究
被引量:
15
7
作者
范晨熙
黄理灿
李雪利
《工业控制计算机》
2013年第3期78-79,共2页
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进...
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索。
展开更多
关键词
BM25
LUCENE
全文检索
评分机制
搜索引擎
下载PDF
职称材料
Lucene全文检索引擎技术及应用
被引量:
10
8
作者
周平
《重庆工学院学报》
2007年第7期86-88,共3页
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.
关键词
LUCENE
全文检索
搜索引擎
下载PDF
职称材料
基于Lucene的数据库全文信息检索
被引量:
10
9
作者
王富强
王青山
+2 位作者
张立朝
朱浩群
王锐
《测绘科学》
CSCD
北大核心
2008年第3期184-186,共3页
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索...
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索,具有丰富的接口设计和良好的扩展性,适用于海量数据的检索和查询。
展开更多
关键词
LUCENE
全文检索
数据库
下载PDF
职称材料
基于Lucene的Web站点站内全文检索系统的设计与实现
被引量:
10
10
作者
曹强
《图书情报工作》
CSSCI
北大核心
2007年第9期124-126,144,共4页
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和...
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。
展开更多
关键词
LUCENE
全文检索
搜索引擎
原文传递
基于Lucene的PDF文档的全文检索的实现
被引量:
11
11
作者
黄江平
黄理灿
徐玲
《工业控制计算机》
2012年第5期103-104,共2页
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最...
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。
展开更多
关键词
LUCENE
PDF
全文检索
高亮显示
下载PDF
职称材料
非结构化文本的自动分类检索平台的研究与实现
被引量:
10
12
作者
谢子超
《软件》
2015年第11期112-114,119,共4页
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息...
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息的同时还可以对现有的数据进行自动化管理和分类,这样既方便了数据存储也方便了数据查询。本文的主要研究内容为在利用Lucene实现对POI处理过后的中文文本进行全文检索的基础上,研究现阶段的一些主流的机器学习分类算法,利用Weka对中文文本进行自动分类,以提高平台的查询效率,设计实现一个针对中文文本的自动分类检索平台,具有较强的实现价值。
展开更多
关键词
全文检索
LUCENE
文本分类
WEKA
下载PDF
职称材料
基于文本聚类与分布式Lucene的知识检索
被引量:
10
13
作者
冯汝伟
谢强
丁秋林
《计算机应用》
CSCD
北大核心
2013年第1期186-188,共3页
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规...
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。
展开更多
关键词
非结构化知识
分布式索引
文本聚类
全文检索
并行检索
下载PDF
职称材料
全文检索搜索引擎中文信息处理技术研究
被引量:
5
14
作者
唐培丽
胡明
+1 位作者
解飞
刘钢
《情报科学》
CSSCI
北大核心
2006年第6期895-899,909,共6页
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以...
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。
展开更多
关键词
全文检索
搜索引擎
中文分词
信息检索
下载PDF
职称材料
基于Lucene对文件全文检索的研究与应用
被引量:
8
15
作者
郭永利
卢颖颖
《微型电脑应用》
2014年第1期51-54,共4页
分析了Lucene的原理,针对Lucene的IndexReader、IndexSearcher、IndexWriter、Directory的各种不足,研究了不同优化方案,并通过重写源码中的QueryParser限制效率低下的通配符查询及模糊查询,提高了搜索响应速度,最后,文章研究了Lucene...
分析了Lucene的原理,针对Lucene的IndexReader、IndexSearcher、IndexWriter、Directory的各种不足,研究了不同优化方案,并通过重写源码中的QueryParser限制效率低下的通配符查询及模糊查询,提高了搜索响应速度,最后,文章研究了Lucene的多个应用领域。
展开更多
关键词
搜索引擎
全文搜索
分词
索引
优化
下载PDF
职称材料
基于Sphinx的Web站内搜索引擎的设计与实现
被引量:
7
16
作者
刘清明
彭宇扬
彭自成
《微计算机信息》
2010年第15期116-118,共3页
目前站内搜索已成为Web应用领域的一个热点课题。本文在对站内搜索技术进行分析比较的基础上,根据Sphinx系统结构和运行机制的特点提出了一种可通用的基于Sphinx构建Web站内搜索引擎的方法。该方法对于利用LAMP技术构建的网站,不用修改...
目前站内搜索已成为Web应用领域的一个热点课题。本文在对站内搜索技术进行分析比较的基础上,根据Sphinx系统结构和运行机制的特点提出了一种可通用的基于Sphinx构建Web站内搜索引擎的方法。该方法对于利用LAMP技术构建的网站,不用修改它的原有架构而能便捷地生成一个性能优越的站内搜索引擎。
展开更多
关键词
站内搜索
全文检索
数据库驱动
分词
下载PDF
职称材料
轻量级缓存策略的关系型数据库全文搜索加强与扩展
被引量:
4
17
作者
杨婷
莫若玉
+1 位作者
张秀娟
朱洲森
《计算机应用》
CSCD
北大核心
2023年第8期2431-2438,共8页
针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处...
针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈,并提升系统整体性能;其次,为保证搜索结果的准确性和时效性,进一步提出索引同步策略,而且设计并实现了增量索引组件来隐藏索引处理细节,从而提高模型的易用性和通用性;最后,对于热点数据提供一种基于访问热度的索引更新机制,以降低倒排索引的内存占用。实验结果表明,所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下,空间资源消耗比MySQL全文索引降低了48.8%~60.9%,比Elasticsearch降低了85.2%~96.2%,证明所提模型在实际应用中可行且有效。
展开更多
关键词
MYSQL
REDIS
全文搜索
倒排索引
一致性
下载PDF
职称材料
全文检索系统的数据预处理研究
被引量:
3
18
作者
韩升
刘广志
《计算机技术与发展》
2006年第3期208-210,共3页
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索...
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。
展开更多
关键词
全文检索
预处理
文本标引
索引数据库
下载PDF
职称材料
基于Lucene的全文检索系统模型的研究及应用
被引量:
6
19
作者
梁弼
王光琼
邓小清
《微型机与应用》
2011年第1期44-46,共3页
分析了Lucene的系统结构及检索原理,设计了一个基于Lucene的全文检索系统模型,并将该系统模型应用到自动答疑系统中进行实验。实验结果表明,以Lucene作为核心的检索系统不仅建立索引的效率高,而且检索速度也较快。
关键词
LUCENE
全文检索
索引
搜索速度
下载PDF
职称材料
利用NoSQL构建高性能全文检索系统
被引量:
6
20
作者
毕洪宇
《计算机与现代化》
2012年第3期122-124,127,共4页
随着互联网的发展,数据的增加越来越快,从海量的信息中快速地提取出用户需求的信息成为新的挑战。传统的方式已经不能完全满足现在的需求,而NoSQL却能够有效地解决这一问题。本文首先分析Lucene的特点以及不足,并利用NoSQL来构建全文检...
随着互联网的发展,数据的增加越来越快,从海量的信息中快速地提取出用户需求的信息成为新的挑战。传统的方式已经不能完全满足现在的需求,而NoSQL却能够有效地解决这一问题。本文首先分析Lucene的特点以及不足,并利用NoSQL来构建全文检索系统,最后通过实验来检验此架构的性能。
展开更多
关键词
全文检索
NOSQL
海量数据
LUCENE
下载PDF
职称材料
题名
中文分词算法概述
被引量:
39
1
作者
龙树全
赵正文
唐华
机构
西南石油大学计算机科学学院
出处
《电脑知识与技术》
2009年第4期2605-2607,共3页
文摘
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。
关键词
中文分词
全文检索
算法
搜索引擎
歧义切分
Keywords
chinese
segmentations
full
-
text
search
algorithm
search
engine
ambiguous
word
segmentation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于Lucene的全文检索引擎研究与应用
被引量:
19
2
作者
林碧英
赵锐
陈良臣
机构
华北电力大学计算机科学与技术学院
出处
《计算机技术与发展》
2007年第5期184-186,190,共4页
基金
中国下一代互联网示范工程(CNGI)移动奥运资助项目(CNGI-04-17-2A)
文摘
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。
关键词
全文检索
索引
应用研究/Lucene
Keywords
full
-
text
search
indexing
applied
re
search
/Lucene
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的网站全文搜索的设计与实现
被引量:
15
3
作者
陈庆伟
刘军
机构
山西省网络管理中心
山西省科技情报研究所
出处
《科技情报开发与经济》
2005年第15期242-244,共3页
文摘
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全文搜索工具,并对在构建系统中应注意的若干问题进行了探讨。
关键词
全文搜索
LUCENE
JAVA
Keywords
full
-
text
search
Lucene
Java
分类号
TP393.07 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于自然语言检索问题
被引量:
23
4
作者
张琪玉
机构
南京政治学院上海分院
出处
《图书馆论坛》
CSSCI
北大核心
2004年第6期211-213,145,共4页
文摘
自然语言检索当前仅在关键词检索的层次上已经实现 ,重点分析了全文检索所适应和不适应的检索要求及其评价 ,用分析说明了当前关于自然语言检索的主流观点的不切实际 ,指出自然语言检索的发展方向是与情报检索语言结合和融合。
关键词
自然语言检索
情报检索语言
关键词检索
实际
全文检索
观点
重点分析
层次
融合
Keywords
natural
language
search
ing
keyword
search
ing
full
-
text
search
ing
search
engine
automatic
indexing
automatic
classification
分类号
G354 [文化科学—情报学]
G254
下载PDF
职称材料
题名
基于Solr的分布式全文检索系统的研究与实现
被引量:
23
5
作者
李戴维
李宁
机构
华北计算技术研究所信息技术与应用系统部
出处
《计算机与现代化》
2012年第11期171-176,共6页
文摘
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。
关键词
全文检索
SOLR
分布式
Zookeeper
Keywords
full
-
text
search
Solr
distribution
Zookeeper
分类号
TP311.133.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的地名数据库快速检索系统
被引量:
20
6
作者
张文元
周世宇
谈国新
机构
华中师范大学国家文化产业研究中心
出处
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
基金
国家科技支撑计划资助项目(2012BAH83F00)
文摘
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
关键词
LUCENE
地名
全文检索
数据库
中文分词
相关度排序
Keywords
Lucene
place
name
full
-
text
search
database
Chinese
word
segmentation
relevancy
ranking
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的BM25模型的评分机制的研究
被引量:
15
7
作者
范晨熙
黄理灿
李雪利
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2013年第3期78-79,共2页
文摘
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索。
关键词
BM25
LUCENE
全文检索
评分机制
搜索引擎
Keywords
BM25,Lucene,
full
-
text
search
,scoring
mechanism,
search
Engine
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Lucene全文检索引擎技术及应用
被引量:
10
8
作者
周平
机构
上海电力学院计算机与信息工程学院
出处
《重庆工学院学报》
2007年第7期86-88,共3页
基金
上海高校选拔培养优秀青年教师科研专项基金资助项目
文摘
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.
关键词
LUCENE
全文检索
搜索引擎
Keywords
Lucene
full
-
text
search
engine
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的数据库全文信息检索
被引量:
10
9
作者
王富强
王青山
张立朝
朱浩群
王锐
机构
解放军信息工程大学测绘学院
[
出处
《测绘科学》
CSCD
北大核心
2008年第3期184-186,共3页
文摘
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索,具有丰富的接口设计和良好的扩展性,适用于海量数据的检索和查询。
关键词
LUCENE
全文检索
数据库
Keywords
Lucene
full
-
text
search
database
分类号
P208 [天文地球—地图制图学与地理信息工程]
下载PDF
职称材料
题名
基于Lucene的Web站点站内全文检索系统的设计与实现
被引量:
10
10
作者
曹强
机构
南京大学中美文化研究中心图书馆
出处
《图书情报工作》
CSSCI
北大核心
2007年第9期124-126,144,共4页
文摘
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。
关键词
LUCENE
全文检索
搜索引擎
Keywords
Lucene
full
-
text
retrieval
search
engine
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
基于Lucene的PDF文档的全文检索的实现
被引量:
11
11
作者
黄江平
黄理灿
徐玲
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2012年第5期103-104,共2页
文摘
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。
关键词
LUCENE
PDF
全文检索
高亮显示
Keywords
lucene,PDF,
full
-
text
search
,highlight
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
非结构化文本的自动分类检索平台的研究与实现
被引量:
10
12
作者
谢子超
机构
华北计算技术研究所
出处
《软件》
2015年第11期112-114,119,共4页
文摘
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息的同时还可以对现有的数据进行自动化管理和分类,这样既方便了数据存储也方便了数据查询。本文的主要研究内容为在利用Lucene实现对POI处理过后的中文文本进行全文检索的基础上,研究现阶段的一些主流的机器学习分类算法,利用Weka对中文文本进行自动分类,以提高平台的查询效率,设计实现一个针对中文文本的自动分类检索平台,具有较强的实现价值。
关键词
全文检索
LUCENE
文本分类
WEKA
Keywords
full
-
text
search
Lucene
text
-classify
Weka
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本聚类与分布式Lucene的知识检索
被引量:
10
13
作者
冯汝伟
谢强
丁秋林
机构
南京航空航天大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2013年第1期186-188,共3页
文摘
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。
关键词
非结构化知识
分布式索引
文本聚类
全文检索
并行检索
Keywords
unstructured
knowledge
distributed
index
text
clustering
full
-
text
search
parallel
retrieval
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
全文检索搜索引擎中文信息处理技术研究
被引量:
5
14
作者
唐培丽
胡明
解飞
刘钢
机构
长春工业大学计算机科学与工程学院
武警吉林省总队通信处
出处
《情报科学》
CSSCI
北大核心
2006年第6期895-899,909,共6页
文摘
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。
关键词
全文检索
搜索引擎
中文分词
信息检索
Keywords
full
-
text
retrieval
search
engine
Chinese
word
segmentation
information
retrieval
分类号
G354 [文化科学—情报学]
下载PDF
职称材料
题名
基于Lucene对文件全文检索的研究与应用
被引量:
8
15
作者
郭永利
卢颖颖
机构
南阳电视广播大学
出处
《微型电脑应用》
2014年第1期51-54,共4页
文摘
分析了Lucene的原理,针对Lucene的IndexReader、IndexSearcher、IndexWriter、Directory的各种不足,研究了不同优化方案,并通过重写源码中的QueryParser限制效率低下的通配符查询及模糊查询,提高了搜索响应速度,最后,文章研究了Lucene的多个应用领域。
关键词
搜索引擎
全文搜索
分词
索引
优化
Keywords
search
Engine
full
-
text
search
Word
Segmentation
Index
Optimize
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Sphinx的Web站内搜索引擎的设计与实现
被引量:
7
16
作者
刘清明
彭宇扬
彭自成
机构
中山大学物理科学与工程技术学院
广州市视高电子技术有限公司
出处
《微计算机信息》
2010年第15期116-118,共3页
文摘
目前站内搜索已成为Web应用领域的一个热点课题。本文在对站内搜索技术进行分析比较的基础上,根据Sphinx系统结构和运行机制的特点提出了一种可通用的基于Sphinx构建Web站内搜索引擎的方法。该方法对于利用LAMP技术构建的网站,不用修改它的原有架构而能便捷地生成一个性能优越的站内搜索引擎。
关键词
站内搜索
全文检索
数据库驱动
分词
Keywords
Website
Internal
search
full
-
text
search
Database
Driven
Word
Segmentation
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
轻量级缓存策略的关系型数据库全文搜索加强与扩展
被引量:
4
17
作者
杨婷
莫若玉
张秀娟
朱洲森
机构
四川师范大学物理与电子工程学院
出处
《计算机应用》
CSCD
北大核心
2023年第8期2431-2438,共8页
基金
国家社会科学基金资助项目(20BMZ092)。
文摘
针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈,并提升系统整体性能;其次,为保证搜索结果的准确性和时效性,进一步提出索引同步策略,而且设计并实现了增量索引组件来隐藏索引处理细节,从而提高模型的易用性和通用性;最后,对于热点数据提供一种基于访问热度的索引更新机制,以降低倒排索引的内存占用。实验结果表明,所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下,空间资源消耗比MySQL全文索引降低了48.8%~60.9%,比Elasticsearch降低了85.2%~96.2%,证明所提模型在实际应用中可行且有效。
关键词
MYSQL
REDIS
全文搜索
倒排索引
一致性
Keywords
MySQL
Redis
full
-
text
search
inverted
index
consistency
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
全文检索系统的数据预处理研究
被引量:
3
18
作者
韩升
刘广志
机构
北京交通大学软件学院
出处
《计算机技术与发展》
2006年第3期208-210,共3页
文摘
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。
关键词
全文检索
预处理
文本标引
索引数据库
Keywords
full
-
text
search
pretreatment
document
indexing
index
database
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的全文检索系统模型的研究及应用
被引量:
6
19
作者
梁弼
王光琼
邓小清
机构
四川文理学院计算机科学系
出处
《微型机与应用》
2011年第1期44-46,共3页
基金
四川文理学院2009年科研项目(2009B02Z)
文摘
分析了Lucene的系统结构及检索原理,设计了一个基于Lucene的全文检索系统模型,并将该系统模型应用到自动答疑系统中进行实验。实验结果表明,以Lucene作为核心的检索系统不仅建立索引的效率高,而且检索速度也较快。
关键词
LUCENE
全文检索
索引
搜索速度
Keywords
Lucene
full
-
text
retrieval
index
search
speed
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
利用NoSQL构建高性能全文检索系统
被引量:
6
20
作者
毕洪宇
机构
同济大学电子与信息工程学院
出处
《计算机与现代化》
2012年第3期122-124,127,共4页
基金
上海市科学技术委员会科技支撑计划项目(1049503700)
文摘
随着互联网的发展,数据的增加越来越快,从海量的信息中快速地提取出用户需求的信息成为新的挑战。传统的方式已经不能完全满足现在的需求,而NoSQL却能够有效地解决这一问题。本文首先分析Lucene的特点以及不足,并利用NoSQL来构建全文检索系统,最后通过实验来检验此架构的性能。
关键词
全文检索
NOSQL
海量数据
LUCENE
Keywords
full
-
text
search
NoSQL
magnanimity
data
Lucene
分类号
TP311.131 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
中文分词算法概述
龙树全
赵正文
唐华
《电脑知识与技术》
2009
39
下载PDF
职称材料
2
基于Lucene的全文检索引擎研究与应用
林碧英
赵锐
陈良臣
《计算机技术与发展》
2007
19
下载PDF
职称材料
3
基于Lucene的网站全文搜索的设计与实现
陈庆伟
刘军
《科技情报开发与经济》
2005
15
下载PDF
职称材料
4
关于自然语言检索问题
张琪玉
《图书馆论坛》
CSSCI
北大核心
2004
23
下载PDF
职称材料
5
基于Solr的分布式全文检索系统的研究与实现
李戴维
李宁
《计算机与现代化》
2012
23
下载PDF
职称材料
6
基于Lucene的地名数据库快速检索系统
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017
20
下载PDF
职称材料
7
基于Lucene的BM25模型的评分机制的研究
范晨熙
黄理灿
李雪利
《工业控制计算机》
2013
15
下载PDF
职称材料
8
Lucene全文检索引擎技术及应用
周平
《重庆工学院学报》
2007
10
下载PDF
职称材料
9
基于Lucene的数据库全文信息检索
王富强
王青山
张立朝
朱浩群
王锐
《测绘科学》
CSCD
北大核心
2008
10
下载PDF
职称材料
10
基于Lucene的Web站点站内全文检索系统的设计与实现
曹强
《图书情报工作》
CSSCI
北大核心
2007
10
原文传递
11
基于Lucene的PDF文档的全文检索的实现
黄江平
黄理灿
徐玲
《工业控制计算机》
2012
11
下载PDF
职称材料
12
非结构化文本的自动分类检索平台的研究与实现
谢子超
《软件》
2015
10
下载PDF
职称材料
13
基于文本聚类与分布式Lucene的知识检索
冯汝伟
谢强
丁秋林
《计算机应用》
CSCD
北大核心
2013
10
下载PDF
职称材料
14
全文检索搜索引擎中文信息处理技术研究
唐培丽
胡明
解飞
刘钢
《情报科学》
CSSCI
北大核心
2006
5
下载PDF
职称材料
15
基于Lucene对文件全文检索的研究与应用
郭永利
卢颖颖
《微型电脑应用》
2014
8
下载PDF
职称材料
16
基于Sphinx的Web站内搜索引擎的设计与实现
刘清明
彭宇扬
彭自成
《微计算机信息》
2010
7
下载PDF
职称材料
17
轻量级缓存策略的关系型数据库全文搜索加强与扩展
杨婷
莫若玉
张秀娟
朱洲森
《计算机应用》
CSCD
北大核心
2023
4
下载PDF
职称材料
18
全文检索系统的数据预处理研究
韩升
刘广志
《计算机技术与发展》
2006
3
下载PDF
职称材料
19
基于Lucene的全文检索系统模型的研究及应用
梁弼
王光琼
邓小清
《微型机与应用》
2011
6
下载PDF
职称材料
20
利用NoSQL构建高性能全文检索系统
毕洪宇
《计算机与现代化》
2012
6
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
11
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部