期刊文献+
共找到216篇文章
< 1 2 11 >
每页显示 20 50 100
中文分词算法概述 被引量:39
1
作者 龙树全 赵正文 唐华 《电脑知识与技术》 2009年第4期2605-2607,共3页
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模... 当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。 展开更多
关键词 中文分词 全文检索 算法 搜索引擎 歧义切分
下载PDF
基于Lucene的全文检索引擎研究与应用 被引量:19
2
作者 林碧英 赵锐 陈良臣 《计算机技术与发展》 2007年第5期184-186,190,共4页
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实... 快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。 展开更多
关键词 全文检索 索引 应用研究/Lucene
下载PDF
基于Lucene的网站全文搜索的设计与实现 被引量:15
3
作者 陈庆伟 刘军 《科技情报开发与经济》 2005年第15期242-244,共3页
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全... Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全文搜索工具,并对在构建系统中应注意的若干问题进行了探讨。 展开更多
关键词 全文搜索 LUCENE JAVA
下载PDF
关于自然语言检索问题 被引量:23
4
作者 张琪玉 《图书馆论坛》 CSSCI 北大核心 2004年第6期211-213,145,共4页
自然语言检索当前仅在关键词检索的层次上已经实现 ,重点分析了全文检索所适应和不适应的检索要求及其评价 ,用分析说明了当前关于自然语言检索的主流观点的不切实际 ,指出自然语言检索的发展方向是与情报检索语言结合和融合。
关键词 自然语言检索 情报检索语言 关键词检索 实际 全文检索 观点 重点分析 层次 融合
下载PDF
基于Solr的分布式全文检索系统的研究与实现 被引量:23
5
作者 李戴维 李宁 《计算机与现代化》 2012年第11期171-176,共6页
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr... 随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。 展开更多
关键词 全文检索 SOLR 分布式 Zookeeper
下载PDF
基于Lucene的地名数据库快速检索系统 被引量:20
6
作者 张文元 周世宇 谈国新 《计算机应用研究》 CSCD 北大核心 2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器... 针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。 展开更多
关键词 LUCENE 地名 全文检索 数据库 中文分词 相关度排序
下载PDF
基于Lucene的BM25模型的评分机制的研究 被引量:15
7
作者 范晨熙 黄理灿 李雪利 《工业控制计算机》 2013年第3期78-79,共2页
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进... Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索。 展开更多
关键词 BM25 LUCENE 全文检索 评分机制 搜索引擎
下载PDF
Lucene全文检索引擎技术及应用 被引量:10
8
作者 周平 《重庆工学院学报》 2007年第7期86-88,共3页
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.
关键词 LUCENE 全文检索 搜索引擎
下载PDF
基于Lucene的数据库全文信息检索 被引量:10
9
作者 王富强 王青山 +2 位作者 张立朝 朱浩群 王锐 《测绘科学》 CSCD 北大核心 2008年第3期184-186,共3页
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索... 本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索,具有丰富的接口设计和良好的扩展性,适用于海量数据的检索和查询。 展开更多
关键词 LUCENE 全文检索 数据库
下载PDF
基于Lucene的Web站点站内全文检索系统的设计与实现 被引量:10
10
作者 曹强 《图书情报工作》 CSSCI 北大核心 2007年第9期124-126,144,共4页
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和... 设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。 展开更多
关键词 LUCENE 全文检索 搜索引擎
原文传递
基于Lucene的PDF文档的全文检索的实现 被引量:11
11
作者 黄江平 黄理灿 徐玲 《工业控制计算机》 2012年第5期103-104,共2页
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最... 在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。 展开更多
关键词 LUCENE PDF 全文检索 高亮显示
下载PDF
非结构化文本的自动分类检索平台的研究与实现 被引量:10
12
作者 谢子超 《软件》 2015年第11期112-114,119,共4页
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息... 信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息的同时还可以对现有的数据进行自动化管理和分类,这样既方便了数据存储也方便了数据查询。本文的主要研究内容为在利用Lucene实现对POI处理过后的中文文本进行全文检索的基础上,研究现阶段的一些主流的机器学习分类算法,利用Weka对中文文本进行自动分类,以提高平台的查询效率,设计实现一个针对中文文本的自动分类检索平台,具有较强的实现价值。 展开更多
关键词 全文检索 LUCENE 文本分类 WEKA
下载PDF
基于文本聚类与分布式Lucene的知识检索 被引量:10
13
作者 冯汝伟 谢强 丁秋林 《计算机应用》 CSCD 北大核心 2013年第1期186-188,共3页
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规... 针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。 展开更多
关键词 非结构化知识 分布式索引 文本聚类 全文检索 并行检索
下载PDF
全文检索搜索引擎中文信息处理技术研究 被引量:5
14
作者 唐培丽 胡明 +1 位作者 解飞 刘钢 《情报科学》 CSSCI 北大核心 2006年第6期895-899,909,共6页
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以... 本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。 展开更多
关键词 全文检索 搜索引擎 中文分词 信息检索
下载PDF
基于Lucene对文件全文检索的研究与应用 被引量:8
15
作者 郭永利 卢颖颖 《微型电脑应用》 2014年第1期51-54,共4页
分析了Lucene的原理,针对Lucene的IndexReader、IndexSearcher、IndexWriter、Directory的各种不足,研究了不同优化方案,并通过重写源码中的QueryParser限制效率低下的通配符查询及模糊查询,提高了搜索响应速度,最后,文章研究了Lucene... 分析了Lucene的原理,针对Lucene的IndexReader、IndexSearcher、IndexWriter、Directory的各种不足,研究了不同优化方案,并通过重写源码中的QueryParser限制效率低下的通配符查询及模糊查询,提高了搜索响应速度,最后,文章研究了Lucene的多个应用领域。 展开更多
关键词 搜索引擎 全文搜索 分词 索引 优化
下载PDF
基于Sphinx的Web站内搜索引擎的设计与实现 被引量:7
16
作者 刘清明 彭宇扬 彭自成 《微计算机信息》 2010年第15期116-118,共3页
目前站内搜索已成为Web应用领域的一个热点课题。本文在对站内搜索技术进行分析比较的基础上,根据Sphinx系统结构和运行机制的特点提出了一种可通用的基于Sphinx构建Web站内搜索引擎的方法。该方法对于利用LAMP技术构建的网站,不用修改... 目前站内搜索已成为Web应用领域的一个热点课题。本文在对站内搜索技术进行分析比较的基础上,根据Sphinx系统结构和运行机制的特点提出了一种可通用的基于Sphinx构建Web站内搜索引擎的方法。该方法对于利用LAMP技术构建的网站,不用修改它的原有架构而能便捷地生成一个性能优越的站内搜索引擎。 展开更多
关键词 站内搜索 全文检索 数据库驱动 分词
下载PDF
轻量级缓存策略的关系型数据库全文搜索加强与扩展 被引量:4
17
作者 杨婷 莫若玉 +1 位作者 张秀娟 朱洲森 《计算机应用》 CSCD 北大核心 2023年第8期2431-2438,共8页
针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处... 针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈,并提升系统整体性能;其次,为保证搜索结果的准确性和时效性,进一步提出索引同步策略,而且设计并实现了增量索引组件来隐藏索引处理细节,从而提高模型的易用性和通用性;最后,对于热点数据提供一种基于访问热度的索引更新机制,以降低倒排索引的内存占用。实验结果表明,所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下,空间资源消耗比MySQL全文索引降低了48.8%~60.9%,比Elasticsearch降低了85.2%~96.2%,证明所提模型在实际应用中可行且有效。 展开更多
关键词 MYSQL REDIS 全文搜索 倒排索引 一致性
下载PDF
全文检索系统的数据预处理研究 被引量:3
18
作者 韩升 刘广志 《计算机技术与发展》 2006年第3期208-210,共3页
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索... 全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。 展开更多
关键词 全文检索 预处理 文本标引 索引数据库
下载PDF
基于Lucene的全文检索系统模型的研究及应用 被引量:6
19
作者 梁弼 王光琼 邓小清 《微型机与应用》 2011年第1期44-46,共3页
分析了Lucene的系统结构及检索原理,设计了一个基于Lucene的全文检索系统模型,并将该系统模型应用到自动答疑系统中进行实验。实验结果表明,以Lucene作为核心的检索系统不仅建立索引的效率高,而且检索速度也较快。
关键词 LUCENE 全文检索 索引 搜索速度
下载PDF
利用NoSQL构建高性能全文检索系统 被引量:6
20
作者 毕洪宇 《计算机与现代化》 2012年第3期122-124,127,共4页
随着互联网的发展,数据的增加越来越快,从海量的信息中快速地提取出用户需求的信息成为新的挑战。传统的方式已经不能完全满足现在的需求,而NoSQL却能够有效地解决这一问题。本文首先分析Lucene的特点以及不足,并利用NoSQL来构建全文检... 随着互联网的发展,数据的增加越来越快,从海量的信息中快速地提取出用户需求的信息成为新的挑战。传统的方式已经不能完全满足现在的需求,而NoSQL却能够有效地解决这一问题。本文首先分析Lucene的特点以及不足,并利用NoSQL来构建全文检索系统,最后通过实验来检验此架构的性能。 展开更多
关键词 全文检索 NOSQL 海量数据 LUCENE
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部