期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
216
篇文章
<
1
2
…
11
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
中文分词算法概述
被引量:
39
1
作者
龙树全
赵正文
唐华
《电脑知识与技术》
2009年第4期2605-2607,共3页
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模...
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。
展开更多
关键词
中文分词
全文检索
算法
搜索引擎
歧义切分
下载PDF
职称材料
面向网络的全文检索中索引文件的组织
被引量:
12
2
作者
颜维龙
盖杰
+1 位作者
武港山
袁春风
《计算机应用研究》
CSCD
北大核心
2002年第11期124-126,146,共4页
为了提高网络中全文检索的效率 ,需要对Web页面中内容进行分析、建立全文索引 ,并对索引的结构进行高效率的组织。讨论了索引的组织结构及其实现方法 ,并分析了不同的组织方法的性能。
关键词
全文检索
字表
正排表
倒排表
索引
下载PDF
职称材料
基于Lucene的全文检索引擎研究与应用
被引量:
19
3
作者
林碧英
赵锐
陈良臣
《计算机技术与发展》
2007年第5期184-186,190,共4页
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实...
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。
展开更多
关键词
全文检索
索引
应用研究/Lucene
下载PDF
职称材料
基于Lucene的网站全文搜索的设计与实现
被引量:
15
4
作者
陈庆伟
刘军
《科技情报开发与经济》
2005年第15期242-244,共3页
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全...
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全文搜索工具,并对在构建系统中应注意的若干问题进行了探讨。
展开更多
关键词
全文搜索
LUCENE
JAVA
下载PDF
职称材料
关于自然语言检索问题
被引量:
23
5
作者
张琪玉
《图书馆论坛》
CSSCI
北大核心
2004年第6期211-213,145,共4页
自然语言检索当前仅在关键词检索的层次上已经实现 ,重点分析了全文检索所适应和不适应的检索要求及其评价 ,用分析说明了当前关于自然语言检索的主流观点的不切实际 ,指出自然语言检索的发展方向是与情报检索语言结合和融合。
关键词
自然语言检索
情报检索语言
关键词检索
实际
全文检索
观点
重点分析
层次
融合
下载PDF
职称材料
基于Solr的分布式全文检索系统的研究与实现
被引量:
23
6
作者
李戴维
李宁
《计算机与现代化》
2012年第11期171-176,共6页
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr...
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。
展开更多
关键词
全文检索
SOLR
分布式
Zookeeper
下载PDF
职称材料
基于Lucene的地名数据库快速检索系统
被引量:
20
7
作者
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器...
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
展开更多
关键词
LUCENE
地名
全文检索
数据库
中文分词
相关度排序
下载PDF
职称材料
基于Lucene的BM25模型的评分机制的研究
被引量:
15
8
作者
范晨熙
黄理灿
李雪利
《工业控制计算机》
2013年第3期78-79,共2页
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进...
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索。
展开更多
关键词
BM25
LUCENE
全文检索
评分机制
搜索引擎
下载PDF
职称材料
基于开源全文检索系统Solr的OPAC分面浏览
被引量:
14
9
作者
陈波
《现代图书情报技术》
CSSCI
北大核心
2007年第11期72-75,共4页
简单介绍开源的全文检索系统Solr的起源、功能特点、系统架构与使用方法,然后对分面浏览的定义与当前检索方式相比的优越性进行分析。通过自建的后台服务程序对现有MARC数据进行分析并传递给Solr以生成索引文件,修改Solr的配置完成对现...
简单介绍开源的全文检索系统Solr的起源、功能特点、系统架构与使用方法,然后对分面浏览的定义与当前检索方式相比的优越性进行分析。通过自建的后台服务程序对现有MARC数据进行分析并传递给Solr以生成索引文件,修改Solr的配置完成对现有OPAC系统的改进,提供一种快速高效的分面浏览解决方案。Solr的性能卓越,在百万级的数据量下表现良好,值得推广使用。
展开更多
关键词
SOLR
分面浏览
OPAC
全文检索
下载PDF
职称材料
Lucene全文检索引擎技术及应用
被引量:
10
10
作者
周平
《重庆工学院学报》
2007年第7期86-88,共3页
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.
关键词
LUCENE
全文检索
搜索引擎
下载PDF
职称材料
全文检索引擎的设计研究
被引量:
8
11
作者
陈立
《现代情报》
北大核心
2007年第10期223-225,共3页
本文主要从"全文检索引擎(FullSearcher)"的设计与实现出发,讨论了其中的主要技术:全文检索、系统架构、数据的索引和搜索等。
关键词
全文检索
系统架构
数据索引
数据搜索
下载PDF
职称材料
开源中文分词器在web搜索引擎中的应用
被引量:
12
12
作者
刘晓婉
胡燕祝
艾新波
《软件》
2013年第3期80-83,共4页
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条...
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。
展开更多
关键词
分词器
WEB搜索
信息检索
智能分词
全文搜索
下载PDF
职称材料
基于Lucene的数据库全文信息检索
被引量:
10
13
作者
王富强
王青山
+2 位作者
张立朝
朱浩群
王锐
《测绘科学》
CSCD
北大核心
2008年第3期184-186,共3页
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索...
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索,具有丰富的接口设计和良好的扩展性,适用于海量数据的检索和查询。
展开更多
关键词
LUCENE
全文检索
数据库
下载PDF
职称材料
基于Lucene的Web站点站内全文检索系统的设计与实现
被引量:
10
14
作者
曹强
《图书情报工作》
CSSCI
北大核心
2007年第9期124-126,144,共4页
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和...
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。
展开更多
关键词
LUCENE
全文检索
搜索引擎
原文传递
基于Lucene的PDF文档的全文检索的实现
被引量:
11
15
作者
黄江平
黄理灿
徐玲
《工业控制计算机》
2012年第5期103-104,共2页
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最...
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。
展开更多
关键词
LUCENE
PDF
全文检索
高亮显示
下载PDF
职称材料
非结构化文本的自动分类检索平台的研究与实现
被引量:
10
16
作者
谢子超
《软件》
2015年第11期112-114,119,共4页
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息...
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息的同时还可以对现有的数据进行自动化管理和分类,这样既方便了数据存储也方便了数据查询。本文的主要研究内容为在利用Lucene实现对POI处理过后的中文文本进行全文检索的基础上,研究现阶段的一些主流的机器学习分类算法,利用Weka对中文文本进行自动分类,以提高平台的查询效率,设计实现一个针对中文文本的自动分类检索平台,具有较强的实现价值。
展开更多
关键词
全文检索
LUCENE
文本分类
WEKA
下载PDF
职称材料
基于文本聚类与分布式Lucene的知识检索
被引量:
10
17
作者
冯汝伟
谢强
丁秋林
《计算机应用》
CSCD
北大核心
2013年第1期186-188,共3页
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规...
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。
展开更多
关键词
非结构化知识
分布式索引
文本聚类
全文检索
并行检索
下载PDF
职称材料
基于Web的搜索引擎及其在化学信息资源导航中的应用
被引量:
8
18
作者
徐芳
李晓霞
温浩
《计算机与应用化学》
CAS
CSCD
1999年第1期19-23,24,共6页
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN(ChemicalInformationNetwork)网页全文检索系统的要求,讨论了全文检索的...
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN(ChemicalInformationNetwork)网页全文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统,同时给出了ChIN网页全文检索系统的应用实例。
展开更多
关键词
全文检索
搜索引擎
化学信息资源
网络
检索
原文传递
全文检索搜索引擎中文信息处理技术研究
被引量:
5
19
作者
唐培丽
胡明
+1 位作者
解飞
刘钢
《情报科学》
CSSCI
北大核心
2006年第6期895-899,909,共6页
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以...
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。
展开更多
关键词
全文检索
搜索引擎
中文分词
信息检索
下载PDF
职称材料
三种中文学术期刊全文检索系统的比较研究
被引量:
8
20
作者
施燕斌
敬卿
《津图学刊》
2004年第1期72-75,共4页
介绍并比较了维普中文科技期刊数据库、中国期刊网全文数据库以及万方数字化期刊子系统三种中文学术期刊全文检索系统的收录范围、全文浏览器和检索功能的异同点,并给出了检索结果的查全率和查准率以及数据更新频率的一个比较表。
关键词
维普中文科技期刊数据库
中国期刊网全文数据库
万方数字化期刊子系统
学术期刊
全文检索系统
全文浏览器
检索功能
检索效率
下载PDF
职称材料
题名
中文分词算法概述
被引量:
39
1
作者
龙树全
赵正文
唐华
机构
西南石油大学计算机科学学院
出处
《电脑知识与技术》
2009年第4期2605-2607,共3页
文摘
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。
关键词
中文分词
全文检索
算法
搜索引擎
歧义切分
Keywords
chinese
segmentations
full
-
text
search
algorithm
search
engine
ambiguous
word
segmentation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
面向网络的全文检索中索引文件的组织
被引量:
12
2
作者
颜维龙
盖杰
武港山
袁春风
机构
软件技术研究所国家重点实验室南京大学计算机科学与技术系
出处
《计算机应用研究》
CSCD
北大核心
2002年第11期124-126,146,共4页
基金
国家自然科学基金资助项目 (6 0 0 730 30 )
国家"86 3"项目资助 (2 0 0 1AA110 334)
文摘
为了提高网络中全文检索的效率 ,需要对Web页面中内容进行分析、建立全文索引 ,并对索引的结构进行高效率的组织。讨论了索引的组织结构及其实现方法 ,并分析了不同的组织方法的性能。
关键词
全文检索
字表
正排表
倒排表
索引
Keywords
full
text
search
Word
Lists
Forward
Lists
Inverted
Lists
Index
分类号
TP393.03 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的全文检索引擎研究与应用
被引量:
19
3
作者
林碧英
赵锐
陈良臣
机构
华北电力大学计算机科学与技术学院
出处
《计算机技术与发展》
2007年第5期184-186,190,共4页
基金
中国下一代互联网示范工程(CNGI)移动奥运资助项目(CNGI-04-17-2A)
文摘
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。
关键词
全文检索
索引
应用研究/Lucene
Keywords
full
-
text
search
indexing
applied
re
search
/Lucene
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的网站全文搜索的设计与实现
被引量:
15
4
作者
陈庆伟
刘军
机构
山西省网络管理中心
山西省科技情报研究所
出处
《科技情报开发与经济》
2005年第15期242-244,共3页
文摘
Lucene是一个基于Java技术的开放源代码全文索引引擎工具包,它可以方便地嵌入到各种应用中实现针对应用的全文索引/检索功能。利用Lucene的API可以比较方便地为一个网站提供全文搜索功能。探讨了如何使用Lucene建造一个通用的Web站点全文搜索工具,并对在构建系统中应注意的若干问题进行了探讨。
关键词
全文搜索
LUCENE
JAVA
Keywords
full
-
text
search
Lucene
Java
分类号
TP393.07 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于自然语言检索问题
被引量:
23
5
作者
张琪玉
机构
南京政治学院上海分院
出处
《图书馆论坛》
CSSCI
北大核心
2004年第6期211-213,145,共4页
文摘
自然语言检索当前仅在关键词检索的层次上已经实现 ,重点分析了全文检索所适应和不适应的检索要求及其评价 ,用分析说明了当前关于自然语言检索的主流观点的不切实际 ,指出自然语言检索的发展方向是与情报检索语言结合和融合。
关键词
自然语言检索
情报检索语言
关键词检索
实际
全文检索
观点
重点分析
层次
融合
Keywords
natural
language
search
ing
keyword
search
ing
full
-
text
search
ing
search
engine
automatic
indexing
automatic
classification
分类号
G354 [文化科学—情报学]
G254
下载PDF
职称材料
题名
基于Solr的分布式全文检索系统的研究与实现
被引量:
23
6
作者
李戴维
李宁
机构
华北计算技术研究所信息技术与应用系统部
出处
《计算机与现代化》
2012年第11期171-176,共6页
文摘
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。
关键词
全文检索
SOLR
分布式
Zookeeper
Keywords
full
-
text
search
Solr
distribution
Zookeeper
分类号
TP311.133.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的地名数据库快速检索系统
被引量:
20
7
作者
张文元
周世宇
谈国新
机构
华中师范大学国家文化产业研究中心
出处
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
基金
国家科技支撑计划资助项目(2012BAH83F00)
文摘
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
关键词
LUCENE
地名
全文检索
数据库
中文分词
相关度排序
Keywords
Lucene
place
name
full
-
text
search
database
Chinese
word
segmentation
relevancy
ranking
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的BM25模型的评分机制的研究
被引量:
15
8
作者
范晨熙
黄理灿
李雪利
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2013年第3期78-79,共2页
文摘
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序。通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分。经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索。
关键词
BM25
LUCENE
全文检索
评分机制
搜索引擎
Keywords
BM25,Lucene,
full
-
text
search
,scoring
mechanism,
search
Engine
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于开源全文检索系统Solr的OPAC分面浏览
被引量:
14
9
作者
陈波
机构
江苏汇文软件有限公司
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第11期72-75,共4页
文摘
简单介绍开源的全文检索系统Solr的起源、功能特点、系统架构与使用方法,然后对分面浏览的定义与当前检索方式相比的优越性进行分析。通过自建的后台服务程序对现有MARC数据进行分析并传递给Solr以生成索引文件,修改Solr的配置完成对现有OPAC系统的改进,提供一种快速高效的分面浏览解决方案。Solr的性能卓越,在百万级的数据量下表现良好,值得推广使用。
关键词
SOLR
分面浏览
OPAC
全文检索
Keywords
Solr
Faceted
browsing
OPAC
full
text
search
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Lucene全文检索引擎技术及应用
被引量:
10
10
作者
周平
机构
上海电力学院计算机与信息工程学院
出处
《重庆工学院学报》
2007年第7期86-88,共3页
基金
上海高校选拔培养优秀青年教师科研专项基金资助项目
文摘
介绍了Lucene全文索引及检索技术,包括它的组成结构和检索机制,提出了一个基于Lucene进行全文检索的方案.最后用一个实例进行了说明.
关键词
LUCENE
全文检索
搜索引擎
Keywords
Lucene
full
-
text
search
engine
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
全文检索引擎的设计研究
被引量:
8
11
作者
陈立
机构
长春大学计算机科学技术学院
出处
《现代情报》
北大核心
2007年第10期223-225,共3页
文摘
本文主要从"全文检索引擎(FullSearcher)"的设计与实现出发,讨论了其中的主要技术:全文检索、系统架构、数据的索引和搜索等。
关键词
全文检索
系统架构
数据索引
数据搜索
Keywords
full
text
search
system
architecture
data
indexing
data
search
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
开源中文分词器在web搜索引擎中的应用
被引量:
12
12
作者
刘晓婉
胡燕祝
艾新波
机构
北京邮电大学电子工程学院
北京邮电大学自动化学院
出处
《软件》
2013年第3期80-83,共4页
文摘
目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。
关键词
分词器
WEB搜索
信息检索
智能分词
全文搜索
Keywords
Information
Retrieval
Tokenizer
Web
search
intelligent
words
segmentation
full
text
search
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的数据库全文信息检索
被引量:
10
13
作者
王富强
王青山
张立朝
朱浩群
王锐
机构
解放军信息工程大学测绘学院
[
出处
《测绘科学》
CSCD
北大核心
2008年第3期184-186,共3页
文摘
本文深入研究了全文检索引擎Lucene的架构,提出了基于Lucene的数据库全文检索解决方案,并给出了基于Lucene构建全文检索系统的流程图。最后,通过实验对数据库SQL查询和基于Lucene全文检索作了比较。结论证明基于Lucene的数据库全文检索,具有丰富的接口设计和良好的扩展性,适用于海量数据的检索和查询。
关键词
LUCENE
全文检索
数据库
Keywords
Lucene
full
-
text
search
database
分类号
P208 [天文地球—地图制图学与地理信息工程]
下载PDF
职称材料
题名
基于Lucene的Web站点站内全文检索系统的设计与实现
被引量:
10
14
作者
曹强
机构
南京大学中美文化研究中心图书馆
出处
《图书情报工作》
CSSCI
北大核心
2007年第9期124-126,144,共4页
文摘
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。
关键词
LUCENE
全文检索
搜索引擎
Keywords
Lucene
full
-
text
retrieval
search
engine
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
基于Lucene的PDF文档的全文检索的实现
被引量:
11
15
作者
黄江平
黄理灿
徐玲
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2012年第5期103-104,共2页
文摘
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。
关键词
LUCENE
PDF
全文检索
高亮显示
Keywords
lucene,PDF,
full
-
text
search
,highlight
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
非结构化文本的自动分类检索平台的研究与实现
被引量:
10
16
作者
谢子超
机构
华北计算技术研究所
出处
《软件》
2015年第11期112-114,119,共4页
文摘
信息科技技术的快速发展给我们的日常生活带来了诸多便利同时各个领域的相关数据文件也在不断增多。在越来越多的信息数据堆积的情况下,为了能够更快速地获取自己想要的信息就必须对文本信息进行分类,文本分类可以有效地查询到数据信息的同时还可以对现有的数据进行自动化管理和分类,这样既方便了数据存储也方便了数据查询。本文的主要研究内容为在利用Lucene实现对POI处理过后的中文文本进行全文检索的基础上,研究现阶段的一些主流的机器学习分类算法,利用Weka对中文文本进行自动分类,以提高平台的查询效率,设计实现一个针对中文文本的自动分类检索平台,具有较强的实现价值。
关键词
全文检索
LUCENE
文本分类
WEKA
Keywords
full
-
text
search
Lucene
text
-classify
Weka
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本聚类与分布式Lucene的知识检索
被引量:
10
17
作者
冯汝伟
谢强
丁秋林
机构
南京航空航天大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2013年第1期186-188,共3页
文摘
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。
关键词
非结构化知识
分布式索引
文本聚类
全文检索
并行检索
Keywords
unstructured
knowledge
distributed
index
text
clustering
full
-
text
search
parallel
retrieval
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Web的搜索引擎及其在化学信息资源导航中的应用
被引量:
8
18
作者
徐芳
李晓霞
温浩
机构
中国科学院化工冶金研究所中国科学院计算机化学开放实验室
出处
《计算机与应用化学》
CAS
CSCD
1999年第1期19-23,24,共6页
基金
国家自然科学基金
联合国教科文组织
中国科学院院长基金
文摘
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN(ChemicalInformationNetwork)网页全文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统,同时给出了ChIN网页全文检索系统的应用实例。
关键词
全文检索
搜索引擎
化学信息资源
网络
检索
Keywords
full
text
retrieval,
search
engine,
Chemical
information
resources
分类号
TP393 [自动化与计算机技术—计算机应用技术]
G252.7 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
全文检索搜索引擎中文信息处理技术研究
被引量:
5
19
作者
唐培丽
胡明
解飞
刘钢
机构
长春工业大学计算机科学与工程学院
武警吉林省总队通信处
出处
《情报科学》
CSSCI
北大核心
2006年第6期895-899,909,共6页
文摘
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。
关键词
全文检索
搜索引擎
中文分词
信息检索
Keywords
full
-
text
retrieval
search
engine
Chinese
word
segmentation
information
retrieval
分类号
G354 [文化科学—情报学]
下载PDF
职称材料
题名
三种中文学术期刊全文检索系统的比较研究
被引量:
8
20
作者
施燕斌
敬卿
机构
国防科技大学
出处
《津图学刊》
2004年第1期72-75,共4页
文摘
介绍并比较了维普中文科技期刊数据库、中国期刊网全文数据库以及万方数字化期刊子系统三种中文学术期刊全文检索系统的收录范围、全文浏览器和检索功能的异同点,并给出了检索结果的查全率和查准率以及数据更新频率的一个比较表。
关键词
维普中文科技期刊数据库
中国期刊网全文数据库
万方数字化期刊子系统
学术期刊
全文检索系统
全文浏览器
检索功能
检索效率
Keywords
:China
Academic
Periodical
full
text
search
Comparation
分类号
G354.45 [文化科学—情报学]
G255.2
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
中文分词算法概述
龙树全
赵正文
唐华
《电脑知识与技术》
2009
39
下载PDF
职称材料
2
面向网络的全文检索中索引文件的组织
颜维龙
盖杰
武港山
袁春风
《计算机应用研究》
CSCD
北大核心
2002
12
下载PDF
职称材料
3
基于Lucene的全文检索引擎研究与应用
林碧英
赵锐
陈良臣
《计算机技术与发展》
2007
19
下载PDF
职称材料
4
基于Lucene的网站全文搜索的设计与实现
陈庆伟
刘军
《科技情报开发与经济》
2005
15
下载PDF
职称材料
5
关于自然语言检索问题
张琪玉
《图书馆论坛》
CSSCI
北大核心
2004
23
下载PDF
职称材料
6
基于Solr的分布式全文检索系统的研究与实现
李戴维
李宁
《计算机与现代化》
2012
23
下载PDF
职称材料
7
基于Lucene的地名数据库快速检索系统
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017
20
下载PDF
职称材料
8
基于Lucene的BM25模型的评分机制的研究
范晨熙
黄理灿
李雪利
《工业控制计算机》
2013
15
下载PDF
职称材料
9
基于开源全文检索系统Solr的OPAC分面浏览
陈波
《现代图书情报技术》
CSSCI
北大核心
2007
14
下载PDF
职称材料
10
Lucene全文检索引擎技术及应用
周平
《重庆工学院学报》
2007
10
下载PDF
职称材料
11
全文检索引擎的设计研究
陈立
《现代情报》
北大核心
2007
8
下载PDF
职称材料
12
开源中文分词器在web搜索引擎中的应用
刘晓婉
胡燕祝
艾新波
《软件》
2013
12
下载PDF
职称材料
13
基于Lucene的数据库全文信息检索
王富强
王青山
张立朝
朱浩群
王锐
《测绘科学》
CSCD
北大核心
2008
10
下载PDF
职称材料
14
基于Lucene的Web站点站内全文检索系统的设计与实现
曹强
《图书情报工作》
CSSCI
北大核心
2007
10
原文传递
15
基于Lucene的PDF文档的全文检索的实现
黄江平
黄理灿
徐玲
《工业控制计算机》
2012
11
下载PDF
职称材料
16
非结构化文本的自动分类检索平台的研究与实现
谢子超
《软件》
2015
10
下载PDF
职称材料
17
基于文本聚类与分布式Lucene的知识检索
冯汝伟
谢强
丁秋林
《计算机应用》
CSCD
北大核心
2013
10
下载PDF
职称材料
18
基于Web的搜索引擎及其在化学信息资源导航中的应用
徐芳
李晓霞
温浩
《计算机与应用化学》
CAS
CSCD
1999
8
原文传递
19
全文检索搜索引擎中文信息处理技术研究
唐培丽
胡明
解飞
刘钢
《情报科学》
CSSCI
北大核心
2006
5
下载PDF
职称材料
20
三种中文学术期刊全文检索系统的比较研究
施燕斌
敬卿
《津图学刊》
2004
8
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
11
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部