期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Lucene的分布式并行索引 被引量:7
1
作者 唐华 何友全 +1 位作者 徐小乐 徐澄 《计算机技术与发展》 2011年第2期123-126,共4页
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:... 索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。 展开更多
关键词 索引技术 LUCENE 搜索引擎 分布式并行索引
下载PDF
搜索引擎用户接口设计 被引量:2
2
作者 何友全 徐小乐 +2 位作者 徐澄 栾红玉 唐华 《重庆理工大学学报(自然科学)》 CAS 2010年第9期63-68,共6页
介绍了搜索引擎中用户界面的实现技术,包括抓取网页、索引和检索。在此基础上,应用Ajax技术实现用户接口的设计,利用Lucene技术,在建立好的索引库中检索出用户感兴趣的网页,并给出设计过程中部分关键代码。
关键词 搜索引擎 中文分词技术 LUCENE 用户界面 AJAX技术
下载PDF
一种基于统计学特征和DOM树的网页去噪技术 被引量:2
3
作者 何友全 徐澄 +1 位作者 徐小乐 唐华 《重庆理工大学学报(自然科学)》 CAS 2011年第1期54-58,共5页
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行... 针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。 展开更多
关键词 DOM 统计学特征 信息检索
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部