期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
面向主题的垂直搜索引擎系统的研究与实现 被引量:10
1
作者 施佺 王恒山 +1 位作者 肖仰华 丁卫平 《微电子学与计算机》 CSCD 北大核心 2011年第7期1-4,8,共5页
针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过... 针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景. 展开更多
关键词 垂直搜索 网络爬虫 LUCENE .Net 正则表达式
下载PDF
结合有监督广度优先搜索策略的通用垂直爬虫方法 被引量:7
2
作者 高峰 刘震 高辉 《计算机工程》 CAS CSCD 北大核心 2018年第11期289-299,共11页
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队... 垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。 展开更多
关键词 垂直爬虫 URL聚类 赋权网页 路径模板解析 有监督广度优先搜索策略
下载PDF
基于农业信息化的垂直搜索引擎的分析与设计 被引量:1
3
作者 彭攀峰 刘波 《农机化研究》 北大核心 2012年第5期95-99,共5页
以湖南省农业信息化综合服务平台开发需求为背景,在分析垂直搜索引擎具体功能的基础上,利用Java,Oracle,Tomcat实现了一个基于农业信息化的垂直搜索引擎。该系统使用Servlet,JSP,JSTL等技术主要实现了对农业网站新闻和图片等的抓取,最... 以湖南省农业信息化综合服务平台开发需求为背景,在分析垂直搜索引擎具体功能的基础上,利用Java,Oracle,Tomcat实现了一个基于农业信息化的垂直搜索引擎。该系统使用Servlet,JSP,JSTL等技术主要实现了对农业网站新闻和图片等的抓取,最后与农博网等系列网址进行了对比测试。运行结果表明,该系统达到了灵活抓取与良好扩展的目的。 展开更多
关键词 垂直搜索 网络爬虫 信息抓取 农业信息化
下载PDF
4SY–2.0型自走式油菜割晒机的设计与试验 被引量:18
4
作者 王修善 刘大为 +3 位作者 李旭 谢方平 吴明亮 罗海峰 《湖南农业大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第4期445-453,共9页
针对现有油菜割晒机存在配套机具要求高、田块环境与油菜植株差异导致的适应性差问题,在对油菜植株顺利切割进入输送通道、有序摊铺条件进行分析的基础上,模块化设计了4SY?2.0型油菜割晒机。该机大模块包括动力装置、行走装置、工作装... 针对现有油菜割晒机存在配套机具要求高、田块环境与油菜植株差异导致的适应性差问题,在对油菜植株顺利切割进入输送通道、有序摊铺条件进行分析的基础上,模块化设计了4SY?2.0型油菜割晒机。该机大模块包括动力装置、行走装置、工作装置、操控装置。动力装置为小型履带底盘,兼具良好的通过性能和操作性能;工作装置为可垂直升降的立式割台,可根据地形和油菜植株情况实时调整割茬高度。工作时,油菜植株被切割后,在割台输送链组的作用下直立向侧边输送,并在割台侧边摊铺。田间试验结果表明,作业过程中油菜植株输送顺畅,摊铺整齐有序,铺条宽度、厚度均匀,测得铺放角平均值98.2°,铺放角度差平均值10.5°,铺层平均高度416.6mm,铺放平均宽度1 207.6 mm,作业质量满足作业要求。 展开更多
关键词 油菜割晒机 立式割台 小型履带底盘 拨禾星轮 分禾器
下载PDF
Heritrix在垂直搜索引擎中的应用 被引量:7
5
作者 白万民 苏希乐 《计算机时代》 2011年第9期7-9,共3页
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。
关键词 垂直搜索引擎 网络爬虫 HERITRIX 多线程
下载PDF
面向垂直搜索引擎的Web站点划分方案 被引量:4
6
作者 李学凯 许笑 +2 位作者 孙春奇 张伟哲 李斌 《计算机工程》 CAS CSCD 北大核心 2010年第8期275-277,共3页
分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系... 分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。 展开更多
关键词 垂直搜索引擎 任务分配 网站划分 爬虫
下载PDF
垂直搜索引擎的主题爬虫策略 被引量:3
7
作者 张丽敏 《电脑知识与技术(过刊)》 2010年第15期3962-3963,共2页
随着互联网络的迅猛发展,更专业化更高准确率的垂直搜索引擎已成为人们获取所需的知识必不可少的工具。以何种策略有效地访问网络资源是搜索引擎中网络爬虫研究的主要问题。该文对垂直搜索引擎中网络爬虫的搜索策略进行简要分析,比较各... 随着互联网络的迅猛发展,更专业化更高准确率的垂直搜索引擎已成为人们获取所需的知识必不可少的工具。以何种策略有效地访问网络资源是搜索引擎中网络爬虫研究的主要问题。该文对垂直搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,使人们对网络爬虫的搜索算法有个大概了解。最后对搜索引擎未来网络爬虫研究趋势做了说明。 展开更多
关键词 垂直搜索引擎 主题爬虫 搜索策略
下载PDF
基于Nutch的分布式纺织垂直搜索引擎研究 被引量:3
8
作者 张斌 周尔宁 《电脑知识与技术》 2009年第7X期5785-5787,共3页
垂直搜索引擎可以实现行业主题的精准搜索,建设纺织品垂直搜索引擎,显然可以促进电子商务发展。该文论述了基于lucene的开源平台Nutch的特性和应用方法,分析了聚焦爬虫、分布检索等建立该引擎的关键技术。
关键词 NUTCH 垂直搜索 分布式爬虫
下载PDF
Web垂直搜索引擎实现过程的研究 被引量:4
9
作者 张弘弦 田玉玲 《现代电子技术》 北大核心 2016年第8期55-59,63,共6页
Web垂直搜索引擎是一个复杂的信息系统,目前大多数研究都集中在解决搜索引擎中出现的某一个方面的问题,仍缺乏对Web垂直搜索引擎完整实现过程的相关研究。针对这个问题,提出一种三层架构的Web垂直搜索引擎的实现过程,整个过程包含数据... Web垂直搜索引擎是一个复杂的信息系统,目前大多数研究都集中在解决搜索引擎中出现的某一个方面的问题,仍缺乏对Web垂直搜索引擎完整实现过程的相关研究。针对这个问题,提出一种三层架构的Web垂直搜索引擎的实现过程,整个过程包含数据准备、查询处理和界面交互。使用Java语言和相关的开源工具,对实现过程描述的具体任务进行实际操作,实现了一个查询手机信息的Web垂直搜索引擎。该三层架构和实现过程有效地为构建面向主题的完整Web垂直搜索引擎提供了理论依据和实践指导。 展开更多
关键词 WEB搜索 搜索引擎实现 垂直搜索架构 爬虫
下载PDF
药学垂直搜索引擎平台的建立与技术研究 被引量:1
10
作者 焦强 束怡 戴昌林 《药学进展》 CAS 2010年第4期164-173,共10页
目的:针对国内医药企业和科研机构的工作特点,研究药学垂直搜索引擎平台的建立模式与技术实现。方法:应用Visual Studio 2008开发平台、SQL Server 2005商业智能平台以及垂直搜索引擎技术,开发具有市场应用价值的在线药学信息集成平台... 目的:针对国内医药企业和科研机构的工作特点,研究药学垂直搜索引擎平台的建立模式与技术实现。方法:应用Visual Studio 2008开发平台、SQL Server 2005商业智能平台以及垂直搜索引擎技术,开发具有市场应用价值的在线药学信息集成平台。结果:设计建立了包含新闻资讯、文献论文、专利情报、新药信息、药品信息、政策法规等在内的药学垂直搜索引擎平台。结论:该药学垂直搜索引擎平台可为医药企业和科研机构提供医药信息、文献和数据的检索、查询与分析等服务。 展开更多
关键词 药学信息 垂直搜索引擎 信息检索 数据采集 网络爬虫
下载PDF
基于教师招聘信息的垂直搜索引擎研究
11
作者 龙俊浩 《广东技术师范学院学报》 2013年第12期132-136,共5页
在高校大学生就业形势极其严峻的背景下,高等师范院校毕业生这一特殊群体对及时准确的教师招聘信息更加渴望,因此高校研究建设教师招聘信息的垂直搜索引擎非常有必要.本文对垂直搜索引擎的工作原理以及关键技术模块进行分析,同时结合各... 在高校大学生就业形势极其严峻的背景下,高等师范院校毕业生这一特殊群体对及时准确的教师招聘信息更加渴望,因此高校研究建设教师招聘信息的垂直搜索引擎非常有必要.本文对垂直搜索引擎的工作原理以及关键技术模块进行分析,同时结合各类教师招聘信息网站的特点对关键技术中网络爬虫爬取策略进行改进,创建一个更具高效教师招聘信息价值平台. 展开更多
关键词 垂直搜索引擎 教师招聘 爬虫策略
下载PDF
垂直搜索引擎技术在武警部队心理数据库建设中的应用
12
作者 孙纳新 赖江轶 王玉萍 《电子测试》 2013年第12X期273-274,共2页
垂直搜索引擎技术的发展使得大数据时代特定专业的信息获取成为可能,通过对武警部队心理数据库数据采集过程中使用异步非阻塞聚焦爬虫策略,大大提高了数据采集性能。
关键词 垂直搜索引擎 爬虫 心理数据库
下载PDF
无锡美食智能搜索引擎的设计与实现
13
作者 顾璠 夏梦思 宋威 《中国科技信息》 2013年第1期73-74,共2页
无锡地区拥有丰富的美食资源,目前国内外的通用搜索引擎所提供的信息量过大,查询不准确,智能化程度低。该研究为无锡广大美食爱好者提供了一个智能的查询平台。无锡美食智能搜索引擎的查询结果更精确、智能,是检索更加方便快捷的垂直搜... 无锡地区拥有丰富的美食资源,目前国内外的通用搜索引擎所提供的信息量过大,查询不准确,智能化程度低。该研究为无锡广大美食爱好者提供了一个智能的查询平台。无锡美食智能搜索引擎的查询结果更精确、智能,是检索更加方便快捷的垂直搜索引擎。本文从无锡美食搜索引擎的设计流程入手,主要介绍了垂直搜索引擎各模块的功能、原理,包括爬虫的快速抓取、精确解析、高效存储等。 展开更多
关键词 无锡美食 垂直搜索引擎 爬虫 解析 LUCENE
下载PDF
开源网络爬虫在垂直搜索引擎应用
14
作者 刘伟光 《智能计算机与应用》 2015年第4期75-77,81,共4页
分析了聚焦爬虫的工作原理和关键技术,对几种开源网络爬虫的功能特点和使用范围进行比较,而后通过改造Heritrix软件的关键模块和功能接口,以抓取中国西藏网新闻为例,实现了开源爬虫软件在垂直搜索的应用。
关键词 垂直搜索 聚焦爬虫 HERITRIX
下载PDF
Heritrix主题爬虫设计
15
作者 张亚凤 郑山红 《长春工业大学学报》 CAS 2016年第5期507-511,共5页
通过扩展Heritrix相应组件来抓取特定网页,实现预定的抓取策略,并加入APHash算法对URL进行散列,达到了多线程抓取网页的目的,极大地提高了抓取数据的效率。
关键词 垂直搜索引擎 主题爬虫 HERITRIX APHash算法
下载PDF
基于领域本体的垂直搜索引擎模型的研究
16
作者 林碧霞 尹治本 《铁路计算机应用》 2010年第11期11-14,共4页
用户对于智能化、专业化搜索引擎的需求大力推动了语义搜索的发展。本文在这个需求的环境下提出一种基于领域本体的垂直搜索引擎模型,该模型更加智能化,并且耦合性较低,能满足不同领域的定制和开发。
关键词 领域本体 垂直搜索引擎 主题爬虫 上下文主题描述
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部