期刊文献+
共找到108篇文章
< 1 2 6 >
每页显示 20 50 100
专业搜索引擎搜索策略综述 被引量:34
1
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《计算机工程》 CAS CSCD 北大核心 2004年第13期32-33,46,共3页
按照评价链接价值所采用方法的不同,对专业搜索引擎的搜索策略进行了分类,分析了各类搜索策略的特点,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
主题搜索引擎中网络爬虫的搜索策略研究 被引量:37
2
作者 李勇 韩亮 《计算机工程与科学》 CSCD 2008年第3期4-6,56,共4页
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核... 本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法—EPR算法。 展开更多
关键词 搜索引擎 网络蜘蛛 搜索策略 主题提取
下载PDF
网络蜘蛛搜索策略比较研究 被引量:17
3
作者 李学勇 欧阳柳波 +1 位作者 李国徽 钟敏娟 《计算机工程与应用》 CSCD 北大核心 2004年第4期128-131,共4页
以何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的主要问题之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键... 以何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的主要问题之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。 展开更多
关键词 网络蜘蛛 专业搜索引擎 搜索策略
下载PDF
搜索引擎中网络蜘蛛搜索策略比较研究 被引量:12
4
作者 李学勇 欧阳柳波 +1 位作者 李国徽 钟敏娟 《计算技术与自动化》 2003年第4期63-67,共5页
何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。... 何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。 展开更多
关键词 搜索引擎 网络蜘蛛搜索策略 信息资源 信息检索 计算机网络 web
下载PDF
一种基于非贪婪策略的网络蜘蛛搜索算法 被引量:6
5
作者 李学勇 田立军 +2 位作者 谭义红 欧阳柳波 李国徽 《计算技术与自动化》 2004年第2期35-39,共5页
在分析传统网络蜘蛛搜索策略缺点的基础上,提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新算法可以有效提高搜索效率。
关键词 网络蜘蛛 搜索策略 链接选择 非贪婪策略 专业搜索引擎
下载PDF
网络蜘蛛搜索策略进展研究 被引量:8
6
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《小型微型计算机系统》 CSCD 北大核心 2005年第4期703-706,共4页
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一.按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点.对未来的研究方向进行了展望,给出了若干值得研... 网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一.按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点.对未来的研究方向进行了展望,给出了若干值得研究的问题. 展开更多
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
基于TF-IDF改进算法的聚焦主题网络爬虫 被引量:16
7
作者 王景中 邱铜相 《计算机应用》 CSCD 北大核心 2015年第10期2901-2904,2919,共5页
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进... 针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。 展开更多
关键词 网络爬虫 语义分析 搜索引擎 TF-IDF 主题爬虫 文档相似度
下载PDF
基于Lucene.Net校园网搜索引擎的设计与实现 被引量:14
8
作者 蔡建超 郭一平 王亮 《计算机技术与发展》 2006年第11期73-75,80,共4页
在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利... 在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Net环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。 展开更多
关键词 搜索引擎 爬虫 索引
下载PDF
主题搜索引擎中爬虫搜索策略的研究 被引量:15
9
作者 史宝明 贺元香 吴崇正 《计算机工程与应用》 CSCD 2014年第2期116-119,128,共5页
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL... 为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。 展开更多
关键词 网络爬虫 主题搜索引擎 搜索策略 向量空间模型
下载PDF
搜索引擎中网络蜘蛛的设计与实现 被引量:8
10
作者 刘刚 于力超 《电脑与信息技术》 2007年第4期36-39,45,共5页
文章从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地位,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了线程调度、页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的... 文章从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地位,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了线程调度、页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。 展开更多
关键词 网络蜘蛛 线程池 哈希表 广度优先
下载PDF
基于Rabin指纹方法的URL去重算法 被引量:8
11
作者 梁正友 张林才 《计算机应用》 CSCD 北大核心 2008年第S2期185-186,203,共3页
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位... 针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。 展开更多
关键词 URL去重 Rabin指纹方法 web spider
下载PDF
基于Lucene的搜索引擎的研究与应用 被引量:12
12
作者 张俊 李鲁群 周熔 《计算机技术与发展》 2013年第6期230-232,共3页
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和... 互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。 展开更多
关键词 LUCENE 网络爬虫 索引 搜索 新闻搜索引擎
下载PDF
基于论坛语料识别中文未登录词的方法 被引量:10
13
作者 都菁 熊海灵 《计算机工程与设计》 CSCD 北大核心 2010年第3期630-633,共4页
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Inform... 为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。 展开更多
关键词 未登录词 中文分词 网络蜘蛛 论坛语料
下载PDF
面向Web论坛的网络信息获取技术及系统实现 被引量:7
14
作者 彭冬 蔡皖东 《计算机工程与科学》 CSCD 北大核心 2011年第1期157-160,共4页
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,... 网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。 展开更多
关键词 网络爬虫 web论坛 正文提取 主题相关度
下载PDF
网络爬虫技术的研究 被引量:9
15
作者 焦赛美 《琼州学院学报》 2011年第5期28-30,共3页
随着信息技术的发展,特别是互联网技术的不断普及,网上信息数量成指数级增长。如何准确有效地从海量信息中检索出所需的信息,成为一个重要而迫切的研究课题。本文对网络爬虫的搜索策略进行了简要分析,比较各算法的优缺点,总结提升搜索... 随着信息技术的发展,特别是互联网技术的不断普及,网上信息数量成指数级增长。如何准确有效地从海量信息中检索出所需的信息,成为一个重要而迫切的研究课题。本文对网络爬虫的搜索策略进行了简要分析,比较各算法的优缺点,总结提升搜索效率的因素,提出了新一代搜索引擎的期望,以便更快获取自己需要的信息。 展开更多
关键词 网络爬虫 策略 聚焦爬虫 链接分析
下载PDF
基于网络爬虫技术的舆情数据采集系统设计与实现 被引量:9
16
作者 张明杰 《现代计算机》 2015年第12期72-75,共4页
网络舆情数据采集是舆情分析的基础,为了为舆情分析做准备,设计并实现一个以新浪微博为平台的网络舆情数据采集系统,介绍网络爬虫技术,分析系统的主要功能,对系统功能模块进行设计,使用网络爬虫技术实现网络舆情数据采集系统。
关键词 网络舆情 网络爬虫 新浪微博 JAVA
下载PDF
课程本体自动构建技术研究 被引量:9
17
作者 童名文 牛琳 +2 位作者 杨琳 邹军华 上超望 《计算机科学》 CSCD 北大核心 2016年第S2期108-112,共5页
课程本体是课程知识组织的一种重要技术,在智能学习系统中得到广泛应用。针对人工建立课程本体依赖专家经验和效率较低等问题,提出课程本体自动构建技术。该技术以丰富的Web课程资源为数据源,集成网络爬虫、中文分词和关联规则挖掘等技... 课程本体是课程知识组织的一种重要技术,在智能学习系统中得到广泛应用。针对人工建立课程本体依赖专家经验和效率较低等问题,提出课程本体自动构建技术。该技术以丰富的Web课程资源为数据源,集成网络爬虫、中文分词和关联规则挖掘等技术,实现课程本体自动构建。实验结果表明,该技术建立的课程本体不仅具有较好的质量,而且执行效率较高。 展开更多
关键词 课程本体 本体自动构建 中文分词 关联规则挖掘 网络爬虫
下载PDF
改进YOLOv3的工业指针式仪表检测方法 被引量:9
18
作者 刘家乐 吴怀宇 陈志环 《计算机工程与设计》 北大核心 2021年第7期2001-2008,共8页
针对工业应用中的指针式仪表自动检测识别任务,为解决指针式仪表检测过程中所涉及到的小目标检测性能不足与检测速度慢的问题,提出一种改进版本的YOLOv3检测算法。使用网络爬虫及数据增强扩充数据集,通过Kmeans++初始化的Mini Batch Kme... 针对工业应用中的指针式仪表自动检测识别任务,为解决指针式仪表检测过程中所涉及到的小目标检测性能不足与检测速度慢的问题,提出一种改进版本的YOLOv3检测算法。使用网络爬虫及数据增强扩充数据集,通过Kmeans++初始化的Mini Batch Kmeans方法对数据集聚类得到先验框;使用轻量级网络MobileNet框架与设计的适应样本的损失函数,得到改进模型。理论分析和实验结果表明,在指针式仪表检测任务中,所提算法的平均精度达92.8%,对小目标检测效果明显增强,实时性大大提高,帧率提高了67%,具有更高鲁棒性的同时提高了网络的综合性能,为后续仪表的准确读数提供了有利保障。 展开更多
关键词 爬虫 指针式仪表 聚类 MobileNet框架 小目标检测
下载PDF
基于Boltzmann行动选择策略的网络蜘蛛搜索算法 被引量:4
19
作者 李学勇 许向阳 +2 位作者 邱建雄 欧阳柳波 李国徽 《小型微型计算机系统》 CSCD 北大核心 2005年第6期932-935,共4页
在分析传统网络蜘蛛搜索机制特点的基础上,将Boltzmann行动选择策略引入网络蜘蛛的链接选择机制,提出了一种基于Boltzmann行动选择策略的启发式网络蜘蛛搜索算法.针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新的... 在分析传统网络蜘蛛搜索机制特点的基础上,将Boltzmann行动选择策略引入网络蜘蛛的链接选择机制,提出了一种基于Boltzmann行动选择策略的启发式网络蜘蛛搜索算法.针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新的算法可以有效提高搜索效率. 展开更多
关键词 专业搜索引擎 网络蜘蛛 搜索策略 Boltzmann行动选择策略
下载PDF
基于模拟退火机制的网络蜘蛛搜索策略 被引量:4
20
作者 李学勇 欧阳柳波 李国徽 《湖南理工学院学报(自然科学版)》 CAS 2004年第2期60-63,共4页
在分析传统网络蜘蛛搜索机制特点的基础上 ,将模拟退火机制引入网络蜘蛛的链接选择策略 ,提出了一种基于模拟退火机制的启发式网络蜘蛛搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明 ,新算法可以有效提高... 在分析传统网络蜘蛛搜索机制特点的基础上 ,将模拟退火机制引入网络蜘蛛的链接选择策略 ,提出了一种基于模拟退火机制的启发式网络蜘蛛搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明 ,新算法可以有效提高搜索效率。 展开更多
关键词 专业搜索引擎 网络蜘蛛 搜索策略 模拟退火
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部