期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
面向主题的网络蜘蛛技术研究及系统实现 被引量:13
1
作者 张博 蔡皖东 《微电子学与计算机》 CSCD 北大核心 2009年第5期52-55,共4页
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索... 首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度. 展开更多
关键词 信息收集 主题蜘蛛 相关度计算 搜索策略
下载PDF
改进空间向量模型主题网络爬虫系统 被引量:7
2
作者 徐明子 吕立 李喜旺 《计算机系统应用》 2013年第7期36-39,52,共5页
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问... 详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略.最后给出实验结果,证明该系统的可行性及优越性. 展开更多
关键词 主题爬虫 相关度计算 搜索策略 遗传因子
下载PDF
一种基于本体语义的灾害主题爬虫策略 被引量:4
3
作者 马雷雷 李宏伟 +2 位作者 连世伟 梁汝鹏 陈虎 《计算机工程》 CAS CSCD 北大核心 2016年第11期50-56,共7页
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权... 为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。 展开更多
关键词 主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本
下载PDF
基于网页主题相关度和标签相似度的改进PageRank算法研究 被引量:1
4
作者 傅丽君 《浙江树人大学学报(自然科学版)》 2019年第1期12-17,共6页
文章将PageRank算法与社会化标签进行结合,提出一种基于链接网页主题之间相关度和社会化标签之间相似度的改进PageRank算法.首先基于信息特征词构建向量空间模型,通过余弦值和TF-IDF算法计算网页主题相关度;然后建立社会化标签向量计算... 文章将PageRank算法与社会化标签进行结合,提出一种基于链接网页主题之间相关度和社会化标签之间相似度的改进PageRank算法.首先基于信息特征词构建向量空间模型,通过余弦值和TF-IDF算法计算网页主题相关度;然后建立社会化标签向量计算链接网页标签相似度;最后确定权重关系进行算法迭代,从而实现Web页面的重新排序.实验表明,该算法能提高信息推荐的准确性,但算法质量不稳定,推荐效果呈下降趋势. 展开更多
关键词 社会化标签 PAGERANK算法 相关度计算 信息推荐
原文传递
改进向量空间模型的主题爬虫系统
5
作者 姚荣宝 刘乃文 《山东师范大学学报(自然科学版)》 CAS 2015年第3期21-24,共4页
详细阐述了主题描述与定义、相关度计算、抓取策略等主题爬虫的关键技术。综合考虑了特征词在相同文本的不同位置和在不同文本的位置权重,利用改进的 TF - IDF 公式计算,同时将这些特殊位置考虑进去以改进传统的向量空间模型 VSM (Ve... 详细阐述了主题描述与定义、相关度计算、抓取策略等主题爬虫的关键技术。综合考虑了特征词在相同文本的不同位置和在不同文本的位置权重,利用改进的 TF - IDF 公式计算,同时将这些特殊位置考虑进去以改进传统的向量空间模型 VSM (Vector Space Model)。根据改进的 VSM 方法计算主题页面相关性,同时将改进的 Shark Search 和 HITS 算法结合,既弥补了 Web 全局性之不足,也消除了 HITS 算法中的“主题漂移”现象。实验结果表明该方案用于指导主题爬虫的抓取具有很高的灵活性和准确性。 展开更多
关键词 主题爬虫 VSM 相关度计算 搜索策略
下载PDF
基于Bi-LSTM和分布式表示的网页主题相关度计算
6
作者 王锋 白宇 +1 位作者 蔡东风 王铁铮 《计算机应用与软件》 北大核心 2018年第7期57-62,共6页
针对向量空间模型忽略了查询关键词和网页的语义相关问题,提出一种基于双向LSTM(bidirectional long short-term memory)、词的分布式表示和文档的分布式表示的网页主题相关度计算方法。该方法通过双向LSTM和词的分布式表示对查询关键... 针对向量空间模型忽略了查询关键词和网页的语义相关问题,提出一种基于双向LSTM(bidirectional long short-term memory)、词的分布式表示和文档的分布式表示的网页主题相关度计算方法。该方法通过双向LSTM和词的分布式表示对查询关键词进行扩展,并得到查询扩展的主题关键词集合的词向量;将搜索到的网页通过分布式表示方法得到网页向量;对主题关键词集合和网页进行相关度计算,得到主题相关网页。实验采用搜狗实验室公开的搜狗全网新闻数据作为词向量训练语料,搜狗评测数据作为测试语料。实验结果表明采用该方法可以提高主题相关网页计算的准确率,性能明显高于向量空间模型。 展开更多
关键词 双向LSTM 分布式表示 查询扩展 网页主题 相关度计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部