期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
融合用户标签和关系的微博用户相似性度量
被引量:
8
1
作者
吴树芳
徐建民
武晓波
《情报杂志》
CSSCI
北大核心
2014年第12期170-173,126,共5页
已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法...
已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法分别计算用户的链入标签相似度和链出标签相似度,并将其进行线性调和。实验从新浪微博采集实验数据,实验结果表明新方法对微博用户分类的准确率明显高于仅考虑用户关系的微博用户相似性计算方法。
展开更多
关键词
社交网络
微博用户
相似
性
度
量
用户标签
用户关系
网页
相似
度
下载PDF
职称材料
网页信息抽取方法的研究
被引量:
4
2
作者
徐铁
耿佳宁
《信息技术》
2009年第4期112-115,共4页
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给...
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现。
展开更多
关键词
网页
抽取
网页
模板
网页
相似
度
网页
聚类
下载PDF
职称材料
挖掘用户标签的增强型社区网页聚类算法
被引量:
4
3
作者
贺秋芳
曾启杰
蔡延光
《微电子学与计算机》
CSCD
北大核心
2013年第2期74-77,共4页
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关...
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.
展开更多
关键词
社区
网页
链接关系
网页
相似
度
下载PDF
职称材料
基于网页聚类的搜索结果优化算法研究
被引量:
3
4
作者
沈盈洪
丰翔龙
黄荣游
《计算机应用》
CSCD
北大核心
2010年第A01期51-53,共3页
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果...
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化。实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。
展开更多
关键词
网页
相似
度
聚类
搜索结果
DBSCAN算法
重复
网页
下载PDF
职称材料
信息抽取技术在网页中的应用
5
作者
张敏
《中国城市经济》
2011年第20期150-151,共2页
在网络信息暴增的今天,我们想要找到一种能够智能的、可以把人们所需的信息抽取出来的方法、这就是信息抽取技术。本文中的信息抽取技术是一种归纳网页模板的方法,它基于DOM和网页模板,很好地对各种布局元素的网页进行模板归纳。
关键词
网页
抽取
网页
模板
网页
相似
度
网页
聚类
下载PDF
职称材料
基于多中文搜索引擎的可扩展网络混合爬虫
被引量:
1
6
作者
潘志舟
赵靖
《安徽科技学院学报》
2012年第6期70-75,共6页
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是...
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。
展开更多
关键词
元搜索引擎
网络爬虫
搜索引擎
网页
相似
度
下载PDF
职称材料
基于搜索结果的聚类算法
7
作者
罗钊航
李旭伟
《计算机与现代化》
2012年第11期35-38,共4页
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注...
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。
展开更多
关键词
基于密
度
的聚类算法
网页
相似
度
聚类
冗余
网页
下载PDF
职称材料
社会标注系统自适应网页聚类算法研究
8
作者
郭红建
陈一飞
《电子科技》
2018年第8期73-76,共4页
文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验,采用准确率、召回率、F-Measure值、Purity和NMI这5个指标来评测聚类的效果。实验结果表明,文中所提出...
文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验,采用准确率、召回率、F-Measure值、Purity和NMI这5个指标来评测聚类的效果。实验结果表明,文中所提出的自适应网页聚类算法效果较好。
展开更多
关键词
社会标注
网页
聚类
网页
相似
度
下载PDF
职称材料
多中文搜索引擎的联合网络爬虫及LUCENCE实现
9
作者
赵靖
潘志舟
+2 位作者
梅芳婷
程振
钱吕见
《安阳师范学院学报》
2012年第5期51-55,共5页
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引...
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。
展开更多
关键词
网络爬虫
搜索引擎
网页
正文抽取
网页
相似
度
下载PDF
职称材料
维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现
被引量:
2
10
作者
吐尔洪.吾司曼
维尼拉.木沙江
《新疆大学学报(自然科学版)》
CAS
2009年第1期103-106,共4页
搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果.本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案.
关键词
网页
爬行器
搜索引擎
网页
相似
度
比较
下载PDF
职称材料
基于网页正文结构和特征串的相似网页去重算法
被引量:
11
11
作者
熊忠阳
牙漫
张玉芳
《计算机应用》
CSCD
北大核心
2013年第2期554-557,共4页
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Fi...
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。
展开更多
关键词
网页
去重
网页
标签值
高频标点
特征码
网页
指纹
相似
度
下载PDF
职称材料
一种改进的基于树路径匹配的网页结构相似度算法
被引量:
7
12
作者
廖浩伟
杨燕
+1 位作者
贾真
尹红风
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2012年第6期1199-1203,共5页
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配...
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际,更合理有效.
展开更多
关键词
网页
结构
相似
度
序列
相似
度
位置
相似
度
下载PDF
职称材料
基于向量空间的网页内容相似度计算方法研究
被引量:
4
13
作者
何忠秀
王霜
安礼成
《计算机与现代化》
2010年第9期53-55,58,共4页
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该...
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。
展开更多
关键词
向量空间
网页
内容
相似
度
下载PDF
职称材料
基于文本频率页面分割算法对论坛正文提取
14
作者
马凯凯
钱亚赫
阮东跃
《中国水运(下半月)》
2018年第2期78-79,共2页
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,...
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。
展开更多
关键词
网页
链接
相似
度
文本频率
正则表达式
网页
去噪
下载PDF
职称材料
网页信息抽取方法的研究
被引量:
1
15
作者
陈要武
《活力》
2010年第4期145-145,共1页
一、相关技术 1.常规抽取方法介绍 基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是...
一、相关技术 1.常规抽取方法介绍 基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是需要针对每一个信息源的网站模板进行单独的设定。所以这种方式适合少量信息源的信息处理.不是搜索引擎级的应用.很难满足用户对查全率的需求。
展开更多
关键词
网页
抽取
网页
模板
网页
相似
度
网页
聚类
下载PDF
职称材料
题名
融合用户标签和关系的微博用户相似性度量
被引量:
8
1
作者
吴树芳
徐建民
武晓波
机构
河北大学管理学院
河北软件职业技术学院信息工程系
河北大学数学与计算机学院
出处
《情报杂志》
CSSCI
北大核心
2014年第12期170-173,126,共5页
基金
中国博士后科学基金资助项目"基于量化术语关系的贝叶斯网络检索模型扩展研究"(编号:20070420700)
河北省自然科学基金资助项目"基于本体的贝叶斯网络信息检索模型扩展"(编号:F2011201146)
文摘
已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法分别计算用户的链入标签相似度和链出标签相似度,并将其进行线性调和。实验从新浪微博采集实验数据,实验结果表明新方法对微博用户分类的准确率明显高于仅考虑用户关系的微博用户相似性计算方法。
关键词
社交网络
微博用户
相似
性
度
量
用户标签
用户关系
网页
相似
度
Keywords
social networks
micro-blogging users
similarity measurement
user tags
user relationships
webpage similarity
分类号
G353 [文化科学—情报学]
下载PDF
职称材料
题名
网页信息抽取方法的研究
被引量:
4
2
作者
徐铁
耿佳宁
机构
黑龙江省电子信息产品监督检验院
中国政法大学
出处
《信息技术》
2009年第4期112-115,共4页
文摘
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现。
关键词
网页
抽取
网页
模板
网页
相似
度
网页
聚类
Keywords
Web extraction
Web template
Web similar
Web cluster
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
挖掘用户标签的增强型社区网页聚类算法
被引量:
4
3
作者
贺秋芳
曾启杰
蔡延光
机构
广东轻工职业技术学院计算机系
广东工业大学自动化学院
出处
《微电子学与计算机》
CSCD
北大核心
2013年第2期74-77,共4页
基金
国家自然科学基金项目(61074147)
文摘
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.
关键词
社区
网页
链接关系
网页
相似
度
Keywords
social web
page link
web similarity
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于网页聚类的搜索结果优化算法研究
被引量:
3
4
作者
沈盈洪
丰翔龙
黄荣游
机构
浙江工业大学信息工程学院
出处
《计算机应用》
CSCD
北大核心
2010年第A01期51-53,共3页
基金
浙江省自然科学基金资助项目(X105739)
文摘
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化。实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。
关键词
网页
相似
度
聚类
搜索结果
DBSCAN算法
重复
网页
Keywords
Web page similarity
clustering
search result
DBSCAN algorithm
duplicate Web page
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
信息抽取技术在网页中的应用
5
作者
张敏
机构
四平市粮食稽查支队
出处
《中国城市经济》
2011年第20期150-151,共2页
文摘
在网络信息暴增的今天,我们想要找到一种能够智能的、可以把人们所需的信息抽取出来的方法、这就是信息抽取技术。本文中的信息抽取技术是一种归纳网页模板的方法,它基于DOM和网页模板,很好地对各种布局元素的网页进行模板归纳。
关键词
网页
抽取
网页
模板
网页
相似
度
网页
聚类
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多中文搜索引擎的可扩展网络混合爬虫
被引量:
1
6
作者
潘志舟
赵靖
机构
安徽科技学院理学院
出处
《安徽科技学院学报》
2012年第6期70-75,共6页
基金
安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD)
安徽科技学院第九批大学生创新课题项目基金(12XSZ09)
文摘
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。
关键词
元搜索引擎
网络爬虫
搜索引擎
网页
相似
度
Keywords
Meta - search
Web crawler
Search engine
Web page similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于搜索结果的聚类算法
7
作者
罗钊航
李旭伟
机构
四川大学计算机学院
出处
《计算机与现代化》
2012年第11期35-38,共4页
文摘
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。
关键词
基于密
度
的聚类算法
网页
相似
度
聚类
冗余
网页
Keywords
DBSCAN algorithm
page similarity
clustering
redundancy page
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
社会标注系统自适应网页聚类算法研究
8
作者
郭红建
陈一飞
机构
南京审计大学管理科学与工程学院
南京审计大学工学院
出处
《电子科技》
2018年第8期73-76,共4页
基金
国家自然科学基金(61202135
71572080)
+2 种基金
江苏省公共工程审计重点实验室2012年开放课题(20201201211)
江苏省高校自然科学基金面上项目(BK20171495)
南京审计大学政府审计研究基金(GAS161019)
文摘
文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验,采用准确率、召回率、F-Measure值、Purity和NMI这5个指标来评测聚类的效果。实验结果表明,文中所提出的自适应网页聚类算法效果较好。
关键词
社会标注
网页
聚类
网页
相似
度
Keywords
social annotation
webpage clustering
web similarity
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
多中文搜索引擎的联合网络爬虫及LUCENCE实现
9
作者
赵靖
潘志舟
梅芳婷
程振
钱吕见
机构
安徽科技学院计算机系
出处
《安阳师范学院学报》
2012年第5期51-55,共5页
基金
安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD)
安徽科技学院大学生创新课题基金
文摘
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。
关键词
网络爬虫
搜索引擎
网页
正文抽取
网页
相似
度
Keywords
Web crawlers
Search
MVC design patterns page similarity
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现
被引量:
2
10
作者
吐尔洪.吾司曼
维尼拉.木沙江
机构
新疆大学信息科学与工程学院
出处
《新疆大学学报(自然科学版)》
CAS
2009年第1期103-106,共4页
基金
新疆维吾尔自治区高技术研究与发展计划项目(项目编号:200612115)
文摘
搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果.本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案.
关键词
网页
爬行器
搜索引擎
网页
相似
度
比较
Keywords
web crawler
search engine
compare webpage similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP393 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于网页正文结构和特征串的相似网页去重算法
被引量:
11
11
作者
熊忠阳
牙漫
张玉芳
机构
重庆大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2013年第2期554-557,共4页
文摘
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。
关键词
网页
去重
网页
标签值
高频标点
特征码
网页
指纹
相似
度
Keywords
detection and elimination of similar Web pages
Web label value
high frequency punctuation
feature code
fingerprint similarity of Web page
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
一种改进的基于树路径匹配的网页结构相似度算法
被引量:
7
12
作者
廖浩伟
杨燕
贾真
尹红风
机构
西南交通大学信息科学与技术学院
出处
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2012年第6期1199-1203,共5页
基金
国家自然科学基金(批准号:61152001:61170111)
中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题基金(批准号:20110102)
中央高校基本科研业务费专项基金(批准号:SWJTU11ZT08)
文摘
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际,更合理有效.
关键词
网页
结构
相似
度
序列
相似
度
位置
相似
度
Keywords
Web structure similarity
sequence similarity
position similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于向量空间的网页内容相似度计算方法研究
被引量:
4
13
作者
何忠秀
王霜
安礼成
机构
西华大学数学与计算机学院
西华大学机械工程与自动化学院
出处
《计算机与现代化》
2010年第9期53-55,58,共4页
基金
西华大学人才培养基金(R0820208)
文摘
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。
关键词
向量空间
网页
内容
相似
度
Keywords
vector space model
webpage content' similarity
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本频率页面分割算法对论坛正文提取
14
作者
马凯凯
钱亚赫
阮东跃
机构
浙江海洋大学数理与信息学院
出处
《中国水运(下半月)》
2018年第2期78-79,共2页
文摘
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。
关键词
网页
链接
相似
度
文本频率
正则表达式
网页
去噪
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页信息抽取方法的研究
被引量:
1
15
作者
陈要武
机构
黑龙江省社会信用办公室
出处
《活力》
2010年第4期145-145,共1页
文摘
一、相关技术 1.常规抽取方法介绍 基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是需要针对每一个信息源的网站模板进行单独的设定。所以这种方式适合少量信息源的信息处理.不是搜索引擎级的应用.很难满足用户对查全率的需求。
关键词
网页
抽取
网页
模板
网页
相似
度
网页
聚类
分类号
F [经济管理]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
融合用户标签和关系的微博用户相似性度量
吴树芳
徐建民
武晓波
《情报杂志》
CSSCI
北大核心
2014
8
下载PDF
职称材料
2
网页信息抽取方法的研究
徐铁
耿佳宁
《信息技术》
2009
4
下载PDF
职称材料
3
挖掘用户标签的增强型社区网页聚类算法
贺秋芳
曾启杰
蔡延光
《微电子学与计算机》
CSCD
北大核心
2013
4
下载PDF
职称材料
4
基于网页聚类的搜索结果优化算法研究
沈盈洪
丰翔龙
黄荣游
《计算机应用》
CSCD
北大核心
2010
3
下载PDF
职称材料
5
信息抽取技术在网页中的应用
张敏
《中国城市经济》
2011
0
下载PDF
职称材料
6
基于多中文搜索引擎的可扩展网络混合爬虫
潘志舟
赵靖
《安徽科技学院学报》
2012
1
下载PDF
职称材料
7
基于搜索结果的聚类算法
罗钊航
李旭伟
《计算机与现代化》
2012
0
下载PDF
职称材料
8
社会标注系统自适应网页聚类算法研究
郭红建
陈一飞
《电子科技》
2018
0
下载PDF
职称材料
9
多中文搜索引擎的联合网络爬虫及LUCENCE实现
赵靖
潘志舟
梅芳婷
程振
钱吕见
《安阳师范学院学报》
2012
0
下载PDF
职称材料
10
维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现
吐尔洪.吾司曼
维尼拉.木沙江
《新疆大学学报(自然科学版)》
CAS
2009
2
下载PDF
职称材料
11
基于网页正文结构和特征串的相似网页去重算法
熊忠阳
牙漫
张玉芳
《计算机应用》
CSCD
北大核心
2013
11
下载PDF
职称材料
12
一种改进的基于树路径匹配的网页结构相似度算法
廖浩伟
杨燕
贾真
尹红风
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2012
7
下载PDF
职称材料
13
基于向量空间的网页内容相似度计算方法研究
何忠秀
王霜
安礼成
《计算机与现代化》
2010
4
下载PDF
职称材料
14
基于文本频率页面分割算法对论坛正文提取
马凯凯
钱亚赫
阮东跃
《中国水运(下半月)》
2018
0
下载PDF
职称材料
15
网页信息抽取方法的研究
陈要武
《活力》
2010
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部