期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
融合用户标签和关系的微博用户相似性度量 被引量:8
1
作者 吴树芳 徐建民 武晓波 《情报杂志》 CSSCI 北大核心 2014年第12期170-173,126,共5页
已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法... 已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法分别计算用户的链入标签相似度和链出标签相似度,并将其进行线性调和。实验从新浪微博采集实验数据,实验结果表明新方法对微博用户分类的准确率明显高于仅考虑用户关系的微博用户相似性计算方法。 展开更多
关键词 社交网络 微博用户 相似 用户标签 用户关系 网页相似
下载PDF
网页信息抽取方法的研究 被引量:4
2
作者 徐铁 耿佳宁 《信息技术》 2009年第4期112-115,共4页
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给... 信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现。 展开更多
关键词 网页抽取 网页模板 网页相似 网页聚类
下载PDF
挖掘用户标签的增强型社区网页聚类算法 被引量:4
3
作者 贺秋芳 曾启杰 蔡延光 《微电子学与计算机》 CSCD 北大核心 2013年第2期74-77,共4页
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关... 网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的. 展开更多
关键词 社区网页 链接关系 网页相似
下载PDF
基于网页聚类的搜索结果优化算法研究 被引量:3
4
作者 沈盈洪 丰翔龙 黄荣游 《计算机应用》 CSCD 北大核心 2010年第A01期51-53,共3页
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果... 针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化。实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度。 展开更多
关键词 网页相似 聚类 搜索结果 DBSCAN算法 重复网页
下载PDF
信息抽取技术在网页中的应用
5
作者 张敏 《中国城市经济》 2011年第20期150-151,共2页
在网络信息暴增的今天,我们想要找到一种能够智能的、可以把人们所需的信息抽取出来的方法、这就是信息抽取技术。本文中的信息抽取技术是一种归纳网页模板的方法,它基于DOM和网页模板,很好地对各种布局元素的网页进行模板归纳。
关键词 网页抽取 网页模板 网页相似 网页聚类
下载PDF
基于多中文搜索引擎的可扩展网络混合爬虫 被引量:1
6
作者 潘志舟 赵靖 《安徽科技学院学报》 2012年第6期70-75,共6页
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是... 由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。 展开更多
关键词 元搜索引擎 网络爬虫 搜索引擎 网页相似
下载PDF
基于搜索结果的聚类算法
7
作者 罗钊航 李旭伟 《计算机与现代化》 2012年第11期35-38,共4页
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注... 当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。 展开更多
关键词 基于密的聚类算法 网页相似 聚类 冗余网页
下载PDF
社会标注系统自适应网页聚类算法研究
8
作者 郭红建 陈一飞 《电子科技》 2018年第8期73-76,共4页
文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验,采用准确率、召回率、F-Measure值、Purity和NMI这5个指标来评测聚类的效果。实验结果表明,文中所提出... 文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验,采用准确率、召回率、F-Measure值、Purity和NMI这5个指标来评测聚类的效果。实验结果表明,文中所提出的自适应网页聚类算法效果较好。 展开更多
关键词 社会标注 网页聚类 网页相似
下载PDF
多中文搜索引擎的联合网络爬虫及LUCENCE实现
9
作者 赵靖 潘志舟 +2 位作者 梅芳婷 程振 钱吕见 《安阳师范学院学报》 2012年第5期51-55,共5页
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引... 由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。 展开更多
关键词 网络爬虫 搜索引擎 网页正文抽取 网页相似
下载PDF
维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现 被引量:2
10
作者 吐尔洪.吾司曼 维尼拉.木沙江 《新疆大学学报(自然科学版)》 CAS 2009年第1期103-106,共4页
搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果.本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案.
关键词 网页爬行器 搜索引擎 网页相似比较
下载PDF
基于网页正文结构和特征串的相似网页去重算法 被引量:11
11
作者 熊忠阳 牙漫 张玉芳 《计算机应用》 CSCD 北大核心 2013年第2期554-557,共4页
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Fi... 为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。 展开更多
关键词 网页去重 网页标签值 高频标点 特征码 网页指纹相似
下载PDF
一种改进的基于树路径匹配的网页结构相似度算法 被引量:7
12
作者 廖浩伟 杨燕 +1 位作者 贾真 尹红风 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2012年第6期1199-1203,共5页
提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配... 提出一种改进的基于树路径匹配的网页结构相似度算法,该算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度.实验结果表明,用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际,更合理有效. 展开更多
关键词 网页结构相似 序列相似 位置相似
下载PDF
基于向量空间的网页内容相似度计算方法研究 被引量:4
13
作者 何忠秀 王霜 安礼成 《计算机与现代化》 2010年第9期53-55,58,共4页
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该... 针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。 展开更多
关键词 向量空间 网页内容相似
下载PDF
基于文本频率页面分割算法对论坛正文提取
14
作者 马凯凯 钱亚赫 阮东跃 《中国水运(下半月)》 2018年第2期78-79,共2页
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,... 如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。 展开更多
关键词 网页链接相似 文本频率 正则表达式 网页去噪
下载PDF
网页信息抽取方法的研究 被引量:1
15
作者 陈要武 《活力》 2010年第4期145-145,共1页
一、相关技术 1.常规抽取方法介绍 基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是... 一、相关技术 1.常规抽取方法介绍 基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是需要针对每一个信息源的网站模板进行单独的设定。所以这种方式适合少量信息源的信息处理.不是搜索引擎级的应用.很难满足用户对查全率的需求。 展开更多
关键词 网页抽取 网页模板 网页相似 网页聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部