期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
963
篇文章
<
1
2
…
49
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Google的PageRank技术剖析
被引量:
70
1
作者
曹军
《情报杂志》
CSSCI
北大核心
2002年第10期15-18,共4页
检索结果排序算法一直是情报检索系统的核心技术之一 ,在搜索引擎中的地位则更加重要。通过对搜索引擎 google的关键技术PageRank的深入剖析 ,分析了其在Google排序系统中的作用 ,并对其发展所存在的问题进行了探讨。
关键词
搜索引擎
排序算法
网页级别
pagerank
GOOGLE
情报检索系统
下载PDF
职称材料
PageRank算法研究
被引量:
69
2
作者
黄德才
戚华春
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第4期145-146,162,共3页
深入剖析了著名搜索引擎Google的关键技术PageRank算法,介绍分析了该算法的当前发展现状。并针对PageRank算法容易出现主题漂移现象,利用提出的二阶相似度改进算法。实验表明,改进的算法有利于减少主题漂移现象,提高用户对检索结果的满...
深入剖析了著名搜索引擎Google的关键技术PageRank算法,介绍分析了该算法的当前发展现状。并针对PageRank算法容易出现主题漂移现象,利用提出的二阶相似度改进算法。实验表明,改进的算法有利于减少主题漂移现象,提高用户对检索结果的满意度。
展开更多
关键词
pagerank
搜索引擎
排序算法
GOOGLE
下载PDF
职称材料
对网页PageRank算法的改进
被引量:
40
3
作者
宋聚平
王永成
+1 位作者
尹中航
滕伟
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2003年第3期397-400,共4页
分析了著名搜索引擎 Google采用的 Page Rank算法 ,指出其偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当等不足之处 .改进算法考虑了网页日期这一重要因素 ,并重新计算网页中超链接对网页的影响 .网页结构中蕴涵着丰富的信...
分析了著名搜索引擎 Google采用的 Page Rank算法 ,指出其偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当等不足之处 .改进算法考虑了网页日期这一重要因素 ,并重新计算网页中超链接对网页的影响 .网页结构中蕴涵着丰富的信息 ,在 href、title等标记中文字对网页主题有重要作用 ,利用结构标记可以辅助判断网页的主题内容 .试验结果表明 。
展开更多
关键词
搜索引擎
网页
超链分析
pagerank
下载PDF
职称材料
基于PageRank的有向加权复杂网络节点重要性评估方法
被引量:
61
4
作者
张琨
李配配
+1 位作者
朱保平
胡满玉
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2013年第3期429-434,共6页
现有复杂网络节点重要性评估研究主要集中在无向、无权复杂网络上,未能全面客观反映真实复杂网络的情况。本文基于有向加权复杂网络模型,借鉴PageRank排名算法,并结合复杂网络节点重要性评估特点,提出节点重要性评估的新指标———DWCN-...
现有复杂网络节点重要性评估研究主要集中在无向、无权复杂网络上,未能全面客观反映真实复杂网络的情况。本文基于有向加权复杂网络模型,借鉴PageRank排名算法,并结合复杂网络节点重要性评估特点,提出节点重要性评估的新指标———DWCN-NodeRank和相应评估方法,该指标既反映出节点局部连接的特性,又从全局体现了有向加权复杂网络中整体链接关系对节点重要性的影响。采用真实的复杂网络数据集所进行的仿真实验结果表明,该方法能快速、有效地评估有向加权复杂网络节点的重要性,提高了复杂网络节点重要性评估的实用价值。
展开更多
关键词
复杂网络
节点重要性
评估方法
pagerank
下载PDF
职称材料
PageRank算法研究综述
被引量:
48
5
作者
李稚楹
杨武
谢治军
《计算机科学》
CSCD
北大核心
2011年第B10期185-188,共4页
网页排序是搜索引擎的关键技术之一。介绍了著名的PageRank算法,针对其存在主题漂移、偏重旧网页等不足,分析了各种改进算法的基本思想和技术特点,希望为以后的研究工作提供基础性支持。
关键词
pagerank
主题漂移
偏重旧网页
下载PDF
职称材料
基于改进TF-IDF特征提取的文本分类模型研究
被引量:
49
6
作者
周源
刘怀兰
+1 位作者
杜朋朋
廖岭
《情报科学》
CSSCI
北大核心
2017年第5期111-118,共8页
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节...
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分类效果,验证了该方法能够有效提高文本特征词提取的准确度。
展开更多
关键词
特征提取
TF—IDF
文本分类
文本网络
pagerank
原文传递
基于消息传递机制的MapReduce图算法研究
被引量:
45
7
作者
潘巍
李战怀
+1 位作者
伍赛
陈群
《计算机学报》
EI
CSCD
北大核心
2011年第10期1768-1784,共17页
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapRe...
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(BSP)计算模型既能保证兼容旧的MapReduce作业可以无改动的运行,同时引入消息传递机制允许变化的状态数据在并行任务的超级步间进行交互.系统提供高度灵活的消息自定义接口,针对不同应用需求设计了轻量级和重量级两种自适应的消息传递机制,更高效地支持有数据交互需求的包含迭代处理的一大类图算法.在真实大规模图数据集上的实验结果表明,相比于原始的MapReduce作业外部链式处理,该文提出的BSP模型下的内部超级步迭代计算模式大幅降低了大图算法的处理时间.
展开更多
关键词
云计算
MAPREDUCE
大同步模型
消息传递
图算法
pagerank
下载PDF
职称材料
加速评估算法:一种提高Web结构挖掘质量的新方法
被引量:
27
8
作者
张岭
马范援
《计算机研究与发展》
EI
CSCD
北大核心
2004年第1期98-103,共6页
利用Web结构挖掘可以找到Web上的高质量网页 ,它大大地提高了搜索引擎的检索精度 目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估 ,基于统计链接数目的算法存在一个严重缺陷 :页面评价两极...
利用Web结构挖掘可以找到Web上的高质量网页 ,它大大地提高了搜索引擎的检索精度 目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估 ,基于统计链接数目的算法存在一个严重缺陷 :页面评价两极分化 一些传统的高质量页面经常出现在Web检索结果的前面 ,而Web上新加入的高质量页面很难被用户找到 提出了加速评估算法以克服现有Web超链接分析中的不足 。
展开更多
关键词
WEB结构挖掘
pagerank
信息检索
搜索引擎
加速评估算法
下载PDF
职称材料
搜索引擎的排序技术研究
被引量:
23
9
作者
杨思洛
《现代图书情报技术》
CSSCI
北大核心
2005年第1期43-47,共5页
提出按搜索引擎的排序技术把搜索引擎分为三代,介绍了主要的几种搜索引擎排序技术,并对第 三代搜索引擎的发展进行了分析。
关键词
搜索引擎
排序
词频和位置统计
pagerank
HillTop
竞价排名
智能化排序
下载PDF
职称材料
Web结构挖掘
被引量:
20
10
作者
杨炳儒
李岩
+1 位作者
陈新中
王霞
《计算机工程》
CAS
CSCD
北大核心
2003年第20期28-30,共3页
概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结构挖掘技术的几个新的研究方向,供感兴趣的同行参考。
关键词
WEB结构挖掘
pagerank
HITS
SALSA
超链接
网页排序
下载PDF
职称材料
PageRank算法的原理简介
被引量:
34
11
作者
吴淑燕
许涛
《图书情报工作》
CSSCI
北大核心
2003年第2期55-60,51,共7页
在介绍PageRank算法基本思想、基本公式和计算实例的基础上,介绍如何利用PageR— ank算法提高网页PR的方法,最后指出PageRank算法存在的不足,并对其发展趋势进行分析。
关键词
GOOGLE
pagerank
排序算法
网页
链接
发展趋势
原文传递
搜索引擎中Robot搜索算法的优化
被引量:
21
12
作者
宋聚平
王永成
+1 位作者
滕伟
许欢庆
《情报学报》
CSSCI
北大核心
2002年第2期130-133,共4页
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种...
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 。
展开更多
关键词
搜索引擎
超链接
ROBOT
pagerank
搜索策略
搜索模块
搜索算法
优化算法
下载PDF
职称材料
具有时间反馈的PageRank改进算法
被引量:
27
13
作者
戚华春
黄德才
郑月锋
《浙江工业大学学报》
CAS
2005年第3期272-275,共4页
针对某一类网页(比如新闻网页)在互联网上发布时间越长,其信息的重要性将随之下降这一事实,在传统的PageRank算法中加入时间反馈因子,实现网页因发布时间的长短,其PageRank值也随之上下浮动.并采用Seidel迭代算法加速迭代收敛过程.实验...
针对某一类网页(比如新闻网页)在互联网上发布时间越长,其信息的重要性将随之下降这一事实,在传统的PageRank算法中加入时间反馈因子,实现网页因发布时间的长短,其PageRank值也随之上下浮动.并采用Seidel迭代算法加速迭代收敛过程.实验结果表明,改进后的算法在计算这类与发布时间相关的网页的PageRank值时,符合人们的一般期望,是有效的.Seidel迭代算法有利于提高算法效率.
展开更多
关键词
pagerank
Seidel迭代
时间反馈
搜索引擎
下载PDF
职称材料
Web超链分析算法研究
被引量:
20
14
作者
朱炜
王超
+1 位作者
李俊
潘金贵
《计算机科学》
CSCD
北大核心
2003年第9期89-93,140,共6页
1.引言 万维网WWW(World Wide Web)是一个巨大的、分布全球的信息服务中心,正在以飞快的速度扩展.1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14].
关键词
WEB
超链分析算法
搜索引擎
信息检索
网页
WWW
下载PDF
职称材料
搜索引擎的几种常用排序算法
被引量:
26
15
作者
常璐
夏祖奇
《图书情报工作》
CSSCI
北大核心
2003年第6期70-73,88,共5页
介绍几种比较著名的搜索引擎排序算法,分别是词频位置加权、Direct Hit、PageRank和竞价排名服务,并重点讨论影响它们的因素以及各自的优缺点,最后对它们进行简要的分析和比较。
关键词
搜索引擎
排序算法
词频位置加权
DirectHit
pagerank
竞价排名
原文传递
基于网页链接和内容分析的改进PageRank算法
被引量:
25
16
作者
钱功伟
倪林
+1 位作者
MIAO Yuan
曹荣
《计算机工程与应用》
CSCD
北大核心
2007年第21期160-164,共5页
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选...
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。
展开更多
关键词
pagerank
网页排序
链接分析
相关性分析
下载PDF
职称材料
基于用户行为综合分析的微博用户影响力评价方法
被引量:
32
17
作者
齐超
陈鸿昶
于洪涛
《计算机应用研究》
CSCD
北大核心
2014年第7期2004-2007,共4页
通过对用户转发、评论和提及三种行为的综合分析,运用统计分析方法就微博用户的不同行为对传播影响力的贡献进行度量,提出一种基于行为权值分配的PageRank算法,对传播影响力大小进行定量的分析。采用微博数据的实验结果表明,该算法比其...
通过对用户转发、评论和提及三种行为的综合分析,运用统计分析方法就微博用户的不同行为对传播影响力的贡献进行度量,提出一种基于行为权值分配的PageRank算法,对传播影响力大小进行定量的分析。采用微博数据的实验结果表明,该算法比其他传统算法对传播影响力判断的准确性更高,且用户特征中最能反映用户传播影响力大小的是用户转发情况。
展开更多
关键词
微博用户
传播影响力
用户行为
pagerank
影响覆盖率
下载PDF
职称材料
网络社区中的意见领袖特征分析
被引量:
28
18
作者
肖宇
许炜
夏霖
《计算机工程与科学》
CSCD
北大核心
2011年第1期150-156,共7页
本文通过社会网络分析方法识别网络社区中的意见领袖。首先对意见领袖存在的人际关系网络结构特征进行分析,对比论坛、博客和问答网络之间的区别,提出基于无向、有权重网络模型更能真实准确地识别意见领袖。并基于该网络模型研究和分析...
本文通过社会网络分析方法识别网络社区中的意见领袖。首先对意见领袖存在的人际关系网络结构特征进行分析,对比论坛、博客和问答网络之间的区别,提出基于无向、有权重网络模型更能真实准确地识别意见领袖。并基于该网络模型研究和分析了网络论坛结构特征,通过测量其小世界和无标度的复杂网络特征,定量分析意见领袖存在的社会性根源。其次提出了基于无向、有权重网络下的PageR-ank算法,并对比前人提出多种意见领袖识别算法,以某论坛四年历史数据实证了算法的有效性。最后对识别结果进行深入分析,并研究了意见领袖同活跃版块之间的关系,发现通过覆盖少量版块即可覆盖绝大部分意见领袖。
展开更多
关键词
复杂网络
网络社区
意见领袖
pagerank
下载PDF
职称材料
网络舆情信息源影响力的评估研究
被引量:
28
19
作者
郭岩
刘春阳
+2 位作者
余智华
张瑾
戴媛
《中文信息学报》
CSCD
北大核心
2011年第3期64-71,共8页
文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点:除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中...
文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点:除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。在量化影响力时,文章借鉴网络链接分析算法PageRank,提出算法SrcRank对信息源重要度进行排名。实例分析结果表明,评估方法能够客观而合理地评价网络舆情信息源的影响力。
展开更多
关键词
网络舆情
信息源影响力
评价指标体系
pagerank
下载PDF
职称材料
权威因子:一个新的期刊评价指标
被引量:
26
20
作者
苏成
潘云涛
+3 位作者
马峥
袁军鹏
郭红
俞征鹿
《编辑学报》
CSSCI
北大核心
2010年第4期369-373,共5页
2009年版的中国科技期刊引证报告(核心版)新提出了一个权威因子指标,权威因子的计算采用的是Prestige Rank算法,PrestigRank算法是在著名搜索引擎算法PageRank算法的基础上修改优化而成的,PrestigeRank算法专门针对期刊引用网络缺失严...
2009年版的中国科技期刊引证报告(核心版)新提出了一个权威因子指标,权威因子的计算采用的是Prestige Rank算法,PrestigRank算法是在著名搜索引擎算法PageRank算法的基础上修改优化而成的,PrestigeRank算法专门针对期刊引用网络缺失严重提出了合理的解决方案,在权威因子的计算中,期刊之间的引用不再是同等对待,重要期刊的一次引用比次要期刊的一次引用要被赋予更高的权重。利用PrestigeRank算法计算2008年的中国科技论文与引文数据库(CSTPCD)的所有期刊的权威因子,并对权威因子与总被引频次进行了比较研究,发现总被引频次在一定程度上是流行性测度,而权威因子在更大程度上是权威性测度。我们也发现权威因子能部分消除因为学科规模和性质不同造成的被引机会的不同的影响。
展开更多
关键词
PrestigeRank
引文分析
期刊评价
pagerank
权威因子
影响因子
原文传递
题名
Google的PageRank技术剖析
被引量:
70
1
作者
曹军
机构
北京大学信息管理系
出处
《情报杂志》
CSSCI
北大核心
2002年第10期15-18,共4页
文摘
检索结果排序算法一直是情报检索系统的核心技术之一 ,在搜索引擎中的地位则更加重要。通过对搜索引擎 google的关键技术PageRank的深入剖析 ,分析了其在Google排序系统中的作用 ,并对其发展所存在的问题进行了探讨。
关键词
搜索引擎
排序算法
网页级别
pagerank
GOOGLE
情报检索系统
分类号
G354.4 [文化科学—情报学]
下载PDF
职称材料
题名
PageRank算法研究
被引量:
69
2
作者
黄德才
戚华春
机构
浙江工业大学信息学院
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第4期145-146,162,共3页
文摘
深入剖析了著名搜索引擎Google的关键技术PageRank算法,介绍分析了该算法的当前发展现状。并针对PageRank算法容易出现主题漂移现象,利用提出的二阶相似度改进算法。实验表明,改进的算法有利于减少主题漂移现象,提高用户对检索结果的满意度。
关键词
pagerank
搜索引擎
排序算法
GOOGLE
Keywords
pagerank
Search engine
Ranking algorithm
Google
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
对网页PageRank算法的改进
被引量:
40
3
作者
宋聚平
王永成
尹中航
滕伟
机构
上海交通大学电子信息学院
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2003年第3期397-400,共4页
基金
国家自然科学基金资助项目 ( 60 0 82 0 0 3 )
文摘
分析了著名搜索引擎 Google采用的 Page Rank算法 ,指出其偏重旧网页、忽视专业站点以及对网页中的超链接评估不恰当等不足之处 .改进算法考虑了网页日期这一重要因素 ,并重新计算网页中超链接对网页的影响 .网页结构中蕴涵着丰富的信息 ,在 href、title等标记中文字对网页主题有重要作用 ,利用结构标记可以辅助判断网页的主题内容 .试验结果表明 。
关键词
搜索引擎
网页
超链分析
pagerank
Keywords
search engine
authority of pages
hyperlink analysis
pagerank
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于PageRank的有向加权复杂网络节点重要性评估方法
被引量:
61
4
作者
张琨
李配配
朱保平
胡满玉
机构
南京理工大学计算机科学与工程学院
出处
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2013年第3期429-434,共6页
基金
国家自然科学基金(61003210)资助项目
江苏省自然科学基金(BK2010491
+1 种基金
BK2011023)资助项目
江苏省"六大人才高峰"基金(11-C-028)资助项目
文摘
现有复杂网络节点重要性评估研究主要集中在无向、无权复杂网络上,未能全面客观反映真实复杂网络的情况。本文基于有向加权复杂网络模型,借鉴PageRank排名算法,并结合复杂网络节点重要性评估特点,提出节点重要性评估的新指标———DWCN-NodeRank和相应评估方法,该指标既反映出节点局部连接的特性,又从全局体现了有向加权复杂网络中整体链接关系对节点重要性的影响。采用真实的复杂网络数据集所进行的仿真实验结果表明,该方法能快速、有效地评估有向加权复杂网络节点的重要性,提高了复杂网络节点重要性评估的实用价值。
关键词
复杂网络
节点重要性
评估方法
pagerank
Keywords
complex networks
node importance
evaluation method
pagerank
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
PageRank算法研究综述
被引量:
48
5
作者
李稚楹
杨武
谢治军
机构
重庆理工大学计算机科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2011年第B10期185-188,共4页
文摘
网页排序是搜索引擎的关键技术之一。介绍了著名的PageRank算法,针对其存在主题漂移、偏重旧网页等不足,分析了各种改进算法的基本思想和技术特点,希望为以后的研究工作提供基础性支持。
关键词
pagerank
主题漂移
偏重旧网页
Keywords
pagerank
Topic drift
Emphasis on the old page
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于改进TF-IDF特征提取的文本分类模型研究
被引量:
49
6
作者
周源
刘怀兰
杜朋朋
廖岭
机构
清华大学公共管理学院
华中科技大学机械科学与工程学院
出处
《情报科学》
CSSCI
北大核心
2017年第5期111-118,共8页
基金
国家自然科学基金项目(91646102
L1624045
+3 种基金
L1624041
L1524015
71203117)
教育部人文社会科学项目(16JDGC011)
文摘
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分类效果,验证了该方法能够有效提高文本特征词提取的准确度。
关键词
特征提取
TF—IDF
文本分类
文本网络
pagerank
Keywords
feature extraction
TF - IDF
text classification
text network
pagerank
分类号
G254 [文化科学—图书馆学]
原文传递
题名
基于消息传递机制的MapReduce图算法研究
被引量:
45
7
作者
潘巍
李战怀
伍赛
陈群
机构
西北工业大学计算机学院
新加坡国立大学计算机学院
出处
《计算机学报》
EI
CSCD
北大核心
2011年第10期1768-1784,共17页
基金
国家自然科学基金(61033007
60970070)
+1 种基金
国家"八六三"高技术研究发展计划重大项目(2009AA01A404)
NSFC-JST重大国际(地区)合作项目(60720106001)资助~~
文摘
单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(BSP)计算模型既能保证兼容旧的MapReduce作业可以无改动的运行,同时引入消息传递机制允许变化的状态数据在并行任务的超级步间进行交互.系统提供高度灵活的消息自定义接口,针对不同应用需求设计了轻量级和重量级两种自适应的消息传递机制,更高效地支持有数据交互需求的包含迭代处理的一大类图算法.在真实大规模图数据集上的实验结果表明,相比于原始的MapReduce作业外部链式处理,该文提出的BSP模型下的内部超级步迭代计算模式大幅降低了大图算法的处理时间.
关键词
云计算
MAPREDUCE
大同步模型
消息传递
图算法
pagerank
Keywords
cloud computing
MapReduce
BSP model
message passing
graph algorithms
pagerank
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
加速评估算法:一种提高Web结构挖掘质量的新方法
被引量:
27
8
作者
张岭
马范援
机构
上海交通大学计算机科学与工程系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第1期98-103,共6页
基金
上海市基础研究重点基金项目 ( 0 2DJ14 0 45 )
文摘
利用Web结构挖掘可以找到Web上的高质量网页 ,它大大地提高了搜索引擎的检索精度 目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估 ,基于统计链接数目的算法存在一个严重缺陷 :页面评价两极分化 一些传统的高质量页面经常出现在Web检索结果的前面 ,而Web上新加入的高质量页面很难被用户找到 提出了加速评估算法以克服现有Web超链接分析中的不足 。
关键词
WEB结构挖掘
pagerank
信息检索
搜索引擎
加速评估算法
Keywords
Web structure mining
pagerank
information retrieval
search engine
accelerated ranking algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP393 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
搜索引擎的排序技术研究
被引量:
23
9
作者
杨思洛
机构
湘潭大学管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2005年第1期43-47,共5页
文摘
提出按搜索引擎的排序技术把搜索引擎分为三代,介绍了主要的几种搜索引擎排序技术,并对第 三代搜索引擎的发展进行了分析。
关键词
搜索引擎
排序
词频和位置统计
pagerank
HillTop
竞价排名
智能化排序
Keywords
Search engines Ranking Term frequency and position weighing
pagerank
HillTop Bid for search result placement Ranking intelligently
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web结构挖掘
被引量:
20
10
作者
杨炳儒
李岩
陈新中
王霞
机构
北京科技大学计算机科学系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第20期28-30,共3页
基金
国家自然科学基金项目(698350010)
教育部科技重点项目(教技司[2000175])
文摘
概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结构挖掘技术的几个新的研究方向,供感兴趣的同行参考。
关键词
WEB结构挖掘
pagerank
HITS
SALSA
超链接
网页排序
Keywords
Web structure mining
pagerank
Hyperlink-Induced Topic Search(HITS)
SALSA
分类号
TP393.01 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
PageRank算法的原理简介
被引量:
34
11
作者
吴淑燕
许涛
机构
北京大学信息管理系
出处
《图书情报工作》
CSSCI
北大核心
2003年第2期55-60,51,共7页
文摘
在介绍PageRank算法基本思想、基本公式和计算实例的基础上,介绍如何利用PageR— ank算法提高网页PR的方法,最后指出PageRank算法存在的不足,并对其发展趋势进行分析。
关键词
GOOGLE
pagerank
排序算法
网页
链接
发展趋势
Keywords
Google
pagerank
sort algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
原文传递
题名
搜索引擎中Robot搜索算法的优化
被引量:
21
12
作者
宋聚平
王永成
滕伟
许欢庆
机构
上海交通大学电子信息学院
出处
《情报学报》
CSSCI
北大核心
2002年第2期130-133,共4页
文摘
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 。
关键词
搜索引擎
超链接
ROBOT
pagerank
搜索策略
搜索模块
搜索算法
优化算法
Keywords
search engine,hyperlink,Robot,
pagerank
.
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
具有时间反馈的PageRank改进算法
被引量:
27
13
作者
戚华春
黄德才
郑月锋
机构
浙江工业大学信息工程学院
出处
《浙江工业大学学报》
CAS
2005年第3期272-275,共4页
文摘
针对某一类网页(比如新闻网页)在互联网上发布时间越长,其信息的重要性将随之下降这一事实,在传统的PageRank算法中加入时间反馈因子,实现网页因发布时间的长短,其PageRank值也随之上下浮动.并采用Seidel迭代算法加速迭代收敛过程.实验结果表明,改进后的算法在计算这类与发布时间相关的网页的PageRank值时,符合人们的一般期望,是有效的.Seidel迭代算法有利于提高算法效率.
关键词
pagerank
Seidel迭代
时间反馈
搜索引擎
Keywords
pagerank
Seide literation
time feedbacking
search engine
分类号
G202 [文化科学—传播学]
下载PDF
职称材料
题名
Web超链分析算法研究
被引量:
20
14
作者
朱炜
王超
李俊
潘金贵
机构
南京大学计算机软件新技术国家重点实验室
南京大学多媒体技术研究所
出处
《计算机科学》
CSCD
北大核心
2003年第9期89-93,140,共6页
基金
日本邮政省通信放送机构(TAO)国际研究基金
文摘
1.引言 万维网WWW(World Wide Web)是一个巨大的、分布全球的信息服务中心,正在以飞快的速度扩展.1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14].
关键词
WEB
超链分析算法
搜索引擎
信息检索
网页
WWW
Keywords
pagerank
, Authority, Hub , HITS, SALSA, Anchor
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
搜索引擎的几种常用排序算法
被引量:
26
15
作者
常璐
夏祖奇
机构
江苏省委党校图书馆
南京农业大学信息管理系
出处
《图书情报工作》
CSSCI
北大核心
2003年第6期70-73,88,共5页
文摘
介绍几种比较著名的搜索引擎排序算法,分别是词频位置加权、Direct Hit、PageRank和竞价排名服务,并重点讨论影响它们的因素以及各自的优缺点,最后对它们进行简要的分析和比较。
关键词
搜索引擎
排序算法
词频位置加权
DirectHit
pagerank
竞价排名
Keywords
search engine ranking term frequency/position weighing Direct Hit
pagerank
Pay Per Click Service
分类号
G354 [文化科学—情报学]
原文传递
题名
基于网页链接和内容分析的改进PageRank算法
被引量:
25
16
作者
钱功伟
倪林
MIAO Yuan
曹荣
机构
中国科学技术大学电子工程与信息科学系
澳大利亚维多利亚大学计算机科学与数学系
出处
《计算机工程与应用》
CSCD
北大核心
2007年第21期160-164,共5页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60372059)。
文摘
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。
关键词
pagerank
网页排序
链接分析
相关性分析
Keywords
pagerank
Web page ranking
link analysis
similarity analysis
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于用户行为综合分析的微博用户影响力评价方法
被引量:
32
17
作者
齐超
陈鸿昶
于洪涛
机构
国家数字交换系统工程技术研究中心
出处
《计算机应用研究》
CSCD
北大核心
2014年第7期2004-2007,共4页
基金
国家"863"计划资助项目(2011AA010603)
文摘
通过对用户转发、评论和提及三种行为的综合分析,运用统计分析方法就微博用户的不同行为对传播影响力的贡献进行度量,提出一种基于行为权值分配的PageRank算法,对传播影响力大小进行定量的分析。采用微博数据的实验结果表明,该算法比其他传统算法对传播影响力判断的准确性更高,且用户特征中最能反映用户传播影响力大小的是用户转发情况。
关键词
微博用户
传播影响力
用户行为
pagerank
影响覆盖率
Keywords
micro-blog users
spreading influence
user behavior
pagerank
effect coverage
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络社区中的意见领袖特征分析
被引量:
28
18
作者
肖宇
许炜
夏霖
机构
华中科技大学电子与信息工程系
出处
《计算机工程与科学》
CSCD
北大核心
2011年第1期150-156,共7页
基金
"十一五"科技支撑计划重点项目(2006BAK11B00)
文摘
本文通过社会网络分析方法识别网络社区中的意见领袖。首先对意见领袖存在的人际关系网络结构特征进行分析,对比论坛、博客和问答网络之间的区别,提出基于无向、有权重网络模型更能真实准确地识别意见领袖。并基于该网络模型研究和分析了网络论坛结构特征,通过测量其小世界和无标度的复杂网络特征,定量分析意见领袖存在的社会性根源。其次提出了基于无向、有权重网络下的PageR-ank算法,并对比前人提出多种意见领袖识别算法,以某论坛四年历史数据实证了算法的有效性。最后对识别结果进行深入分析,并研究了意见领袖同活跃版块之间的关系,发现通过覆盖少量版块即可覆盖绝大部分意见领袖。
关键词
复杂网络
网络社区
意见领袖
pagerank
Keywords
complex networks
on-line community
opinion leader
pagerank
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络舆情信息源影响力的评估研究
被引量:
28
19
作者
郭岩
刘春阳
余智华
张瑾
戴媛
机构
中国科学院计算技术研究所
国家计算机网络应急技术处理协调中心
出处
《中文信息学报》
CSCD
北大核心
2011年第3期64-71,共8页
基金
国家自然科学基金重点资助项目(60933005)
国家242专项资助项目(2009A19,2009A91)
国家高技术研究发展计划(863计划)重点资助项目(2010AA012500)
文摘
文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点:除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。在量化影响力时,文章借鉴网络链接分析算法PageRank,提出算法SrcRank对信息源重要度进行排名。实例分析结果表明,评估方法能够客观而合理地评价网络舆情信息源的影响力。
关键词
网络舆情
信息源影响力
评价指标体系
pagerank
Keywords
public opinion
the impact of information source
the evaluation index system
pagerank
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
权威因子:一个新的期刊评价指标
被引量:
26
20
作者
苏成
潘云涛
马峥
袁军鹏
郭红
俞征鹿
机构
中国科学技术信息研究所情报方法研究中心
出处
《编辑学报》
CSSCI
北大核心
2010年第4期369-373,共5页
基金
国家科技支撑计划课题(2006BAH03B05)
国家自然科学基金项目(70973118)
中国科学技术信息研究所科研项目预研基金
文摘
2009年版的中国科技期刊引证报告(核心版)新提出了一个权威因子指标,权威因子的计算采用的是Prestige Rank算法,PrestigRank算法是在著名搜索引擎算法PageRank算法的基础上修改优化而成的,PrestigeRank算法专门针对期刊引用网络缺失严重提出了合理的解决方案,在权威因子的计算中,期刊之间的引用不再是同等对待,重要期刊的一次引用比次要期刊的一次引用要被赋予更高的权重。利用PrestigeRank算法计算2008年的中国科技论文与引文数据库(CSTPCD)的所有期刊的权威因子,并对权威因子与总被引频次进行了比较研究,发现总被引频次在一定程度上是流行性测度,而权威因子在更大程度上是权威性测度。我们也发现权威因子能部分消除因为学科规模和性质不同造成的被引机会的不同的影响。
关键词
PrestigeRank
引文分析
期刊评价
pagerank
权威因子
影响因子
Keywords
PrestigeRank
citation analysis
journal evaluation
pagerank
authority factor
impact factor
分类号
G232 [文化科学]
G350
原文传递
题名
作者
出处
发文年
被引量
操作
1
Google的PageRank技术剖析
曹军
《情报杂志》
CSSCI
北大核心
2002
70
下载PDF
职称材料
2
PageRank算法研究
黄德才
戚华春
《计算机工程》
EI
CAS
CSCD
北大核心
2006
69
下载PDF
职称材料
3
对网页PageRank算法的改进
宋聚平
王永成
尹中航
滕伟
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2003
40
下载PDF
职称材料
4
基于PageRank的有向加权复杂网络节点重要性评估方法
张琨
李配配
朱保平
胡满玉
《南京航空航天大学学报》
EI
CAS
CSCD
北大核心
2013
61
下载PDF
职称材料
5
PageRank算法研究综述
李稚楹
杨武
谢治军
《计算机科学》
CSCD
北大核心
2011
48
下载PDF
职称材料
6
基于改进TF-IDF特征提取的文本分类模型研究
周源
刘怀兰
杜朋朋
廖岭
《情报科学》
CSSCI
北大核心
2017
49
原文传递
7
基于消息传递机制的MapReduce图算法研究
潘巍
李战怀
伍赛
陈群
《计算机学报》
EI
CSCD
北大核心
2011
45
下载PDF
职称材料
8
加速评估算法:一种提高Web结构挖掘质量的新方法
张岭
马范援
《计算机研究与发展》
EI
CSCD
北大核心
2004
27
下载PDF
职称材料
9
搜索引擎的排序技术研究
杨思洛
《现代图书情报技术》
CSSCI
北大核心
2005
23
下载PDF
职称材料
10
Web结构挖掘
杨炳儒
李岩
陈新中
王霞
《计算机工程》
CAS
CSCD
北大核心
2003
20
下载PDF
职称材料
11
PageRank算法的原理简介
吴淑燕
许涛
《图书情报工作》
CSSCI
北大核心
2003
34
原文传递
12
搜索引擎中Robot搜索算法的优化
宋聚平
王永成
滕伟
许欢庆
《情报学报》
CSSCI
北大核心
2002
21
下载PDF
职称材料
13
具有时间反馈的PageRank改进算法
戚华春
黄德才
郑月锋
《浙江工业大学学报》
CAS
2005
27
下载PDF
职称材料
14
Web超链分析算法研究
朱炜
王超
李俊
潘金贵
《计算机科学》
CSCD
北大核心
2003
20
下载PDF
职称材料
15
搜索引擎的几种常用排序算法
常璐
夏祖奇
《图书情报工作》
CSSCI
北大核心
2003
26
原文传递
16
基于网页链接和内容分析的改进PageRank算法
钱功伟
倪林
MIAO Yuan
曹荣
《计算机工程与应用》
CSCD
北大核心
2007
25
下载PDF
职称材料
17
基于用户行为综合分析的微博用户影响力评价方法
齐超
陈鸿昶
于洪涛
《计算机应用研究》
CSCD
北大核心
2014
32
下载PDF
职称材料
18
网络社区中的意见领袖特征分析
肖宇
许炜
夏霖
《计算机工程与科学》
CSCD
北大核心
2011
28
下载PDF
职称材料
19
网络舆情信息源影响力的评估研究
郭岩
刘春阳
余智华
张瑾
戴媛
《中文信息学报》
CSCD
北大核心
2011
28
下载PDF
职称材料
20
权威因子:一个新的期刊评价指标
苏成
潘云涛
马峥
袁军鹏
郭红
俞征鹿
《编辑学报》
CSSCI
北大核心
2010
26
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
49
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部