-
题名网页排序中的随机模型及算法
被引量:2
- 1
-
-
作者
刘玉婷
马志明
-
机构
北京交通大学理学院数学系
中国科学院数学与系统科学研究院
-
出处
《中国科学:数学》
CSCD
北大核心
2011年第12期1095-1103,共9页
-
基金
国家自然科学基金(批准号:11001010)资助项目
-
文摘
随着互联网规模的日益增长,搜索引擎已经成为互联网上有效的信息获取工具.而在众多搜索引擎的背后,是信息检索技术,也即网页排序算法在起作用.网页排序包括重要性排序和相关性排序.通过我们研究发现,尽管这两类排序所依据的准则不同,但是都可以通过建立适当的随机过程模型来研究.对于网页重要性排序,我们通过分析用户浏览网页的行为建立了Markov骨架过程的框架.基于该框架我们分析了三种不同的随机过程模型对用户行为模拟的合理程度,并设计了名为BrowseRank的一组新算法,该算法可以根据用户上网行为来计算网页的重要性.在网页相关性排序中,我们主要针对排序结果联合问题建立了一个基于Markov链的监督学习框架.通过将传统方法的监督化,使原来难于解决的问题变的易于学习,将原来的NP-难问题转化为一个半正定规划问题,提高了效率.
-
关键词
信息检索
排序联合问题
MARKOV骨架过程
browserank算法
-
Keywords
information retrieval
rank aggregation
Markov skeleton process
browserank
-
分类号
O211.6
[理学—概率论与数理统计]
TP393.092
[理学—数学]
-
-
题名两类网页重要性排序算法的概率对比
被引量:1
- 2
-
-
作者
刘玉婷
-
机构
北京交通大学数学系
-
出处
《应用数学学报》
CSCD
北大核心
2010年第3期432-442,共11页
-
基金
中央高校基本科研业务费专项资金(2009JBM106)资助项目
-
文摘
PageRank和BrowseRank算法是近年来针对网页重要性排序提出的两类典型算法.本文基于更新过程,通过遍历理论分析对比两类网页重要性排序算法,发现它们都利用随机游走的思想来模拟用户在互联网上浏览网页的行为,不同的是前者是离散时间参数的马尔可夫链而后者是连续时间参数的.而且它们所利用的数据也不同,前者基于网络链接图而后者是从真实用户浏览日志中生成的用户浏览图.此外,我们还证明随机游走的平稳分布是对网页重要性的一个合理且可行的衡量方法,并给出目前一些文献中所获得的实验结果的概率解释和意义.
-
关键词
连续时间马尔可夫过程
平稳分布
遍历定理
browserank算法
PAGERANK算法
-
Keywords
continuous-time Makrov process
stationary distribution
ergodicity theorem
browserank
PageRank
-
分类号
O211
[理学—概率论与数理统计]
-