-
题名搜索引擎用户点击行为分析
被引量:45
- 1
-
-
作者
王继民
彭波
-
机构
北京大学信息科学技术学院
中国科学院资源环境科学信息中心
-
出处
《情报学报》
CSSCI
北大核心
2006年第2期154-162,共9页
-
基金
国家自然科学基金重点项目(60435020)
教育部博士点基金项目(20030001076)
中国博士后科学基金项目(2004036182).
-
文摘
基于大规模分布式搜索引擎系统——北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。
-
关键词
搜索引擎
点击日志
用户行为
分布特征
相似查询
-
Keywords
search engine, click log, user behavior, characteristic distribution, similar query.
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名一种分布式用户浏览点击模型算法
被引量:8
- 2
-
-
作者
张浩盛伦
李翀
柯勇
张士波
-
机构
中国科学院计算机网络信息中心
中国科学院大学
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第3期1-6,共6页
-
基金
中国科学院信息化专项"中国科学院信息化评估"(Y647021189)
-
文摘
为从海量搜索点击日志中快速挖掘用户行为,提出一种分布式用户浏览点击模型(UBM)算法。原始UBM算法求出的检验度参数E只与搜索结果文档所在排序位置以及上一文档的点击位置有关,且非常稳定,基于此特性,将EM迭代求解转换为抽样估计检验度以求解吸引度的分布式UBM算法。在Spark数据平台上进行仿真,结果表明,与原始UBM算法相比,该算法能够解决点击日志中存在的严重数据倾斜问题,且运行效率较高。
-
关键词
点击日志
点击模型
用户浏览点击模型算法
搜索引擎
Spark平台
-
Keywords
click log
click model
User Browse click Model(UBM) algorithm
search engine
Spark platform
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Web使用挖掘的用户行为分析
被引量:27
- 3
-
-
作者
张波
巫莉莉
周敏
-
机构
华南农业大学现代教育技术中心
华南农业大学信息学院
-
出处
《计算机科学》
CSCD
北大核心
2006年第8期213-214,239,共3页
-
文摘
Web服务产生了大量的日志数据,这些数据记录了用户的行为信息。如何从海量的日志数据中自动、智能地抽取隐藏于其中的知识,这是本文要研究的问题。基于Web使用挖掘,对点击流数据源进行收集、预处理,并基于FP-tree的关联规则挖掘算法对用户行为进行分析,发现新模式,为优化网站建设提供有价值数据。
-
关键词
WEB使用挖掘
点击流
WEB服务器日志
FP-TREE
关联规则
-
Keywords
Web usage mining, click stream, Web server log, FP-tree, Association rule
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP393.08
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于时间点击图挖掘的查询建议方法
被引量:4
- 4
-
-
作者
张乃洲
-
机构
河南财经政法大学计算机与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第5期191-196,共6页
-
基金
国家星火计划基金资助项目(2012GA750007)
河南省科技厅基础与前沿技术研究基金资助项目(122300410378)
河南省教育厅科学技术研究基金资助重点项目(13A520032)
-
文摘
采用查询建议技术表现用户查询意图的多样化,并自动向用户提供多种选择,是当前搜索引擎普遍的做法。但当前的查询建议研究鲜有考虑时间因素对生成查询建议的影响,而实际上在很多情况下,用户的查询意图会随着时间的推移发生改变。为此,根据时间点击图挖掘原理提出一种查询建议方法。对原始的查询日志文件进行预处理,生成时间点击图。对时间点击图进行非连通子图检测和图的合并操作,以降低或消除图的非连通性。采用基于随机游走模型的图挖掘算法,生成给定查询的查询建议集。在真实的Web环境下进行实验,结果表明,利用该方法能够提高查询建议的精度和差异度,从而生成更加可靠的查询建议。
-
关键词
查询意图
查询建议
时间点击图
随机游走模型
查询日志
搜索引擎
-
Keywords
query intent
query suggestion
temporal click graph
random walk model
query log
search engine
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于贝叶斯推理的点击模型及其实现
被引量:1
- 5
-
-
作者
孙付伟
李娟
杨达
-
机构
中国科学院软件研究所基础软件国家研究中心
中国科学院研究生院
-
出处
《计算机应用与软件》
CSCD
北大核心
2013年第1期7-10,共4页
-
基金
国家自然科学基金项目(60903050
61100071)
+2 种基金
国家重点基础研究发展计划基金(2007CB310802)
国家重大科技专项经费资助项目(2010ZX01036-001-002
2010ZX01037-001-002)
-
文摘
为能更好地解释搜索引擎和商务搜索的点击日志中的用户行为,实现一种用于分析日志中包含的用户行为的贝叶斯点击模型。通过分析中国最大电子商务网站的约927万条用户搜索点击日志数据,发现一个的文档的点击是受其上下位置点击过的文档共同影响的,然后基于此发现提出并实现一种新的基于贝叶斯推理的点击模型,并给出并行版本的算法实现。最后通过利用来自用户搜索的一个月日志数据验证,结果表明该模型优于现有的点击模型。
-
关键词
点击日志
点击模型
贝叶斯推理
搜索引擎
日志分析
-
Keywords
click log click model Bayesian inference Search engine log analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Web使用挖掘的学生思想动态分析
被引量:2
- 6
-
-
作者
刘雨露
-
机构
重庆三峡学院数学与计算机科学学院
-
出处
《重庆三峡学院学报》
2007年第3期40-42,共3页
-
文摘
本文借助Web服务产生的大量日志数据,运用Web使用挖掘技术,对点击流数据源进行收集、预处理,并用基于Separate的约束性关联规则挖掘算法对学生的思想进行分析,发现学生的思想动态,为教育管理者管理学生提供决策依据。
-
关键词
WEB使用挖掘
点击流
WEB服务器日志
关联规则
-
Keywords
Web usage mining
click stream
Web server log
association rule
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于点击日志的搜索引擎用户满意度评价研究
被引量:1
- 7
-
-
作者
邓晓妹
武刚
-
机构
北京林业大学信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第8期245-249,共5页
-
基金
中央高校基本科研业务费专项资金(No.BLYX200928)
-
文摘
针对传统的搜索引擎人工评价方法效率低、成本大的问题,提出一种利用用户点击日志来评价搜索引擎用户满意度的方法。通过分析搜索引擎的用户点击日志,选择网页搜索结果排名、网页点击率、网页平均浏览时间作为用户满意度特征,分别运用多元线性回归分析、多元对数回归分析和BP神经网络方法,建立了基于用户点击日志的搜索引擎用户满意度评价模型。结合具体的实验数据集,通过实验对线性回归模型、对数回归模型和BP神经网络模型的结果进行了比较与分析,验证了模型的有效性。
-
关键词
搜索引擎评价
用户满意度
用户点击日志
反向传播(BP)神经网络
-
Keywords
search engine evaluation
user satisfaction
user click log
Back Propagation(BP)neural network
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-