-
题名基于N-gram的Web用户浏览模式分类算法研究
被引量:2
- 1
-
-
作者
朱志国
邓贵仕
孔立平
-
机构
大连理工大学系统工程研究所
东北财经大学
-
出处
《情报学报》
CSSCI
北大核心
2009年第3期389-394,共6页
-
基金
基金项目:国家自然科学基金项目(70671016)资助.
-
文摘
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架。系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档。最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度。
-
关键词
N-gram方法
web内容抽取
用户浏览模式
分类算法
-
Keywords
N-gram method, web content extraction, user navigation profiles, classification algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP393
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于数据富集区域的Web内容自动抽取
- 2
-
-
作者
许志坚
孙蕾
-
机构
华东师范大学计算机科学与技术系
-
出处
《计算机工程》
CAS
CSCD
2013年第9期192-195,共4页
-
基金
上海自然科学基金资助项目(09ZR1409500)
-
文摘
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。
-
关键词
数据富集区域
web内容抽取
树匹配
标签树
子树相似度
数据记录
-
Keywords
data enrichment region
web.content extraction
tree-matching
tag tree
sub-trees similarity
data record
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-