期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于N-gram的Web用户浏览模式分类算法研究 被引量:2
1
作者 朱志国 邓贵仕 孔立平 《情报学报》 CSSCI 北大核心 2009年第3期389-394,共6页
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览... Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架。系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档。最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度。 展开更多
关键词 N-gram方法 web内容抽取 用户浏览模式 分类算法
下载PDF
基于数据富集区域的Web内容自动抽取
2
作者 许志坚 孙蕾 《计算机工程》 CAS CSCD 2013年第9期192-195,共4页
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数... 对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。 展开更多
关键词 数据富集区域 web内容抽取 树匹配 标签树 子树相似度 数据记录
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部