期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于布局相似性的网页正文内容提取研究 被引量:10
1
作者 杨柳青 李晓东 耿光刚 《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性... 合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。 展开更多
关键词 布局相似性 网页正文提取 信息检索
下载PDF
基于页面布局相似性的钓鱼网页发现方法 被引量:6
2
作者 邹学强 张鹏 +3 位作者 黄彩云 陈志鹏 孙永 刘庆云 《通信学报》 EI CSCD 北大核心 2016年第S1期116-124,共9页
针对钓鱼网页与真实网页布局结构相似的特点,提出了基于页面布局相似性的钓鱼网页发现方法,该方法首先抽取出网页中带链接属性的标签作为特征,然后基于该特征提取网页标签序列分支来标识网页;接着通过网页标签序列树对齐算法将网页标签... 针对钓鱼网页与真实网页布局结构相似的特点,提出了基于页面布局相似性的钓鱼网页发现方法,该方法首先抽取出网页中带链接属性的标签作为特征,然后基于该特征提取网页标签序列分支来标识网页;接着通过网页标签序列树对齐算法将网页标签序列树的对齐转换成网页标签序列分支的对齐,使二维的树结构转换成一维的字符串结构,最后通过生物信息学BLOSUM62编码的替换矩阵快速计算对齐分值,从而提高钓鱼网页的检测效果,仿真实验表明该方法可行,并具有较高的准确率和召回率。 展开更多
关键词 页面布局 钓鱼网页 标签序列树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部