-
题名基于布局相似性的网页正文内容提取研究
被引量:10
- 1
-
-
作者
杨柳青
李晓东
耿光刚
-
机构
中国科学院计算机网络信息中心
中国互联网络信息中心
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第9期2581-2586,共6页
-
基金
国家自然科学基金面上项目(61375039)
国家自然科学基金青年资助项目(61005029)
中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402)
-
文摘
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。
-
关键词
布局相似性
网页正文提取
信息检索
-
Keywords
layout similarity
Web page content extract
information retrieval
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于页面布局相似性的钓鱼网页发现方法
被引量:6
- 2
-
-
作者
邹学强
张鹏
黄彩云
陈志鹏
孙永
刘庆云
-
机构
中国科学院信息工程研究所
国家计算机网络应急技术处理协调中心
-
出处
《通信学报》
EI
CSCD
北大核心
2016年第S1期116-124,共9页
-
基金
国家自然科学基金资助项目(No.61402464
No.61402474
+1 种基金
No.61602467)
国家高技术研究发展计划("863"计划)基金资助项目(No.SS2014AA012303)~~
-
文摘
针对钓鱼网页与真实网页布局结构相似的特点,提出了基于页面布局相似性的钓鱼网页发现方法,该方法首先抽取出网页中带链接属性的标签作为特征,然后基于该特征提取网页标签序列分支来标识网页;接着通过网页标签序列树对齐算法将网页标签序列树的对齐转换成网页标签序列分支的对齐,使二维的树结构转换成一维的字符串结构,最后通过生物信息学BLOSUM62编码的替换矩阵快速计算对齐分值,从而提高钓鱼网页的检测效果,仿真实验表明该方法可行,并具有较高的准确率和召回率。
-
关键词
页面布局
钓鱼网页
标签序列树
-
Keywords
layout similarity
phishing attack
tag sequence tree
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-