-
题名基于特征相似度计算的网页包装器自适应
被引量:1
- 1
-
-
作者
陈迎仁
郭莹楠
郭享
倪一涛
陈星
-
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室(福州大学)
-
出处
《计算机科学》
CSCD
北大核心
2021年第S02期218-224,257,共8页
-
基金
国家重点研发计划(2017YFB1002000)
福建省自然科学基金杰青项目(2020J06014)
福建省自然科学基金项目(2018J07005)。
-
文摘
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。
-
关键词
网页数据抽取
自适应
包装器
相似度计算
网页特征
-
Keywords
Web page data extraction
Adaptation
Wrapper
Similarity calculation
page features
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于特征融合和机器学习的恶意网页识别研究
被引量:4
- 2
-
-
作者
魏旭
成卫青
-
机构
南京邮电大学计算机学院
东南大学计算机网络和信息集成教育部重点实验室
-
出处
《南京邮电大学学报(自然科学版)》
北大核心
2019年第5期95-104,共10页
-
基金
计算机网络和信息集成教育部重点实验室课题(K93-9-2014-04B)
国家自然科学基金(61170322)资助项目
-
文摘
互联网高速发展的同时催生了众多恶意网页。恶意网页是指侵犯用户安全,包括个人隐私和财产等安全的网页。文中基于对若干恶意网页的传统网页特征:网页URL、JavaScript代码和HTML代码的分析,定义了若干特征用于恶意网页识别;提出了若干基于HTTP请求信息的特征;并提出了一个基于特征融合和机器学习的恶意网页识别方法,将HTTP请求特征与传统网页特征相融合,再利用机器学习分类算法构建网页分类模型区分正常和恶意网页。从Alexa选取500个正常网页,从PhishTank和Malwaredomains中共选取500个网页作为恶意网页构建数据集,训练网页分类模型。通过实验验证了基于URL特征、网页代码特征和HTTP请求特征的方法优于不使用HTTP请求特征的方法,并且发现随机森林分类算法更适用于恶意网页识别。
-
关键词
恶意网页
网页安全
网页特征
HTTP请求
机器学习
-
Keywords
malicious web pages
web security
web page features
HTTP requests
machine learning
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名用C++ Builder实现动态按钮
- 3
-
-
作者
刘贵平
-
机构
河套大学数学与计算机科学系
-
出处
《河套学院论坛》
2007年第2期80-82,共3页
-
文摘
用户制作网页特效时,通常可以使用Photoshop、Flash等复杂图像设计软件来完成,但多种方法配合使用有时更为方便,本文就介绍一种使用C++ Builder来实现动态网页按钮的方法。
-
关键词
C++
BUILDER
网页特效
动态按钮
-
Keywords
C++ Builder
net-page features
flashing buttons
-
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于视觉特征的网页最优分割算法
被引量:3
- 4
-
-
作者
李文昊
彭红超
童名文
石俊杰
-
机构
华中师范大学教育信息技术学院
解放军
-
出处
《计算机科学》
CSCD
北大核心
2015年第11期284-287,309,共5页
-
基金
教育部科技发展中心网络时代的科技论文快速共享专项研究资助课题:基于学术社交网络的多粒度科技论文共享技术研究(2013123)
中央高校基本科研业务费项目:内容适配系统中最优适配决策器模型及分布式寻优算法研究(CCNU14A02012)资助
-
文摘
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。
-
关键词
网页最优分割
网页视觉特征
网页自适应呈现
最优划分
-
Keywords
Web page optimal segmentation, Web page vision features, Web page adaptive presentation, Optimal division
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-