摘要
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的。
Div + CSS is popular in Web page layout.In this layout,a lot of data records of Web pages gather in a layer in the form of repetition structure.To mine data from Web well,this paper proposed a new kind of Web data mining algorithm,computed tree edit distance through string edit distance,improved string edit distance algorithm,used string edit distance to access similarity between one tree and another,and then found repeated patterns in Web pages and mined data.By testing pages of different features of repeated patterns,this algorithm is proved to extract Web data successfully with the feature whether the root and upper layer nodes are the same or the lowest layer nodes are the same.
出处
《计算机应用》
CSCD
北大核心
2012年第6期1662-1665,共4页
journal of Computer Applications
基金
上海市信息安全综合管理技术研究重点实验室开放课题资助项目(AGK2009008)