基于属性标签的Web数据挖掘被引量：1

WEB DATA MINING BASED ON ATTRIBUTE TAGS

下载PDF

导出

摘要 Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到数据域,进而从数据域中提取出数据记录。 Div＋CSS is popular in Webpage layout.On such layout,a lot of data records of Webpage gather in a layer in the form of repetition structure.This paper proposes a method to extract the Web data based on attribute tag of Webpage.By constructing a DOM tree with the attribute tag and comparing the value of the tag attributes,repetitive patterns are mined.Three rules are made to remove the disturbing patterns and to identify the data regions.Then the data records in data regions can be extracted.

作者黄亮赵泽茂梁兴开

机构地区杭州电子科技大学通信工程学院

出处《计算机应用与软件》 CSCD 北大核心 2012年第11期156-159,共4页 Computer Applications and Software

基金上海市信息安全综合管理技术研究重点实验开放课题资助项目(AGK2009008)

关键词 WEB安全 WEB数据挖掘 HTML DOM 属性标签 Web security Web data mining HTML DOM Attribute tags

分类号 TP309.2 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1Nicholas Kushmerick, Daniel S Weld, Robert Doorenbos. Wrapper induction for information extraction [ J ]. Aichi : Morgan Kaufmann Publishers, 1997:729 - 737. 被引量：1
2Muslea I, Minton S, Knoblock C. A Hierarchical Approach to Wrapper Induction[ C]//Proceedings of the 3rd International Conference on Autonomous Agents, 1999. 被引量：1
3Soderland S. Learning Information Extraction Rules for Semi-structured and Free Text[ J]. Machine Learning, 1999. 被引量：1
4Crescenzi V, Mecca G, Merialdo P. ROADRUNNER: Towards automatic data extraction fmmlarge web sites [ C ]//Proc of the 27th VLDB Conf, 2001 : 109 - 118. 被引量：1
5Chang Chia-hui, Lui Shao-chen. IEPAD:information extraction based on pattern discovery [ C ]//Proceedings of the tenth international conference on World Wide Web, 2001:681 -688. 被引量：1
6Liu B ,Grossman R L,Zhai Y. Mining data records in Web pages[ C]// Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2003:601 -606. 被引量：1
7高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
8顾韵华,田伟.基于DOM模型扩展的Web信息提取[J].计算机科学,2009,36(11):235-237. 被引量：21
9刘亚东,彭舰,张达平.基于智能的网页信息提取系统的研究与设计[J].四川大学学报（自然科学版）,2009,46(4):957-962. 被引量：7

二级参考文献27

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
5Freitag D. Machine learning for information extraction in information domains[J]. Machine Learning, 2000,39 (2/3): 169-202. 被引量：1
6Gupta, Kaiser G, Neistadt D, et al. DOM-based content extraction of HTML documents[C]// Proc. of the 12th Int'l World Wide Web Conf. New York:ACM Press, 2003:207-214. 被引量：1
7Gupta S, Kaiser G E, Grimm P, et al. Automating Content Extraction of HTML Documents [J]. World Wide Web Journal. 被引量：1
8Deng C,Yu S P,Wen J R,et al. VIPS:a Vision Based Page Segmentation algorithm[R]. MSR-TR-2003-79. 2003. 被引量：1
9Laender A H F,RibeiroNeto B A.A brief survey of web data extraction tools[J].ACM SIGMOD Record,2002,31(2):84. 被引量：1
10Califf M E,Mooney R J.Relational learning of pattern natch rules for information extraction[C].USA:CA,1997. 被引量：1

共引文献30

1顾韵华,田伟.基于DOM模型扩展的Web信息提取[J].计算机科学,2009,36(11):235-237. 被引量：21
2朱南丽,朱晓鸣,叶五梅.Web信息抽取中基于结点权重的树编辑距离匹配法研究[J].计算机时代,2010(3):49-51. 被引量：2
3王庆恒,马自卫,李高虎.统一检索服务关键技术的研究与实现[J].现代图书情报技术,2010(4):18-23. 被引量：3
4吕红亮,王劲林,邓峰.支持局部更新的双向内容适配策略[J].计算机工程与应用,2010,46(33):6-8.
5陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
6李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
7宫继兵,唐杰,杨文军.通用抽取引擎框架:一种新的Web信息抽取方法的研究[J].计算机科学,2011,38(1):198-202. 被引量：3
8陈晓云,宋伟国,苗胜法.基于DOM的中文人物WEB信息提取[J].微计算机信息,2010,26(36):15-17. 被引量：2
9郭淼霞.网页分类中的数据预处理方法研究[J].莆田学院学报,2011,18(5):82-86.
10甘屹,张雪梅.网络化制造中产品设计数据转换研究与应用[J].制造业自动化,2011,33(22):93-96. 被引量：1

同被引文献13

1Yfacca F,Lanzi P.Mining interesting knowledge from web logs:a survey[J].Data and Knowledge Engineering,2005,53(3):225-241. 被引量：1
2Runker T,Beadek J.Web mining with relational clustering[J].International Journal of Approximate Reasoning,2003,32(2):217-236. 被引量：1
3Liao T W.Clustering of time series data-a survey[J].Pattern Recognition,2005,38:1857-1874. 被引量：1
4Rees J,Koehler G.Learning genetic algorithm parameters using hidden Markov models[J].European Journal of Operational Research,2006,175(2):806-820. 被引量：1
5Kullback S,Leibler R A.On information and sufficiency[J].Annuals of Mathematical Statistics,1951,22(1):79-86. 被引量：1
6De Angelis L,Dias J G.Mining categorical sequences from data using a hybrid clustering method[J].European Journal of Operational Research,2014,234(1):720-730. 被引量：1
7Dempster A P,Laiard N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society Series B-Methodological,1977,39(1):1-38. 被引量：1
8廖开际,刘其辉,易聪,罗俊勤.基于贝叶斯网的知识集群研究[J].计算机应用研究,2011,28(3):828-830. 被引量：3
9何跃,陈大勇,腾格尔.基于Web数据挖掘的用户浏览兴趣路径研究[J].计算机工程与应用,2012,48(7):106-108. 被引量：5
10陈富赞,刘青,李敏强,寇纪淞.一种基于会话聚类算法的Web使用挖掘方法[J].系统工程学报,2012,27(1):129-136. 被引量：4

引证文献1

1武健.网络用户访问模式挖掘算法研究[J].计算机工程与应用,2016,52(5):61-64. 被引量：4

二级引证文献4

1王亚奇.一种微博谣言传播网络模型[J].信息与电脑,2015,27(10):79-80.
2孙薇.高校图书馆资源云处理系统设计与应用[J].价值工程,2016,35(5):182-183.
3顾学海,胡牧,蒋厚明,王俊.基于HTML5的混合移动应用开发[J].计算机系统应用,2016,25(5):236-239. 被引量：18
4杨立鹏,张仰森,张雯,王建,曾健荣.基于Storm实时流式计算框架的网络日志分析方法[J].计算机科学,2019,46(9):176-183. 被引量：5

1邓铁清,王恺.Web数据提取与发布工具的设计与实现[J].计算机应用研究,2004,21(3):178-180.
2常国锋.浅析编写计算机程序的三种结构[J].电子制作,2015,23(2Z).
3郑启华.PASCAL语言讲座(三)[J].电脑爱好者,1998(11):29-31.
4谷丰.基于linux的机车显示系统平台的设计[J].机车电传动,2005(1):27-29. 被引量：3
5刘松业.正则表达式的Web数据提取研究[J].电脑编程技巧与维护,2008(15):89-91. 被引量：4
6王志军.金山词霸取词划译也要人性化[J].网友世界,2010(12):41-41.
7黄浩锋,肖南峰.基于组稀疏表示的医学图像超分辨率重建[J].计算机科学,2015,42(S1):151-153 189. 被引量：6
8黄亮,赵泽茂,梁兴开.基于编辑距离的Web数据挖掘[J].计算机应用,2012,32(6):1662-1665. 被引量：17
9赵纯,施一剑,张昱,金心宇.基于.NET的移动话费详单页面的XML数据提取[J].计算机系统应用,2011,20(4):189-193. 被引量：2
10Li Caina Cui Baotong.Delay-dependent passive control of linear systems with nonlinear perturbation[J].Journal of Systems Engineering and Electronics,2008,19(2):346-350. 被引量：1

计算机应用与软件

2012年第11期

浏览历史

内容加载中请稍等...

基于属性标签的Web数据挖掘被引量：1

参考文献9

二级参考文献27

共引文献30

同被引文献13

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于属性标签的Web数据挖掘 被引量：1

参考文献9

二级参考文献27

共引文献30

同被引文献13

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于属性标签的Web数据挖掘被引量：1