基于DOM树抽象的包装器自动生成技术

Automatic generation technology of wrapper based on DOM tree abstraction

下载PDF

导出

摘要传统的包装器都由人工定义,要为不同类型的页面制作不同的包装器,因此包装器维护的开销很大,一旦原来的页面风格变了,原来的包装器也就需要重新定义。针对现有方法需要人工定义和维护包装器,并且准确率还有待提升的问题,提出一种可行的基于DOM树抽象的包装器自动生成技术。该技术主要由两个部分组成:目标类型网页的DOM树抽象和目标节点的定位及包装器生成。运用该技术可以对多种类型的网页实现包装器的自动生成。该技术针对主流的购物网站(京东、亚马逊、苏宁、当当)及主流书籍信息网站(豆瓣读书)进行了实验,实验结果表明该方法的平均精确率和召回率能够达到96%和99%。 Traditional wrappers are defined by hand, and different wrappers are made for different types of Web pages, so the maintenance of the wrapper is a great eost. Once the original page style has ehanged, the original wrapper also needs to be redefined. Aiming at the problem that the wrapper needs to be defined and maintained manually and the accuracy still needs to be improved in the existing methods, this paper presented a feasible automatic wrapper generation technique based on DOM tree abstraction. The technology consists of two parts： first, DOM tree abstraction for the target type of the pages; seeond, the target node locating and the wrapper generation. It can be used for a variety of types of Web pages. The experiments were eondneted on mainstream shopping websites （Jingdong, Amazon, Snning, Dangdang） and mainstream book information website （ Douban Books）. The experimental results show that the average precision and recall of this method ean reach 96% and 99%.

作者张佳俊王一洲陈星张颖 ZHANG Jiajun;WANG Yizhou;CHEN Xing;ZHANG Ying(College of Mathematics and Computer Science,Fuzhou University,Fuzhou Fujian 350108,China;Fujian Provincial Key＂ Laboratory of Network Computing and Intelligent Information Processing,Fuzhou Fujian 350108,China;National Engineering Research Center of Software Engineering,Peking University,Beijing 100871,China)

机构地区福州大学数学与计算机科学学院福建省网络计算与智能信息处理重点实验室北京大学软件工程国家工程研究中心

出处《计算机应用》 CSCD 北大核心 2018年第A01期150-154,182,共6页 journal of Computer Applications

基金国家重点研发计划项目(2017YFB1002000) 国家自然科学基金资助项目(61402111) 海西政务大数据应用协同创新中心项目

关键词 DOM 抽象信息抽取包装器自动生成 DOM abstraction information extraction wrapper automatic generation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1李汝君,张俊,张晓民,桂小庆.健康领域Web信息抽取[J].计算机应用,2016,36(1):163-170. 被引量：6
2陈建彪..面向领域的Web信息自动化抽取系统设计与实现[D].郑州大学,2013:
3吴共庆,胡骏,李莉,徐喆昊,刘鹏程,胡学钢,吴信东.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报,2016,27(3):714-735. 被引量：23
4王海艳,曹攀.基于节点属性与正文内容的海量Web信息抽取方法[J].通信学报,2016,37(10):9-17. 被引量：12
5吴俊霖..基于半自动化WEB数据抽取器的信息集成研究[D].西南大学,2010:
6李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3

二级参考文献72

1李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
2顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
3V Crescenzi,G Mecca,P Merialdo. RoadRunner-Towards Automatic Data Extraction from Large Web Sites[C].In:Proceedings of the 26th International Conference on Very Large Data Bases 被引量：1
4Alberto H F Laender,Berthier A Nebeiro Neto et al.A Brief Survey of Web Data Extraction Tools[J].ACM,2002;31(2) 被引量：1
5Joachim Hammer,Jason McHugh,Hector Garcia-Molina. Semistructured Data:The TSIMMIS Experience[C].In:Proceedings of the First East-European Syposium on Advances in Databases and Information Systems (ADBIS97), 1997:1 ～8 被引量：1
6J McHugh,S Abiteboul,R Goldman et al. Lore:A Database Management System for Semistructured Data[J].ACM SIGMOD, 1997; 26 (3):54～66 被引量：1
7http://www.w3.org/People/Raggett/tidy 被引量：1
8齐振宇,赵军,杨帆.一种开放式中文命名实体识别的新方法[c]∥第五届全国信息检索学术会议论文集,2009:60-69. 被引量：1
9WebHarvest [EB/OL]. [2009-12-25]. http//web-harvest source-forge.net. 被引量：1
10NLPCN. Ansj [EB/OL]. [2014-07-01]. http://www.nlpcn.org/resource/list/4. 被引量：1

共引文献39

1贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
2王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
3孙梦,瞿有利.一种基于噪音过滤包装器的Web新闻抽取方法[J].计算机与现代化,2017(1):5-12.
4张方,尹刚,王涛,余跃.面向开源社区的Web数据抽取方法研究[J].现代计算机,2017,23(3):27-29.
5孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
6温雯,伍思杰,蔡瑞初,郝志峰,王丽娟.KECVS:一个面向专业文献知识实体的类型标注及可视化系统[J].计算机应用与软件,2017,34(8):87-91.
7吴共庆,刘鹏程,胡骏,胡学钢.基于块密度加权标签路径特征的Web新闻在线抽取[J].中国科学：信息科学,2017,47(8):1078-1094. 被引量：3
8刘赛,聂庆节,岳峻松,刘军,姜建飞.多源数据库数据复制模型[J].计算机与现代化,2017(9):45-49. 被引量：3
9彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4
10王磊.基于XML的Web信息采集系统设计与实现[J].齐齐哈尔大学学报（自然科学版）,2017,33(2):25-28. 被引量：3

1李丹.一种基于树型结构的包装器生成算法研究[J].电子测试,2017,28(12X):135-136.
2郑文,戴溢龙,王阳.基于网络控制的智能投币售货机监控系统设计研究[J].浙江万里学院学报,2018,31(1):93-96.
3卓晋萍,许志挺.“互联网+”时代的油画产业销售[J].油画,2017(1):28-31.
4饶期捷,左崇霖,程强豪,林强.面向办公辅助应用的Word文档名自动生成技术[J].信息与电脑,2018,30(6):60-62. 被引量：4
5王秀婷.移动互联网时代下政府门户网站设计趋势[J].赢未来,2017(20):445-445. 被引量：1
6卢江兴.利用AJAX隐藏网站程序结构[J].网络安全和信息化,2017,0(9):120-122.
7王用,张杰.基于数据统计的雷达目标类型识别问题研究[J].信息系统工程,2018,31(5):19-19. 被引量：2
8张某、姚某利用恶意程序侵犯公民个人信息案[J].检察风云,2018,0(15):17-17.
9徐丽芳,曹羽凤.Kadaxis:图书内容元数据自动生成技术的领跑者[J].出版参考,2018(6):17-20. 被引量：3
10李鹏,单强,杨世江,王罡,范伟,杜东华,徐淦.智能变电站过程层交换机静态组播表自动生成技术的研究和应用[J].浙江电力,2018,37(7):43-48. 被引量：6

计算机应用

2018年第A01期

浏览历史

内容加载中请稍等...

基于DOM树抽象的包装器自动生成技术

参考文献6

二级参考文献72

共引文献39

相关作者

相关机构

相关主题

浏览历史