HTML数据内容的抽取与集成被引量：8

Data Extraction and Integration from HTML Documents

下载PDF

导出

摘要在XML基础上,利用HTMLTidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTMLTidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。 Using XML and HTML Tidy tools set, we can get a lightweight method of Web data mining and transformation. The purpose of transformation is to separate HTML document content from its schema. The processes included purifying HTML documents by HTML Tidy Standard class library, analyzing HTML element's structure through DOM, and extracting data with XSL and XPATH.

作者欧建雄张礼平

机构地区华东理工大学计算机科学与工程系

出处《华东理工大学学报（自然科学版）》 CAS CSCD 北大核心 2003年第6期613-616,共4页 Journal of East China University of Science and Technology

关键词 XML HTML 数据抽取 XML HTML data extraction

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395. 被引量：83
2王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量：21
3李青山,陈平.一种基于内容的HTML到XML转换策略[J].计算机工程与应用,2001,37(9):30-32. 被引量：9

二级参考文献9

1[1]Joachim Hammer, Hector Garcia-Molina, Jumghoo Cho, et al.Extracting Semistructured Information from the Web [C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson, Arizona, 1997.18-25. 被引量：1
2[2]Arnaud Sahuguet, Fabien Azavant. Building Light-weight Wrap-pers for Legacy Web Data-sources Using W4F[C]. International Conference on Very Large Databases (VLDB), Edinburgh,Scotland, 1999.738-741. 被引量：1
3[3]S Soderland. Learning Information Extraction Rules for Semi-structured and FreeText [ J ]. Machine Learning, 1999, 1-44. 被引量：1
4[4]N Kushmerick, D Weld, B Doorenbos. Wrapper Induction for Information Extraction [ C ]. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), Osaka, Japan, 1997.729-737. 被引量：1
5[5]Ion Muslea, Steve Minton, Craig Knoblock. Stalker: Learning Extraction Rules for Semistructured, Web-based Information Sources [ C ]. AAAI-98 Workshop on "AI & Information Integration", Madison, 1998.74-81. 被引量：1
6[6]Ion Muslea. Extraction Patterns: From Information Extraction to Wrapper Induction[ R]. Technical Report, Information Sciences Institute, University of Southern Californi, 1998. 被引量：1
7Wang Q，Proc EDBT 2000，2000年被引量：1
8Liu L，Proc of ICDE 2000，2000年，611页被引量：1
9Li Qingshan，The 3th International Asia-Pacific Web Conference，2000年，87页被引量：1

共引文献104

1严彩梅.Web智能信息检索体系结构的研究[J].计算机应用研究,2002,19(11):51-52. 被引量：3
2詹雅静.浅谈学校学籍管理系统的设计和实现[J].内蒙古科技与经济,2005(z1):151-152. 被引量：1
3李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
4李洋,栾吉华.一种新的Web信息抽取方法研究[J].科技资讯,2007,5(35):80-81.
5李亚.学生学籍管理系统的设计与实现[J].科技风,2008(23):118-119. 被引量：1
6姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量：5
7黄俊涛.基于Web成绩管理系统的设计与实现[J].成功,2010(4):292-292.
8刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量：6
9贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
10余正涛,樊孝忠,耿增民.受限领域自然语言数据库查询接口研究[J].昆明理工大学学报（理工版）,2004,29(4):133-138. 被引量：5

同被引文献35

1王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
2杨晴雯,周宇,李晓.WEB图形格式SVG及基于XML+XSL的动态生成技术[J].成都信息工程学院学报,2004,19(4):545-548. 被引量：3
3古凌岚.基于.Net框架的XML相关技术的实现[J].计算机工程与设计,2005,26(7):1903-1906. 被引量：14
4韩建萍.基于XML的Web教学资源整合方法研究与系统实现[J].科技情报开发与经济,2005,15(15):248-250. 被引量：1
5杨剑,唐慧佳,孙林夫,王胜银.基于XML的异构数据交换系统的研究与实现[J].计算机工程,2005,31(19):195-197. 被引量：48
6佘名高,王丽,杨亦,关卫军.基于XML实现工业过程中实时数据的动态发布[J].自动化技术与应用,2005,24(10):10-12. 被引量：2
7沈凤池,任伟,沈丽梅.XML技术在工作流管理系统中的实现和应用[J].中国科技信息,2005(19A):44-46. 被引量：1
8侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量：2
9奥海炜.基于XML的高校电子政务系统设计[J].宁夏工程技术,2006,5(2):179-182. 被引量：1
10姜海洋,伊明,赵孟.一种自动化的网页数据抽取方法[J].科学技术与工程,2006,6(14):2174-2176. 被引量：1

引证文献8

1徐安国.一种基于WEB的查询设计[J].黄山学院学报,2005,7(6):73-75.
2巫志勇.基于XMLHTTP的网站数据自动采集[J].福建电脑,2007,23(7):124-125. 被引量：2
3王晓东,江元,徐超.XML技术在Web数据挖掘中的应用[J].中国科技信息,2008(18):106-107.
4朝格.浅谈EXCEL与XML的数据交换[J].软件,2012,33(5):48-50. 被引量：1
5屈武江.基于网页数据抽取技术的图书著录系统设计与实现[J].辽宁师专学报（自然科学版）,2012,14(2):45-48.
6何纯芳.自动获取国家统计局网站行政区划代码的方法[J].电脑编程技巧与维护,2014(16):73-74.
7蒋邵衡.WEB信息的抽取与集成研究[J].电脑知识与技术,2009,5(10X):8357-8358.
8蒋欢春,路晓建,贾建超,康英哲,段慧.基于多源数据融合的发电厂磨煤机煤种实时监测软件研究[J].信息与电脑,2022,34(12):109-112.

二级引证文献3

1赵惠.图书馆网站数据分析研究[J].图书馆,2009(5):110-110. 被引量：3
2植雅芳.网站数据采集原理及防范策略的研究[J].电脑知识与技术（过刊）,2014,20(2X):930-931. 被引量：1
3吉豪杰,宋欣潮.POI用户模型的重构与优化[J].软件,2019,40(5):193-199. 被引量：1

1Tidy Start Menu开始菜单“大扫除”[J].网友世界,2009(17):22-22.
2李青伟,逄焕利,李艳波.数据抽取在征信系统中的应用[J].科技创新导报,2009,6(1):27-27.
3李青伟,逄焕利,李艳波.数据抽取在征信系统中的应用[J].科技创新导报,2009,6(2):213-213.
4骆惠清.XML文档加密技术研究与实现[J].苏州科技学院学报（工程技术版）,2009,22(1):77-80.
5殷志强,赫俊民.基于元数据的数据查询引擎技术研究[J].现代商贸工业,2011,23(6):255-255.
6刘胜,杨岳湘,邓劲生,李阳.基于关键属性比对的增量数据抽取方法[J].计算机工程与应用,2012,48(4):115-117. 被引量：4
7张艳琳.整理好您的“开始菜单”[J].办公自动化,2006(18):58-58.
8张晖.工作流引擎过程定义的设计与实现[J].电子技术与软件工程,2014(10):269-271. 被引量：3
9王钢,石丽梅,武兴悦.一种基于ESB数据提取转换方法的分析[J].中国海洋大学学报（自然科学版）,2008,38(S1):31-33.
10郑跃平,陈传峰.基于XML的WEB数据收集的一种应用[J].福建电脑,2005,21(12):1-2. 被引量：1

华东理工大学学报（自然科学版）

2003年第6期

浏览历史

内容加载中请稍等...

HTML数据内容的抽取与集成被引量：8

参考文献3

二级参考文献9

共引文献104

同被引文献35

引证文献8

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

HTML数据内容的抽取与集成 被引量：8

参考文献3

二级参考文献9

共引文献104

同被引文献35

引证文献8

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

HTML数据内容的抽取与集成被引量：8