基于XML的网页信息自动抽取被引量：6

下载PDF

导出

摘要文章提出了一种基于XML的网页信息自动抽取的方法和框架 ,通过利用网页中信息的结构相似性和词法相似性 ,自动学习出网页信息的记录模式并归纳出相应的词法模式 ,从而避免了繁重的人为样本收集与标记工作 ,也免去了人工给定模式的工作 ,具备很强的自动性。同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中。

作者周津朱明郑全

机构地区中国科学技术大学自动化系

出处《计算机应用》 CSCD 北大核心 2004年第S1期225-227,共3页 journal of Computer Applications

关键词信息抽取 XML WWW

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Sahuguet A,Azavant F.Wysiwyg Web Wrapper Factory[].WWW.1999 被引量：1
2Laender AHF,Ribeiro-Neto BA,Da Silva AS,et al.A Brief Survey of Web Data Extraction Tools[].SIGMOD Record.2002 被引量：1
3Embley DW,Campbell DM,Jiang YS,et al.Conceptual-ModelBased Data Extraction from Multiple-Record Web Pages[].Data Mining and Knowledge Discovery.1999 被引量：1
4Liu L,Pu C,Han W.XWRAP: An XML-enable Wrapper Construction System for Web Information Resource[].In Proceedings of the th IEEE International Conference on Data Engineering.2000 被引量：1
5Crescenzi V,Mecca G.On Automatic Information Extraction from Large Web Sites[].Technical Report. 被引量：1

同被引文献16

1胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3李萍.浅析可扩展置标语言XML[J].运城学院学报,2005,23(5):58-59. 被引量：1
4郭红艳,杨波,金蓓弘.高效DOM实现的技术研究[J].计算机科学,2006,33(6):274-277. 被引量：18
5黄伟,刘娟.一种基于DOM树的HTML转换为XML的方法[J].电脑知识与技术,2006(7):64-65. 被引量：1
6刘斌,陈桦.向量空间模型信息检索技术讨论[J].情报杂志,2006,25(7):92-93. 被引量：21
7李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量：7
8Stenback I, Hegarte P L, Hors A L. Document Object Model (DOM) Level 2 HTML Specification.http://www.w3.org/TR/200B/REC- DOM-Level-2-HTML-20030109/DOM2-HTML, html#html-ID- 119 6245063,2003. 被引量：1
9董强,郝长林,董振东.基于《知网》的中文语块抽取器. 被引量：1
10陈文博,夏长虹.以组件对象为中心的动态Web开发技术问题[J].计算机系统应用,2000,9(6):33-36. 被引量：6

引证文献6

1吴小淳,牛龙平.校园网Web应用开发模式研究[J].甘肃科技,2006,22(2):51-54.
2仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4
3王奔.基于标准XML的Web信息高效抽取算法[J].湖北工业大学学报,2010,25(2):63-67.
4陈磊.一种基于主体知识库的信息提取方法[J].科技信息,2011(24):358-359.
5姜欣,杨国军.基于XML半结构化的Web网页信息提取研究[J].网络安全技术与应用,2015(10):59-60. 被引量：1
6彭海涛.基于XML技术的粮食检索系统设计[J].信息与电脑（理论版）,2010(5):59-60.

二级引证文献5

1周登,戴玉刚,付涛.基于树结构的Web信息抽取[J].计算机技术与发展,2009,19(9):38-41. 被引量：3
2殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
3吴琴霞,高峰,刘永革.基于XML语言甲骨文语料库元数据抽取的研究[J].计算机技术与发展,2012,22(5):216-218. 被引量：5
4陈俊洁.web信息提取技术与应用的研究[J].数字技术与应用,2017,35(9):114-114. 被引量：2
5呼凯凯,徐宗昌,刘凯,郭建,金飞.基于N层向量空间模型的装备IETM数据查询[J].装甲兵工程学院学报,2015,29(1):86-89. 被引量：1

1屈静,马瑞竹,杜春龙.油田的自动化监控系统探析[J].中国新技术新产品,2010(16):40-40. 被引量：2
2陶灿,朱颖.是德科技推出新一代6位半和7位半矗性能数字万用表[J].中国计量,2015,0(4):54-54.
3张乐.子记录模式下二叉排序树的算法分析[J].河海大学学报（自然科学版）,1989,17(2):111-114.
4陆晓华,张宇,钱进.基于图数据库的电影知识图谱应用研究[J].现代计算机,2016,22(5):76-83. 被引量：7
5周玉新.命名实体识别研究发展综述[J].科技风,2016(16):99-99. 被引量：1
6祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
7王正鹏,谢志鹏,邱培超.语义关系相似度计算中的数据标准化方法比较[J].计算机工程,2012,38(10):38-40. 被引量：16
8Winner.想要有效率来一个《奇妙清单》[J].计算机应用文摘,2014(18):68-68.
9杨波.局域网在小规模信息记录,处理中的应用[J].电信技术研究,1999(12):8-13.
10殷圆.洋铭DN-60使用教程文件管理[J].数码影像时代,2011(10):114-115.

计算机应用

2004年第S1期

浏览历史

内容加载中请稍等...

基于XML的网页信息自动抽取被引量：6

参考文献5

同被引文献16

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于XML的网页信息自动抽取 被引量：6

参考文献5

同被引文献16

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于XML的网页信息自动抽取被引量：6