Web表格信息抽取的研究被引量：1

Research on Web Table Extraction

下载PDF

导出

摘要 Web表格信息抽取是信息抽取在Web表格上的一种应用，是当今的一个研究热点。本文首先分析了Web表格信息抽取的过程，包括表格识别、结构识别以及“属性-值”对的提取；然后对当前国内外在基于特定域和独立城两种表格信息抽取研究方法上的动态及成果追行了比较和分析。在此基础上，提出了表格抽取的关键技术——表格结构识别上的一些想法；最后展望了Web表格信息抽取技术的发展趋势。 Web table extraction, which is a current research hotspot, is an application of information extraction on Web table. In this paper, we first analyze the flow of Web table extraction, including table detection, structure recognition and attribute-value pair extraction. Then we compare what others have done with both domain-specific and domain-independent methodologies ir this field. Based on the above survey and analysis, we put forward some ideas in the table structure recognition, which is one of the key steps in the flow of whole extraction. At last, we present the tendency of development of Web table extraction.

作者林科锵左志宏林琳

机构地区电子科技大学计算机科学与工程学院

出处《通讯和计算机（中英文版）》 2005年第8期27-31,共5页 Journal of Communication and Computer

关键词信息抽取 WEB表格特定域独立域 Information Extraction Web Table Domain-specific Domain-independent

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献6

1李明,张为群.基于标记树的WEB页面净化技术研究[J].西南师范大学学报（自然科学版）,2006,31(5):128-131. 被引量：3
2张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
3Jung S W, Kwon H C. A Scalable Hybrid Approach for Extracting Head Components from Web Tables [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(2): 174- 187. 被引量：1
4范莉娅,肖田元.自动获取HTML表格语义层次结构方法[J].清华大学学报（自然科学版）,2007,47(10):1586-1590. 被引量：9
5曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：15
6贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3

引证文献1

1曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2

二级引证文献2

1李杨,朱月琴,李朝奎,肖克炎,范建福,李秋平.面向海量地质文档的表格信息快速抽取方法研究[J].中国矿业,2017,26(9):98-103. 被引量：3
2鲁建明,冀星,刘畅.多特征融合的表格单元格分类模型[J].信息技术与信息化,2021(5):7-11. 被引量：3

1使用一个简单命令轻松检查连接性[J].Windows IT Pro Magazine（国际中文版）,2009(3):46-46.
2F．巴德尔（编）,胡光华.描述逻辑手册理论、实现及应用，第二版[J].国外科技新书评介,2008(12):20-21. 被引量：1
3桑大勇,蔡希尧.软件重用与特定域的软件建筑[J].空军工程学院学报,1997,17(1):55-58.
4使用TestMX测试远程电子邮件服务器的连接性——使用一个简单命令轻松检查连接性[J].Windows IT Pro Magazine（国际中文版）,2009(2):44-44.
5蔡希尧.基于特定域软件体系结构的软件开发[J].航空计算技术,1998,28(1):9-12. 被引量：2
6吴明晖,应晶,何志均.基于构件的框架开发方法及其特定域应用[J].计算机工程,1999,25(10):86-87. 被引量：13
7孙超利,张继福.基于属性-值对的信息增益优化算法[J].太原科技大学学报,2005,26(3):199-202. 被引量：2
8Asmaa Baya Bouchra EL Asri.Composing Specific Domains for Large Scale Systems[J].通讯和计算机（中英文版）,2013,10(6):844-856.
9柯海丰,吴明晖,应晶.基于中间件的领域软件开发方法[J].计算机应用研究,2003,20(8):54-56.
10帷幄.有效应对,让客户端顺利加入域[J].电脑知识与技术（经验技巧）,2011(3):47-49.

通讯和计算机（中英文版）

2005年第8期

浏览历史

内容加载中请稍等...

Web表格信息抽取的研究被引量：1

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Web表格信息抽取的研究 被引量：1

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Web表格信息抽取的研究被引量：1