航班信息抽取规则的自动生成技术被引量：2

Auto Generation Technology for Flight Information Extraction Rules

下载PDF

导出

摘要在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。 Extraction rule plays an important role in Web information extraction based on wrappers.As the Web pages often change,the rule is updated frequently.However,it is a hard work to find extraction rule by hand.This paper proposes an auto extraction rule generation method,which constructs a semantic TABLE tree after scanning HTML code.The semantic TABLE trees is used to identify the data table,and the extraction rule is generated automatically through a greedy algorithm.Experiment result shows that it has high precision and F-score,and has high rule generation rate to the identified table.

作者张志远徐涛冯霞

机构地区中国民航大学计算机科学与技术学院中国民航信息技术科研基地

出处《计算机工程》 CAS CSCD 北大核心 2011年第6期65-67,共3页 Computer Engineering

基金国家"863"计划基金资助重点项目(2006AA12A106) 中国民航大学科研基金资助项目(07kym04)

关键词 WEB信息提取抽取规则语义TABLE树贪心算法 Web information extraction extraction rules semantic TABLE trees greedy algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Alberto H. Laender F. A Brief Survey of Web Data Extraction Tools[J]. ACM SIGMOD Record, 2002, 31 (2): 84-93. 被引量：1
2胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
3李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
4曲著伟,李敏强.基于数据区域发现的信息抽取规则生成方法[J].计算机工程,2009,35(22):59-61. 被引量：4
5廖涛,刘宗田,孙荣.Web表格定位技术的研究与实现[J].计算机科学,2009,36(9):227-230. 被引量：9

二级参考文献33

1胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
2彭智勇,罗义,单喆,李青.基于对象代理模型的工作流视图实现[J].计算机学报,2005,28(4):651-660. 被引量：7
3张慧颖,曲著伟.基于子树匹配的交互式Web数据抽取方法[J].计算机工程,2006,32(9):78-80. 被引量：8
4Hammer J,Garcia-Molina H,Cho J,et al.Extracting semistructured information from the Web[J].SIGOD Record,1997,26(2):18-25. 被引量：1
5Lim S,Ng Y.An automated approach for retrieving heirarchicsl data from HTML tables[A]//Proceedings of the 8th International Conference on Information and Knowledge Management (CIKM'99)[C].1999:466-474. 被引量：1
6Hurst M.Classifying Table Elements in HTML[A]//Proc.The 11th International World Wide Web Conference[C].WWW 2002,Sheraton Waikiki Honolulu,Hawaii,USA,May 2002.http://www2002,org/CDROM/poster/115/index,html. 被引量：1
7Wang Y,Hu J.A Machine Learning-based Approach for Table Detection on the Web[A]//Proceedings of the 11th International Conference on WWW[C].2002:242-250. 被引量：1
8Cui Tao.Schema Matching and Data Extraction over HTML Tables[D].USA:Brigham Young University,2003. 被引量：1
9Chen H,et al.Mining Tables from Large Scale HTML Texts[A]//Proceedings of the 18th International Conference on Computational Linguistics[C].2000:166-172. 被引量：1
10Chen Hsin-Hsi,Tsai Shih-Chung,Tsai Jin-He.Mining tables from large scale html texts[A]//The 18th International Conference on Computational Linguistics[C].July 2000:166-172. 被引量：1

共引文献36

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2邓绪斌,朱扬勇.ReDE:一个基于正则表达式的生物数据抽取方法[J].计算机研究与发展,2005,42(12):2184-2191. 被引量：8
3李石君,欧伟杰,简伟,黄河.基于有限状态自动机提取不规范表结构Web信息[J].武汉大学学报（工学版）,2005,38(6):128-132.
4陈海山,吴芸.广义表的二叉链式存储表示及其算法设计[J].计算机工程与应用,2005,41(35):38-41. 被引量：4
5李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
6张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
7贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
8陈远斌.一种基于扩展DOM树的Web数据自动抽取方法[J].应用科技,2009,36(8):52-55. 被引量：1
9袁鸿雁.基于本体的HTML表格识别技术的研究[J].长春工程学院学报（自然科学版）,2010,11(1):108-110.
10陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.

同被引文献11

1侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量：2
2曲守宁,朱强,林泊翰,邹燕,崔广强.规则引擎在机场资源管理系统中的研究与应用(英文)[J].江西师范大学学报（自然科学版）,2008,32(2):142-147. 被引量：2
3李宏伟,史培中,张素智.一种可行的Web数据抽取包装器的设计方法[J].计算机应用与软件,2009,26(3):110-113. 被引量：3
4李青山,陈平.一种基于内容的HTML到XML转换策略[J].计算机工程与应用,2001,37(9):30-32. 被引量：9
5丁建立,王曼.基于关联规则挖掘的航班协同保障数据知识发现研究[J].计算机应用与软件,2016,33(11):21-23. 被引量：4
6王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量：21
7王尧.基于关联规则的机场航班地面保障模式研究[J].科技与创新,2017(2):86-87. 被引量：3
8赵瑞,陆博.基于嵌入式的在线图像检测系统研究[J].有色金属工程,2021,11(2):86-91. 被引量：3
9孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,20(11):32-36. 被引量：13
10欧建雄,张礼平.HTML数据内容的抽取与集成[J].华东理工大学学报（自然科学版）,2003,29(6):613-616. 被引量：8

引证文献2

1何纯芳.自动获取国家统计局网站行政区划代码的方法[J].电脑编程技巧与维护,2014(16):73-74.
2张丹,潘芙兮,李光耀.融合语义理解的航站楼显示设备故障检测方法[J].计算机与数字工程,2024,52(4):1216-1220.

1木子.GeForce 2 Ultra首度登场[J].电脑与电信,2000,0(12):54-55.
2bush199.手把手教你下载在线歌曲[J].网友世界,2006(3):12-13.
3刘少彬,彭慧波,蔺华庆,王全红.基于网络蜘蛛和LD算法的钓鱼网站检测技术[J].自动化与仪器仪表,2015(6):165-166. 被引量：2
4郝盈.OutlookExpress实用技巧招招妙[J].个人电脑,2004,10(11):218-219.
5李强,李迎光,刘旭,汤立民.基于特征的数控编程技术在航空企业的推广应用[J].航空制造技术,2016,59(6):58-63. 被引量：2
6张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
7艾尔莎790GTX[J].电脑自做,2006(12):100-100.
8谷梦瑶,陈友玲,罗凯.多退化变量下基于灰色生成率序列的相似性寿命预测方法[J].计算机集成制造系统,2017,23(3):525-533. 被引量：10
9伍卫国,张虎,方敏,万群,钱德沛.并行文件系统客户端缓存对系统I/O性能的影响[J].华中科技大学学报（自然科学版）,2006,34(z1):144-147. 被引量：1
10蒋晖.代码可重用性分析[J].内江科技,2006(3):99-99. 被引量：2

计算机工程

2011年第6期

浏览历史

内容加载中请稍等...

航班信息抽取规则的自动生成技术被引量：2

参考文献5

二级参考文献33

共引文献36

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

航班信息抽取规则的自动生成技术 被引量：2

参考文献5

二级参考文献33

共引文献36

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

航班信息抽取规则的自动生成技术被引量：2