-
题名航班信息抽取规则的自动生成技术
被引量:2
- 1
-
-
作者
张志远
徐涛
冯霞
-
机构
中国民航大学计算机科学与技术学院
中国民航信息技术科研基地
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第6期65-67,共3页
-
基金
国家"863"计划基金资助重点项目(2006AA12A106)
中国民航大学科研基金资助项目(07kym04)
-
文摘
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。
-
关键词
WEB信息提取
抽取规则
语义table树
贪心算法
-
Keywords
Web information extraction
extraction rules
semantic table trees
greedy algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-