期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
航班信息抽取规则的自动生成技术 被引量:2
1
作者 张志远 徐涛 冯霞 《计算机工程》 CAS CSCD 北大核心 2011年第6期65-67,共3页
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,... 在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。 展开更多
关键词 WEB信息提取 抽取规则 语义table 贪心算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部