期刊文献+

基于启发式规则的网页主题信息精确定位方法 被引量:6

Approach of pinpointing subject information in Web pages based on heuristic rules
下载PDF
导出
摘要 目前大部分的信息抽取方法都是针对主题信息块的提取,没有进一步深入到各个单独主题信息的抽取。针对这一问题,提出了一种基于启发式规则的网页主题信息精确定位方法。首先针对各个单独的主题,分析其多方面的特征,制定出对应的启发式规则;然后利用不同的规则对定位主题重要度不同的这一特点,得到启发式规则的权值矩阵;最后利用基于启发式规则的定位算法精确定位各个主题。将该方法用于网页主题信息抽取系统中,抽取系统能够有效地对各个单独的主题进行定位和抽取。实验结果表明,该方法具有很好的有效性和准确性。 At present, most of information extraction methods aim at the extraction of subject information block, not further penetrate into the extraction of each independent subject information. To solve this problem, this article proposed an approach of pinpointing subject information in Web pages based on heuristic rules. Firstly, for each independent subject, it analyzed its various characteristic, and formulated corresponding heuristic rules. Then, it obtained weight matrix of heuristic rules by using the feature that different rules had different importance to locate subject. Finally, according to localization algorithm of heuristic rules, it pinpointed each subject. The method has been applied to an automatic extraction system, and the experimental result shows the effectiveness and accuracy of the method.
出处 《计算机应用研究》 CSCD 北大核心 2010年第2期494-497,共4页 Application Research of Computers
基金 国家教育部人文社会科学重点研究基地重大项目(07JJD740063) 湖北省科技攻关项目(2007AA101C49)
关键词 启发式规则 信息抽取 主题信息定位 模板化网页 heuristic rules information extraction subject information localization template Web pages
  • 相关文献

参考文献10

二级参考文献48

共引文献192

同被引文献40

引证文献6

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部