期刊文献+

基于网页分块的正文信息提取方法 被引量:13

Web information extraction based on visual block segmentation
下载PDF
导出
摘要 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 Web pages always contain large numbers of irrelevant words and HTML tags except for informative information.This enhances the difficulties of extracting informative information from Web pages quickly.A method of extract informative information based on user's interest is proposed.The experimental results prove that this method is good universality and can obtain informative message accurately,so our approach is easy to realize.
作者 黄玲 陈龙
出处 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页 journal of Computer Applications
基金 重庆市自然科学基金资助项目(2007BB2454)
关键词 WEB信息抽取 主题内容块 网页正文信息 Web information extraction informative content block main text of Web page
  • 相关文献

参考文献9

二级参考文献37

  • 1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报(自然科学版),2005,45(S1):1767-1771. 被引量:8
  • 2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量:18
  • 4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量:55
  • 5[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119~128 被引量:1
  • 6[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611~621 被引量:1
  • 7[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17~28 被引量:1
  • 8[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532~535 被引量:1
  • 9[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144~153 被引量:1
  • 10[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109~118 被引量:1

共引文献57

同被引文献88

引证文献13

二级引证文献65

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部