期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于HTMLParser的Web信息抽取系统的设计与实现 被引量:8
1
作者 李彦刚 魏海平 侯兴华 《辽宁石油化工大学学报》 CAS 2006年第2期83-86,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTM... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。 展开更多
关键词 信息抽取 正则表达式 htmlparser JAVA
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部