摘要
针对海量的Web数据 ,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法 ,利用XML强大的数据描述能力 ,灵活组织集成的Web文档信息内容 方法首先将半结构化的HTML文档转化成具有模式结构的XML文档 ,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据 ,最后将得到的多数据类型的信息集成到数据库中 ,以支持进一步的分析和查询
Web information is expanding quickly with the dramatic expanse of Internet In this paper a Web information extraction and integration method is proposed, which is based on structure analysis and entity extraction Firstly it converts the semi structured HTML documents to formal XML documents with schema using XML technology Then significative information can be extracted from interesting area through entity recognition process Finally tremendous formal information can be integrated into database, which can support advanced query and analysis This approach also defines some patterns which can deal with heterogeneity of Web documents and achieve individuation of integrated documents The results of experiments validate the feasibility of the approach
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1823-1828,共6页
Journal of Computer Research and Development
基金
国家"九七三"重点基础研究发展规划基金项目 (G19990 3 2 70 5 )
国家"八六三"高技术研究发展计划基金项目数据库管理系统及其应用重大专项课题 ( 2 0 0 2AA4Z3 440 )