期刊文献+

网页信息自动抽取技术的研究 被引量:4

Research on automatic extraction technology of Web information
下载PDF
导出
摘要 在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召率和查准率。 In online public opinion analysis,it was needed to extract valuable information from large amount of Web source.But the common way of Web information extraction technology was based on the analysis of HTML documents.This paper proposed automatic extraction technology of Web information,it could eliminate noisy content,extract information efficiently.This method transformed HTML into structured XML model,then built Web pages parser template library by DOM4J and XPath,finally extracted the Web information according to rules of the parser template.Result showed that this method was high with recall and precision with retrieving.
出处 《铁路计算机应用》 2010年第9期37-40,共4页 Railway Computer Application
基金 国家自然科学基金资助项目(60972012) 教育部培育基金项目(707006) 教育部哲学人文社会科学研究重大课题(08WL1101) 铁道部科技研究开发计划重点课题(2008X019) 北京市教育委员会学科建设与研究生建设项目资助(JXKJD20090001) 通信与信息系统北京市重点实验室资助项目(JSYJD20090001)
关键词 自动抽取 网页信息 解析模板 XPATH 网络舆情 automatic extraction Web information parser template XPath online public opinion
  • 相关文献

参考文献5

二级参考文献21

  • 1马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量:18
  • 2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量:48
  • 3钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量:12
  • 4YiMing Yang. An Evaluation of Statitical Approches to Text Categorizaiton[J].Information retrieval, 1999; 1: 69~90. 被引量:1
  • 5Qiang Shen,Alexios chouchoulas. A rough-fuzzy approach for generating classification rules[J].Pattern Recogonition,2002;35:2425~2438. 被引量:1
  • 6Lili Diao,Keyyun Hu,Yuchan Lu et al. Simple Decision Trees with Bayesian Learning for Text Categorization[C].In:Proceedings of the 4th World Congress on Intelligent Control and Automation,IEEE Robotics and Automation Society,Shanghai,China,2002:321~325. 被引量:1
  • 7A P Engelbrecht. A New Pruning Heuristic Based on Variance Analysis of Sensitivity Information[J].IEEE Trans on Neural Networks,2001; 12(6): 1386~1399. 被引量:1
  • 8N Kwak,C-h choi.Input Feature Selection for Classification Problem[J].IEEE Trans on Neural Networks,2002;13(1):143~159. 被引量:1
  • 9Xiuju,Lipo Wang. Rule Extraction Based on Data Dimensionality Reduction Using RBF Neural Networks[C].In:Proceedings of the 8th International Conference on Neural Information Processing,ICONIP2001,Shanghai ,China,2001; 1:149~153. 被引量:1
  • 10Yi Liu, Rong Jin, Joyce Y. A maximum coherence model for dictionary-based cross-language information retrieval[A]. Proceedings of the 28^th Annual International ACM SIGIR Conference[C]. Salvador, Brazil: ACM Press, 2005. 536-543. 被引量:1

共引文献16

同被引文献45

  • 1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量:10
  • 2张曌 夏国平 李雪峰.基于案例推理的电子商务个性化推荐系统.计算机工程,2007,33(20):187-189. 被引量:9
  • 3国家知识产权局.审查指南[M].北京:知识产权出版社.2006, 被引量:6
  • 4佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究[J].计算机科学,2007,34(9):174-175. 被引量:10
  • 5中国互联网信息中心.第30次中国互联网络发展状况统计报告[R].2012. 被引量:8
  • 6张华平.NLPIR汉语分词系统[EB/OL].[2013-11-11].http://ictelas.nlpir.org/. 被引量:5
  • 7日立专利信息检索系统Digi-patent/s [EB/OL]. [2014-01-06]. http://www.digi-patent-s.com.cn. 被引量:1
  • 8中华人民共和国国家标准.GB/T13715-92,信息处理用现代汉语分词规范[S]. . 被引量:1
  • 9Benn R,Konsynski F,Warrn M.information partner ship[J].Havard Business Review,1995.9. 被引量:1
  • 10Ounis I,Amati G.Terrier Information Retrieval Platform[J].Lecture Notes in Computer Science 3405,2007,11:517-519. 被引量:1

引证文献4

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部