期刊文献+

Web新闻自动采集发布系统的设计与实现 被引量:7

Design and Implementation of Web News Automatically Gathering and Publishing System
下载PDF
导出
摘要 针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。 News sites manually gather and publish Web news from other sites, which is inefficient and easy to repeatedly collect or miss some news. To solve this problem, using Web information fetching technology, Web pages noises eliminating technology, replicated text documents eliminating technology and automatic text classifieation technology, a Web news automatically gathering and publishing system is designed and implemented. The whole structure of the system is presented, and then the main function and design method of its each rn(xlule are introduced. The experiment shows its design is reasonable, and crawling efficiency is high, and eliminating replicated documents is accurate, and integrating into a new site is easy, and operation cost is low, and it can be used as the gathering and editing tool of news sites widely.
出处 《计算机技术与发展》 2009年第9期250-252,F0003,共4页 Computer Technology and Development
基金 海南省自然科学基金项目(80638)
关键词 网络爬虫 网页去噪 文档消重 Web新闻发布 Web crawler Web pages noises elimination replicated documents elimination Web news publishing
  • 相关文献

参考文献13

  • 1李盛韬..基于主题的Web信息采集技术研究[D].中国科学院计算技术研究所,2002:
  • 2刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量:131
  • 3李晓明,闫宏飞,王继民著..搜索引擎 原理、技术与系统[M].北京:科学出版社,2005:248.
  • 4Gupta S, Kaiser G, Neistadt D, et al. DOM- Based Content Extraction of HTML Documents[C]//Proceeding of the 12th International Conference on World Wide Web. New York: ACM Press,2003 : 207 - 214. 被引量:1
  • 5CAI Deng, YU Shi - peng, Wen Ji - rong, et al. Extracting Content Structure for Web Pages based on Visual Representation[C]//Proceeding of the 5th Asia Pacific Web Conference. Berlin: Springer - Verlag, 2003: 406 - 417. 被引量:1
  • 6Zheng Shuyi, Song Ruihua, Wen Ji - Rong. Template - Independent News Extraction Based on Visua/Consistency[ C]//The 22nd Conference on Artificial Intelligence. Vancouver: AAAI Press, 2007:1507 - 1511. 被引量:1
  • 7欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
  • 8刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报(自然科学版),2007,25(2):149-152. 被引量:8
  • 9WANG Jiying, Lochovsky F H. Data- rich Section Extraction from HTML Pages [ C ] ff Proceedings of 3rd International Conference on Web Information Systems Engineering. Singapore: IEEE Computer Society, 2002:1 - 10. 被引量:1
  • 10白广慧..网页排重技术研究及应用[D].中国科学院计算技术研究所,2006:

二级参考文献44

共引文献250

同被引文献32

引证文献7

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部