Web新闻自动采集发布系统的设计与实现被引量：7

Design and Implementation of Web News Automatically Gathering and Publishing System

下载PDF

导出

摘要针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一问题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。 News sites manually gather and publish Web news from other sites, which is inefficient and easy to repeatedly collect or miss some news. To solve this problem, using Web information fetching technology, Web pages noises eliminating technology, replicated text documents eliminating technology and automatic text classifieation technology, a Web news automatically gathering and publishing system is designed and implemented. The whole structure of the system is presented, and then the main function and design method of its each rn（xlule are introduced. The experiment shows its design is reasonable, and crawling efficiency is high, and eliminating replicated documents is accurate, and integrating into a new site is easy, and operation cost is low, and it can be used as the gathering and editing tool of news sites widely.

作者张春元康耀红伍小芹

机构地区海南大学信息科学技术学院

出处《计算机技术与发展》 2009年第9期250-252,F0003,共4页 Computer Technology and Development

基金海南省自然科学基金项目(80638)

关键词网络爬虫网页去噪文档消重 Web新闻发布 Web crawler Web pages noises elimination replicated documents elimination Web news publishing

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1李盛韬..基于主题的Web信息采集技术研究[D].中国科学院计算技术研究所,2002:
2刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：131
3李晓明,闫宏飞,王继民著..搜索引擎原理、技术与系统[M].北京:科学出版社,2005:248.
4Gupta S, Kaiser G, Neistadt D, et al. DOM- Based Content Extraction of HTML Documents[C]//Proceeding of the 12th International Conference on World Wide Web. New York: ACM Press,2003 : 207 - 214. 被引量：1
5CAI Deng, YU Shi - peng, Wen Ji - rong, et al. Extracting Content Structure for Web Pages based on Visual Representation[C]//Proceeding of the 5th Asia Pacific Web Conference. Berlin: Springer - Verlag, 2003: 406 - 417. 被引量：1
6Zheng Shuyi, Song Ruihua, Wen Ji - Rong. Template - Independent News Extraction Based on Visua/Consistency[ C]//The 22nd Conference on Artificial Intelligence. Vancouver: AAAI Press, 2007:1507 - 1511. 被引量：1
7欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
8刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
9WANG Jiying, Lochovsky F H. Data- rich Section Extraction from HTML Pages [ C ] ff Proceedings of 3rd International Conference on Web Information Systems Engineering. Singapore: IEEE Computer Society, 2002:1 - 10. 被引量：1
10白广慧..网页排重技术研究及应用[D].中国科学院计算技术研究所,2006:

二级参考文献44

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5程泽凯 ,林士敏 .文本分类器准确性评估方法[J].情报学报,2004,23(5):631-636. 被引量：13
6陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
7李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
8[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc. 被引量：1
9[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995. 被引量：1
10[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000. 被引量：1

共引文献250

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
5郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
6赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
7谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
8魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
9许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
10连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7

同被引文献32

1林英.媒体新闻数据自动采集的实践与改进思路探讨[J].图书馆学研究（应用版）,2010(9):38-41. 被引量：3
2洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
3刘彤,彭宏.用户个性化W eb采集技术与教学资源自动采集[J].计算机应用,2005,25(B12):482-484. 被引量：4
4周哗.一种增量式并行Web信息采集系统[J].暨南大学硕士论文,2005,6. 被引量：1
5王涛.基于HTML标记的主题爬行器的设计与实现[D].西安:电子科技大学,2009. 被引量：1
6清华同方知网(北京)系统软件公司.kspider网络信息资源采集系统白皮书.[2013-08-18].http://www.docin.com/p-194428943.htmI. 被引量：1
7Gautam Pant,Padmini Srinivasan. Link Contexts in Classifier-Guided Topical Crawlers[J].IEEE Transactions on Knowledge and Data Engineering,2006,(01):107-122. 被引量：1
8Srinivasan P,Menczer F,Pant G. A General Evaluation Framework for Topical Crawlers[J].Information Retrieval,2005,(03):417-447. 被引量：1
9姜鑫.基于网页连通信息的主题爬行技术研究与实现[D]长春:吉林大学,2009. 被引量：1
10吴定明,赵东岩.一种互联网新闻网页的采集分析方法[J].计算机工程与应用,2007,43(36):169-172. 被引量：1

引证文献7

1杨光熠.热点新闻的采集与发布[J].黑龙江科技信息,2010(14):174-174.
2何光虹,赵英凯,李彦文.网络信息监测采集技术在中医药情报研究中的应用[J].医学信息,2011,24(17):5603-5604. 被引量：1
3陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3
4张丽丽.高校图书馆读者决策采购模式的风险及规避策略[J].图书馆学研究,2013(23):30-33. 被引量：8
5武海东,何晓阳,张精理.医学学术信息自动采集系统的设计与实现[J].现代图书情报技术,2014(11):73-78.
6魏小锐,谢满.基于移动平台的校园即时新闻资讯系统的设计与实现[J].东莞理工学院学报,2015,22(1):57-62.
7马浩铭.网站资源信息宜动采集技术[J].湖北农机化,2020(12):27-28.

二级引证文献12

1董燕,崔蒙.中医药信息研究的发展现状及趋势[J].中国中西医结合杂志,2013,33(4):559-564. 被引量：4
2费世英.从参与者角度探讨高校图书馆PDA模式[J].现代情报,2014,34(10):153-156. 被引量：3
3武海东,何晓阳,张精理.医学学术信息自动采集系统的设计与实现[J].现代图书情报技术,2014(11):73-78.
4廖利香.我国高校图书馆读者决策采购研究综述[J].情报探索,2014(12):79-83. 被引量：7
5唐吉深.我国读者决策采购(PDA)研究述评[J].图书馆学研究,2015(2):22-28. 被引量：47
6魏小锐,谢满.基于移动平台的校园即时新闻资讯系统的设计与实现[J].东莞理工学院学报,2015,22(1):57-62.
7陈蕾,杨省伟.加权粗糙集算法的PDA图书馆最优选书策略[J].科技通报,2015,31(7):152-155. 被引量：1
8俞靓亮.终身学习网站新闻采集系统的设计与实现[J].宁波工程学院学报,2016,28(1):6-9.
9胡钦文,陈韵如.国内读者决策采购实践研究述评[J].图书情报工作,2016,60(16):137-144. 被引量：19
10祝雨婷,李露芳.浅议“互联网+”环境下PDA在图书馆文献资源建设中的设计与应用——以杭州图书馆“悦读”服务计划为例[J].农业图书情报学刊,2017,29(2):39-41. 被引量：8

1马琰.基于JSP和Struts2的Web新闻发布系统的设计与开发[J].信息安全与技术,2015,6(4):88-90. 被引量：3
2喻艺丹.一种全新的采集发布分离式视频直播服务器实现框架[J].计算机与数字工程,2007,35(3):176-178. 被引量：2
3张海波,李晓玲,岳淑梅,史晓凌.基于Web的服装图片采集发布管理系统[J].现代图书情报技术,2003(S2):95-96.
4王华强,于鸿儒.基于云平台的交互式监控系统[J].仪表技术与传感器,2016(9):68-71. 被引量：4
5林敏,王东.一种RFID系统中保护隐私安全的采集发布模型[J].计算机应用与软件,2011,28(8):203-205. 被引量：1
6曹振新,林祝亮,陈卫增.汽车虚拟仪表盘的仿真设计[J].计算机系统应用,2014,23(7):206-209. 被引量：1
7TRS新闻发言人口径知识库解决方案[J].互联网周刊,2005(33):73-73.
8王倩.关于对网络媒体客观公正报道重要性的几点思考[J].传播与版权,2015(7):117-118.
9魏华,张增毅.利用生产管理系统优化生产操作管理[J].世界仪表与自动化,2009,13(1):57-60.

计算机技术与发展

2009年第9期

浏览历史

内容加载中请稍等...

Web新闻自动采集发布系统的设计与实现被引量：7

参考文献13

二级参考文献44

共引文献250

同被引文献32

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

Web新闻自动采集发布系统的设计与实现 被引量：7

参考文献13

二级参考文献44

共引文献250

同被引文献32

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

Web新闻自动采集发布系统的设计与实现被引量：7