基于结构驱动的网络论坛采集路径研究被引量：1

Structure-driven based traversal strategy for Web forum crawling

下载PDF

导出

摘要网络论坛中蕴涵着大量具有实用价值和商业价值的信息,是搜索引擎和问答系统信息的重要来源。针对论坛结构复杂、链接种类繁多,以及容易陷入采集陷阱等问题,提出了一种基于结构驱动的采集路径选择方法。首先根据用户标注的少量类型数据,利用DOM树对采样网页基于网页结构进行结构聚类;其次根据各节点的评价进行采集路径选择;最后对翻页链接进行有效的识别和处理。实验表明,该方法采集的覆盖率和有效率明显优于传统算法,并且应用在中国科学院计算所舆情监测平台上取得了良好的效果。 Forums contain much practical and business information,which is the important source of information for search engines and question answering system.Complex structure of the forums,a great variety of links and the issues that being easy to fall into the trap of crawling are all the problems when collect information.This paper proposed a crawling method based on structure-driven path selection to solve these problems.First,used a small number of types of data marked by the users,and used DOM tree to cluster by structure based on Web-based structure.And then,chose the collected route according to the evaluation of each node,at last identified and processed the link to the page effectively.Experiments show that the coverage and efficiency of collection is better than the traditional algorithm.And get good results through the golaxy public opinion monitoring system of ICT.

作者李恒训李南波邱泳钦徐燕刘金刚

机构地区首都师范大学计算机联合研究院中国科学院计算技术研究所湘潭大学信息工程学院北京语言大学信息科学学院

出处《计算机应用研究》 CSCD 北大核心 2011年第9期3284-3287,共4页 Application Research of Computers

基金国家自然科学基金资助项目(60873166) 国家教育部科学技术研究重点资助项目(109028) 北京市教育科学基金资助项目(AHA09110)

关键词信息检索论坛采集结构驱动聚类路径选择 information retrieval forum crawling structure-driven clustering traversal path selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1VIDAL M L A,SILVA A S da,De MOURA E S.Structure-drivencrawler generation by example. Proc of the 29th Annual Interna-tional ACM SIGIR Conference on Research and Development in Infor-mation Retrieval . 2006 被引量：1
2CAI Rui,YANG Jiang-ming,LAI Weiet al.iRobot:an intelligentcrawler for Web forums. Proc of the 17th International WorldWide Web Conference . 2008 被引量：1
3WANG Y,YANG Jiang-ming,LAI Weiet al.Exploring traversalstrategy for Web forum crawling. Proc of the 31st Annual Inter-national ACM SIGIR Conference on Research and Development in In-formationa Retrieval . 2008 被引量：1
4GUO Yan,LI Kui,ZHANG kaiet al.Board forum crawling:a Webcrawling method for Web forum. Proc of International Conferenceon Web Intelligence . 2006 被引量：1
5李盛韬.基于主题的Web信息采集技术研究[D]中国科学院研究生院（计算技术研究所）,中国科学院研究生院（计算技术研究所）2002. 被引量：1
6NAJORK M,WIENER J L.Breadth-first search crawling yields high-quality pages. Proc of the 19th International World Wide WebConference . 2010 被引量：1
7李魁,程学旗,郭岩,张凯.WWW论坛中的动态网页采集[J].计算机工程,2007,33(6):80-82. 被引量：11

二级参考文献5

1Cho J,Garcia-Molina H,Page L.Efficient Crawling Through URL Ordering[C]//Proceedings of the 7^th International World Wide Web Conference.1998:161-172. 被引量：1
2Najork M,Wiener J L.Breadth-first Crawling Yields High-quality Pages[C]//Proceedings of the 10^th International World Wide Web Conference.2001:114-118. 被引量：1
3Li Jun,Furuse K,Yamaguchi K.Focused Crawl -ing by Exploiting Anchor Text Using DecisionTree[C]//Proceedings of the 14^th International World Wide Web Conference.2005:1190-1191. 被引量：1
4Castillo C.Effective Web Crawling[D].University of Chile,2004. 被引量：1
5Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117. 被引量：1

共引文献10

1沙科君.基于Web的天气预报系统设计与实现[J].宁波广播电视大学学报,2007,5(4):115-117. 被引量：2
2李国栋,刘忠强,柳长安.基于目录树的网络科技资源采集算法[J].计算机工程,2009,35(1):277-279. 被引量：3
3方宏,吕太之.求职网站职位列表页链接信息的自动提取[J].现代图书情报技术,2009(7):93-96. 被引量：3
4蔡欣宝,郭若飞,赵朋朋,崔志明.Web论坛数据源增量爬虫的研究[J].计算机工程,2010,36(9):285-287. 被引量：5
5胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
6陈翰,韩永峰,李弼程.基于突发事件热度的站点地图构建算法[J].计算机应用研究,2012,29(8):2943-2947. 被引量：6
7孙善通,王嘉梅,李炳泽,弓盼,胡刚.彝文网络信息获取平台的研究[J].电子技术与软件工程,2015(13):44-46. 被引量：1
8程杜新,傅魁.基于Nutch的Web论坛分块采集系统[J].图书馆学研究,2017(7):56-60. 被引量：1
9惠莹.基于爬虫技术的校园网络舆情监测元数据管理研究[J].电脑编程技巧与维护,2018(1):116-118. 被引量：1
10史存会,孟剑,俞晓明,刘悦,靳小龙,程学旗.一种基于时间序列预测的重采策略[J].中文信息学报,2019,33(7):101-109. 被引量：2

同被引文献7

1李魁,程学旗,郭岩,张凯.WWW论坛中的动态网页采集[J].计算机工程,2007,33(6):80-82. 被引量：11
2庞景安.Web信息采集技术研究与发展[J].情报科学,2009,27(12):1891-1895. 被引量：10
3杜言琦,马军.基于版块的论坛增量搜集策略[J].中文信息学报,2010,24(3):62-68. 被引量：2
4彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2011,33(1):157-160. 被引量：7
5赵蓉英,陈必坤.基于Nutch的图情博客搜索引擎的设计与实现[J].情报科学,2012,30(4):486-491. 被引量：5
6胡晟,季志远,程晓荣.基于数据挖掘的主题种子站点提取器的研究[J].软件,2013,34(2):56-57. 被引量：6
7代鹏.基于Nutch的增量网页信息采集系统的设计与实现[J].软件,2015,36(11):100-104. 被引量：3

引证文献1

1程杜新,傅魁.基于Nutch的Web论坛分块采集系统[J].图书馆学研究,2017(7):56-60. 被引量：1

二级引证文献1

1李广建,陈瑜,张庆芝.新中国70年现代图书情报技术研究与实践[J].图书馆杂志,2019,38(11):4-20. 被引量：9

1李恒训,张华平,刘金刚.WWW论坛采集关键技术研究[J].微计算机信息,2010,26(24):106-107. 被引量：1
2李魁,程学旗,郭岩,张凯.WWW论坛中的动态网页采集[J].计算机工程,2007,33(6):80-82. 被引量：11
3我国计划“冲击”百万亿次超级计算机[J].中国创业投资与高科技,2005(8):8-8.
4每秒超过10万亿次的中国最快的超级电脑即将出炉[J].CAD/CAM与制造业信息化,2003(8):68-68.
5李长云,邬惠峰,应晶,李赣生.软件体系结构驱动的运行环境[J].小型微型计算机系统,2005,26(8):1358-1363. 被引量：1
6谢颖,张玉波.物联网：新一代信息技术产业的重要领域——访中国科学院计算所研究员、中国工程院院士倪光南[J].中国自动识别技术,2011(1):57-60.
7柯朴.电脑将有中国“芯”[J].当代矿工,2000(12):9-9.
8师一刀.千元电脑不是梦[J].中国科技奖励,2006(10):18-21.
9张占来,任红光,季新明.基于ARM+FPGA高分辨率液晶显示系统的设计与实现[J].微型机与应用,2014,33(6):30-32. 被引量：2
10苏凯,邱传龙,陆璐,王柏勇.软件测试用例设计及在广州供电局的应用[J].计算机工程与应用,2006,42(33):74-77. 被引量：1

计算机应用研究

2011年第9期

浏览历史

内容加载中请稍等...

基于结构驱动的网络论坛采集路径研究被引量：1

参考文献7

二级参考文献5

共引文献10

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于结构驱动的网络论坛采集路径研究 被引量：1

参考文献7

二级参考文献5

共引文献10

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于结构驱动的网络论坛采集路径研究被引量：1