期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Nutch的Web论坛分块采集系统 被引量:1
1
作者 杜新 傅魁 《图书馆学研究》 CSSCI 2017年第7期56-60,共5页
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块... 随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。 展开更多
关键词 NUTCH WEB论坛 信息采集 分块解析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部