期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Nutch的Web论坛分块采集系统
被引量:
1
1
作者
程
杜新
傅魁
《图书馆学研究》
CSSCI
2017年第7期56-60,共5页
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块...
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。
展开更多
关键词
NUTCH
WEB论坛
信息采集
分块解析
原文传递
题名
基于Nutch的Web论坛分块采集系统
被引量:
1
1
作者
程
杜新
傅魁
机构
武汉大学信息管理学院
武汉理工大学经济学院
出处
《图书馆学研究》
CSSCI
2017年第7期56-60,共5页
文摘
随着网络论坛用户的不断增长,论坛帖子数量急剧增加,论坛结构不断变化,研究适用于整个Web论坛信息采集解析的定向、自动、准确的采集方法是网络爬虫领域研究的难点。由论坛领域建模、论坛模板解析、论坛板块采集及论坛帖子采集四大模块构成的基于Nutch开源技术的采集系统,将分块解析理论应用于论坛模板解析中,较大提高了采集效率。39健康网数据爬取实例验证了该项技术的可行性。
关键词
NUTCH
WEB论坛
信息采集
分块解析
Keywords
Nutch Web forum harvest system block analysis
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于Nutch的Web论坛分块采集系统
程
杜新
傅魁
《图书馆学研究》
CSSCI
2017
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部