期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于MapReduce的改进文本输入方式的并行分词方法研究
1
作者
徐宏博
赵文涛
孟令军
《电脑知识与技术》
2016年第8期171-175,共5页
中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入...
中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入方式MylnputFormat,并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyReeordReader类来说明读取文本〈key,value〉键值对的具体逻辑。最后自定义MapReduce函数实现不同类别文本的分词结果。实验证明,基于改进后的MylnputFormat文本输入方式比默认的TextlnputFormat输入方式,更能处理大量文本文件。
展开更多
关键词
MapReduc
分片
textlnputformat
CombineFilelnputFormat
下载PDF
职称材料
题名
一种基于MapReduce的改进文本输入方式的并行分词方法研究
1
作者
徐宏博
赵文涛
孟令军
机构
河南理工大学计算机科学与技术学院
出处
《电脑知识与技术》
2016年第8期171-175,共5页
文摘
中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入方式MylnputFormat,并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyReeordReader类来说明读取文本〈key,value〉键值对的具体逻辑。最后自定义MapReduce函数实现不同类别文本的分词结果。实验证明,基于改进后的MylnputFormat文本输入方式比默认的TextlnputFormat输入方式,更能处理大量文本文件。
关键词
MapReduc
分片
textlnputformat
CombineFilelnputFormat
Keywords
MapReduce
split
textlnputformat
CombineFilelnputFormat
分类号
TP311 [自动化与计算机技术—计算机软件与理论][自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于MapReduce的改进文本输入方式的并行分词方法研究
徐宏博
赵文涛
孟令军
《电脑知识与技术》
2016
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部