期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于MapReduce的改进文本输入方式的并行分词方法研究
1
作者 徐宏博 赵文涛 孟令军 《电脑知识与技术》 2016年第8期171-175,共5页
中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入... 中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入方式MylnputFormat,并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyReeordReader类来说明读取文本〈key,value〉键值对的具体逻辑。最后自定义MapReduce函数实现不同类别文本的分词结果。实验证明,基于改进后的MylnputFormat文本输入方式比默认的TextlnputFormat输入方式,更能处理大量文本文件。 展开更多
关键词 MapReduc 分片 textlnputformat CombineFilelnputFormat
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部