期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Hadoop的网络日志挖掘方案的设计 被引量:4
1
作者 抗震 吴云 《现代电子技术》 北大核心 2017年第9期115-120,共6页
提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案。针对现有的公开网络日志数据集,在数据预处理阶段实现了基于Map Reduce的过滤算法,并且挖掘出支持企业决策的服务信息。对该方案搭建的平台进行... 提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案。针对现有的公开网络日志数据集,在数据预处理阶段实现了基于Map Reduce的过滤算法,并且挖掘出支持企业决策的服务信息。对该方案搭建的平台进行优化操作,性能提升了3.26%,最后对方案的高可靠性、日志文件个数对平台I/O速度的影响、平台和单机在查询性能上的对比等方面做了实验。结果表明:该设计方案不仅可靠,而且随着日志文件个数的翻倍增加,读操作耗时平均增加52.58%,写操作耗时平均增加79.69%。随着日志量的增加,单机的查询耗时急剧增长,而平台的查询耗时趋于稳定。随着机器节点的增加,运算耗时以平均8.87%的速度减少。 展开更多
关键词 网络日志 数据挖掘 数据清洗 HADOOP MYSQL
下载PDF
一种基于Hadoop的文本相似度仿真检测模型 被引量:3
2
作者 吴云 抗震 黄瑞章 《新疆大学学报(自然科学版)》 CAS 北大核心 2017年第3期308-315,共8页
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和... 随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性. 展开更多
关键词 文本相似 Minhash Shingling HADOOP
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部