-
题名基于Hadoop的网络日志挖掘方案的设计
被引量:4
- 1
-
-
作者
许抗震
吴云
-
机构
贵州大学计算机科学与技术学院
-
出处
《现代电子技术》
北大核心
2017年第9期115-120,共6页
-
基金
国家自然科学基金项目(NSF61370161)
贵州省科学技术基金项目(黔科合J字[2010]2100)
贵州大学博士基金项目(贵大人基合字(2009)029)
-
文摘
提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案。针对现有的公开网络日志数据集,在数据预处理阶段实现了基于Map Reduce的过滤算法,并且挖掘出支持企业决策的服务信息。对该方案搭建的平台进行优化操作,性能提升了3.26%,最后对方案的高可靠性、日志文件个数对平台I/O速度的影响、平台和单机在查询性能上的对比等方面做了实验。结果表明:该设计方案不仅可靠,而且随着日志文件个数的翻倍增加,读操作耗时平均增加52.58%,写操作耗时平均增加79.69%。随着日志量的增加,单机的查询耗时急剧增长,而平台的查询耗时趋于稳定。随着机器节点的增加,运算耗时以平均8.87%的速度减少。
-
关键词
网络日志
数据挖掘
数据清洗
HADOOP
MYSQL
-
Keywords
Web log
data mining
data filtering
Hadoop
MySQL
-
分类号
TN711-34
[电子电信—电路与系统]
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于Hadoop的文本相似度仿真检测模型
被引量:3
- 2
-
-
作者
吴云
许抗震
黄瑞章
-
机构
贵州大学计算机科学与技术学院
-
出处
《新疆大学学报(自然科学版)》
CAS
北大核心
2017年第3期308-315,共8页
-
基金
国家自然科学基金项目(61462011)
-
文摘
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性.
-
关键词
文本相似
Minhash
Shingling
HADOOP
-
Keywords
text similarity
minhash
shingling
hadoop
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-