-
题名基于Spark的高维数据相似性连接
- 1
-
-
作者
成小海
-
机构
天津工业大学计算机科学与软件学院
-
出处
《计算机技术与发展》
2018年第8期43-47,共5页
-
基金
国家自然科学基金(61402329)
-
文摘
高维数据相似性连接(HDSJ)是指在给定的空间数据库中,频繁执行连接和距离计算操作找出向量空间满足给定条件的数据对。但是随着数据量和维数的增加,HDSJ的计算成本将呈指数增加。针对HDSJ在处理海量数据时效率不佳的问题,利用Spark集群分布式和基于内存并行计算特性,提出了基于Spark框架的HDSJ改进方法。该方法主要借助Spark中高效的RDD算子,使用分段聚合近似(PAA)表示原始的高维向量,用符号聚合近似(SAX)将表示后的向量重新组织成组,这样可以避免大量不必要的计算。PAA和SAX都是已有的降维技术,将二者结合使用可以很好地过滤掉大部分的干扰数据。实验结果证明,该方法在保证实验结果准确率的前提下提高了运算速率,比现有方法有更好的性能优势。
-
关键词
高维数据
相似性连接
SPARK
分段聚合近似
符号聚合近似
-
Keywords
high-dimensional data
similarity joins
Spark
piecewise aggregate approximation
symbolic aggregate approximation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-