基于数据流的k-近邻连接算法被引量：3

Algorithm for k-Nearest Neighbor Join Based on Data Stream

下载PDF

导出

摘要 k-近邻连接查询是空间数据库中一种常用的操作,该查询处理过程涉及连接和最近邻查询两个复杂操作。传统的集中式k-近邻连接查询算法已不能适应当前呈爆炸式增长的数据规模,设计分布式k-近邻连接查询算法成为了目前亟需解决的问题。现有的分布式k-近邻连接查询算法都包括了多轮串行的MapReduce任务,而每个MapReduce任务均需要读写分布式文件系统,导致MapReduce不能有效表达多个任务之间的依赖关系,因此算法效率低下。首先提出了一种基于数据流的计算框架,该框架建立在MapReduce之上,将数据处理过程按照数据流图建模。在该框架基础上,提出了一种高效的k-近邻连接算法,它利用空间填充曲线将多维数据映射为一维数据,从而将k-近邻连接查询转化为一维范围查询。实验结果表明,该算法的可扩展性较高,且效率比现有算法更优。 kNN join is a frequently used operation in spatial database. It involves both the join and the NN search. Data scale is exploding,and traditional centralized algorithm can not meet the requirements. It is an urgent problem to design distributed kNN join algorithm currently, Existing distributed algorithms include several rounds of serial MapReduce tasks, but each MapReduce task reads and writes data from distributed file system. It is inefficient when expressing dependencies between jobs, and these algorithms are inefficient. Firstly, we proposed a framework based on data stream on MapReduce. This framework models data handle process according to the data flow diagram, and we proposed an efficient kNN join algorithm on the framework. The algorithm maps multi-dimensional data sets into one dimension using space-filling curves （z-values）, and transforms kNN joins into a sequence of one-dimensional range searches. Experimental results demonstrate that the algorithm can efficiently resolve the large scale kNN join spatial query.

作者王飞秦小麟刘亮沈尧

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2015年第5期204-210,共7页 Computer Science

基金国家自然科学基金项目(61373015 61300052) 国家教育部高等学校博士学科点专项科研基金资助项目(20103218110017) 江苏高校优势学科建设工程资助项目(PAPD) 中央高校基本科研业务费专项项目(NP2013307) 云计算-南航-大数据处理引擎技术研究项目资助

关键词 k-近邻连接数据流 MAPREDUCE 计算框架 kNN join, Data stream, MapReduce, Framework

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1Bohm C,Krebs F.The k-nearest neighbour join:Turbo charging the KDD process[J].Knowledge and Information Systems,2004,6(6):728-749. 被引量：1
2Kavraki L E,Plaku E.Distributed Computation of the knnGraph for Large High-Dimensional Point Sets[J].Parallel Distributed Computation,2007,7(3):346-359. 被引量：1
3Sardana D,Bhatnagar R.Graph Clustering Using Mutual K-Nearest Neighbors[M]∥Active Media Technology.Springer International Publishing,2014:35-48. 被引量：1
4Xia C,Lu H,Ooi B C,et al.Gorder:an efficient method for KNN join processing[C]∥Proceedings of the Thirtieth international conference on VLDB Endowment.2004:756-767. 被引量：1
5Yu C,Cui B,Wang S,et al.Efficient index-based KNN join processing for high-dimensional data[J].Information and Software Technology,2007,49(4):332-344. 被引量：1
6Cheung K L,Fu A W C.Enhanced nearest neighbour search on the R-tree[J].ACM SIGMOD Record,1998,27(3):16-21. 被引量：1
7Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113. 被引量：1
8Zhang C,Li F,Jestes J.Efficient parallel kNN joins for large data in MapReduce[C]∥Proceedings of the 15th International Conference on Extending Database Technology.ACM,2012:38-49. 被引量：1
9Lu W,Shen Y,Chen S,et al.Efficient processing of k nearest neighbor joins using mapreduce[J].Proceedings of the VLDB Endowment,2012,5(10):1016-1027. 被引量：1
10刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60

二级参考文献10

1Bohm C, Krebs F. The k-nearest neighbor join: Turbo charging the KDD process. Knowledge Information System, 2004,6(6): 728-749. [doi: 10.1007/s10115-003-0122-9]. 被引量：1
2Xia CY, Lu HJ, Coi BC, Hu J. Gorder: An efficient method for KDD joins processing. In: Proc. of the 30th Int'l Conf. on Very Large Data Bases (VLDB). 2004. 756-767. 被引量：1
3Yao B, Li FF, Kumar P. K nearest neighbor queries and KNN-joins in large relational databases (almost) for free. In: Proc. of the 26th Int'l Conf. on Data Engineering (ICDE). 2010.4-15. [doi: 10.1109/ICDE.2010.5447837]. 被引量：1
4Yu C, Cui B, Wang SG, Su JW. Efficient index-based KNN join processing for high-dimensional data. Information and Software Technology, 2007,49(4):332-344. [doi: 10.1016/j.infsof.2006.05.006]. 被引量：1
5Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1):107-113 [doi: 10.1145/1327452.1327492]. 被引量：1
6White T. Hadoop: The Definitive Guide. Sebastopol: Yahoo! Press, 2009. 被引量：1
7Zhang C, Li FF, Jestes J. Efficient parallel kNN joins for large data in MapReduce. In: Proc. of the 15th Int'l Conf. on Extending Database Technology (EDBT). 2012.38-49. [doi: 10.1145/2247596.2247602]. 被引量：1
8Lu W, Shen YY, Chen S, Col BC. Efficient processing of k nearest neighbor joins using MapReduce. In: Proc. of the 38th lnt'l Conf. on Very Large Data Bases (VLDB). 2012. 1016-1027. 被引量：1
9Liu Y, Jing N, Chen L, Chen HZ. Parallel bulk-loading of spatial data with MapReduce: An R4ree case. Wuhan University Journal of Natural Sciences, 2011,16(6):513-519. [doi: 10.1007/s11859-011-0790-3]. 被引量：1
10Tao YF, Papadias D. Range aggregate processing in spatial databases. IEEE Trans. on Knowledge and Data Engineering, 2004, 16(12):1555-1570. [doi: 10.1109/TKDE.2004.93]. 被引量：1

共引文献59

1刘琼,赵荣,孙立坚.Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J].测绘科学,2014,39(5):49-53. 被引量：3
2代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17
3陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8
4李玉丹,郑晓薇.Hadoop下多模式并行分类算法及其应用研究[J].计算机工程,2014,40(12):45-49. 被引量：2
5金菁.基于MapReduce模型的排序算法优化研究[J].计算机科学,2014,41(12):155-159. 被引量：6
6李贵兵,金炜东,蒋鹏,付小利,熊定鸿,谷鹏举.面向大规模监测数据的高铁故障诊断技术研究[J].系统仿真学报,2014,26(10):2458-2464. 被引量：10
7闫广,陈卿,刘晓文,郎佳敏.到时差计算中并行相关算法实验及性能分析[J].物联网技术,2015,5(2):52-55. 被引量：1
8蒋勇,赵作鹏.基于MapReduce模型的排序算法优化研究[J].计算机科学与探索,2015,9(4):410-417. 被引量：3
9李金海,何有世.在线评论信息挖掘分析的数据来源可靠性研究[J].软科学,2015,29(4):94-99. 被引量：6
10王鹏,王睿婕.K-均值聚类算法的MapReduce模型实现[J].长春理工大学学报（自然科学版）,2015,38(3):120-124. 被引量：3

同被引文献15

1李波,李赣华,王成友,蔡宣平,张尔扬.BP网络局部学习速率自适应SA算法的改进[J].信号处理,2005,21(6):615-620. 被引量：2
2李太福,熊隽迪.基于梯度下降法的自适应模糊控制系统研究[J].系统仿真学报,2007,19(6):1265-1268. 被引量：17
3向国全,董道珍.BP模型中的激励函数和改进的网络训练法[J].计算机研究与发展,1997,34(2):113-117. 被引量：28
4李道伦,卢德唐,孔祥言,杜奕.BP神经网络隐式法在测井数据处理中的应用[J].石油学报,2007,28(3):105-108. 被引量：14
5邓万宇,郑庆华,陈琳,许学斌.神经网络极速学习方法研究[J].计算机学报,2010,33(2):279-287. 被引量：162
6张新有,曾华燊,贾磊.入侵检测数据集KDD CUP99研究[J].计算机工程与设计,2010,31(22):4809-4812. 被引量：121
7宋晓宇,于程程,孙焕良,许景科.GRkNN:空间数据库中组反k最近邻查询[J].计算机学报,2010,33(12):2229-2238. 被引量：10
8赵亮,景宁,陈荦,廖巍,钟志农.面向多核多线程的移动对象连续K近邻查询[J].软件学报,2011,22(8):1805-1815. 被引量：11
9范仕伦,薛天俊,夏玮.基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现[J].信息网络安全,2012(9):18-22. 被引量：11
10李扬,褚春超,陈建营.我国公路交通可持续发展的模式选择[J].公路交通科技,2012,29(12):144-147. 被引量：9

引证文献3

1杜晔,张田甜,黎妹红.基于信息密度贝叶斯算法的云平台入侵检测[J].系统仿真学报,2018,30(2):714-721. 被引量：8
2李沛原,丁京,张田甜.基于改进BP神经网络算法的云环境异常检测技术研究[J].河南科技,2018,0(4):18-20.
3刘俊杰,刘士宽,上官甦,刘玲.基于并行kNN的公路地理数据查询优化方法[J].地理空间信息,2018,16(5):35-37.

二级引证文献8

1郑清安.基于Wireshark的入侵检测插件应用开发研究[J].警察技术,2019,0(3):71-74.
2刘雅丽,石瑞峰,任晓亮.基于低复杂度随机分组检测的LTE核心网入侵识别[J].计算机工程,2020,46(8):139-145.
3郭天伟,杨海东.面向医院SDN的网络安全研究[J].计算技术与自动化,2020,39(4):180-184. 被引量：1
4高朝营.基于改进主动学习的HWSN网络入侵检测方法[J].沈阳工程学院学报（自然科学版）,2021,17(4):79-84.
5潘宝柱,魏文英,昝立荣,张秀珍.网络多入侵行为识别的数学建模与仿真[J].计算机仿真,2022,39(2):357-360. 被引量：3
6吕锋.云平台下入侵人员位置实时监测方法研究[J].计算技术与自动化,2022,41(2):29-33.
7王华磊.SDN技术在医院网络优化中的关键作用[J].通信电源技术,2023,40(23):180-182.
8李靖琳,李成良,乔世成.基于云平台的输入信号监测系统[J].自动化技术与应用,2019,38(3):178-181. 被引量：1

1陈森平,陈启买.基于熵的K均值算法的改进[J].广东技术师范学院学报,2008,29(9):27-29. 被引量：2
2申晓.如何实现二维散列数组[J].电脑编程技巧与维护,2012(21):90-91.
3刘胤田,唐常杰,曾涛,段磊,吴征宇,代术成.基于空间填充曲线的数据分发区域匹配[J].系统仿真学报,2007,19(4):780-783. 被引量：6
4刘树群,耿德磊.二维空间填充曲线的生成方法[J].甘肃科学学报,2010,22(3):105-107. 被引量：1
5韦向远,杨辉华,谢谱模.基于CUDA的并行布谷鸟搜索算法设计与实现[J].计算机科学与探索,2014,8(6):665-673. 被引量：2
6陈曦,曾华燊,吴涛.基于分布式哈希表的协作式Web服务组合[J].计算机应用,2013,33(5):1197-1202. 被引量：1
7杨明,陈玲玲,郑宝华.基于提升小波的字符识别特征提取[J].吉林化工学院学报,2012,29(11):97-99. 被引量：1
8樊永正.用一维数据结构建立轴承文件系统[J].轴承,1995(4):39-41. 被引量：1
9佘玉萍.基于中位数的双MAD的离群值检测方法[J].廊坊师范学院学报（自然科学版）,2016,16(2):25-27. 被引量：6
10卓晴,王文渊.基于方向信息的指纹图象分形压缩[J].清华大学学报（自然科学版）,1998,38(9):82-86. 被引量：1

计算机科学

2015年第5期

浏览历史

内容加载中请稍等...

基于数据流的k-近邻连接算法被引量：3

参考文献18

二级参考文献10

共引文献59

同被引文献15

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于数据流的k-近邻连接算法 被引量：3

参考文献18

二级参考文献10

共引文献59

同被引文献15

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于数据流的k-近邻连接算法被引量：3