一种面向不确定数据流的聚类算法被引量：1

A Cluster Algorithm for Uncertain Data Stream

下载PDF

导出

摘要作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性. As an important component of big data generated in the sensor,mobile phone devices,social networks etc.,uncertain streaming data have many characteristics,such as variable rate,large-scale,single-pass scanning,and uncertainty. Traditional clustering algorithms cannot meet efficient real-time inquiry requirements for the users. Firstly, MBR（ minimum bounding rectangle） was used to describe the distribution characteristics of uncertain tuples. And then,a clustering algorithm based on expected distance was proposed for uncertain data stream. The bounds of expected distance range to filter the clusters with far distance can be calculated.Secondly,cluster MBR concept based on the distribution of the tuples in a cluster was presented.Then,a clustering algorithm was given,which excludes the clusters far from the uncertain tuple by the spatial location relationship between uncertainty tuple MBR and clusters MBR,thereby increasing the efficiency of clustering algorithm. Finally, experiments running on synthetic datasets and real datasets verify that the proposed algorithms are effective and efficient.

作者韩东红王坤邵崇雷马畅

机构地区东北大学计算机科学与工程学院沈阳理工大学机械工程学院

出处《东北大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第12期1677-1682,共6页 Journal of Northeastern University(Natural Science)

基金国家自然科学基金资助项目(61173029 61332006 61672144)

关键词不确定数据流聚类大数据数据挖掘最小边界矩形 uncertain data stream cluster big data data mining MBR（minimum bounding rectangle）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
2周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. 被引量：185
3肖丹萍,叶东毅.基于免疫原理的不确定数据流聚类算法[J].模式识别与人工智能,2012,25(5):826-834. 被引量：2
4罗清华,彭宇,彭喜元.一种多维不确定性数据流聚类算法[J].仪器仪表学报,2013,34(6):1330-1338. 被引量：13
5胡德敏,余星.一种不确定数据流子空间聚类算法[J].计算机应用研究,2014,31(9):2606-2608. 被引量：1

二级参考文献131

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2余仕成.大学物理实验数据处理的几个问题讨论[J].武汉化工学院学报,2005,27(1):94-96. 被引量：9
3谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
4朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
5Deshpande A, Guestrin C, Madden S, Hellerstein J M, Hong W. Model-driven data acquisition in sensor networks// Proceedings of the 30th International Conference on Very Large Data Bases. Toronto, 2004:588-599 被引量：1
6Madhavan J, Cohen S, Xin D, Halevy A, Jeffery S, Ko D, Yu C. Web-scale data integration: You can afford to pay as you go//Proceedings of the 33rd Biennial Conference on Innovative Data Systems Research. Asilomar, 2007:342-350 被引量：1
7Liu Ling. From data privacy to location privacy: Models and algorithms (tutorial)//Proceedings of the 33rd International Conference on Very Large Data bases. Vienna, 2007: 1429- 1430 被引量：1
8Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)//Proeeedings of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle, 1998:188 被引量：1
9Cavallo R, Pittarelli M. The theory of probabilistic databases//Proceedings of the 13th International Conference on Very Large Data Bases. Brighton, 1987:71-81 被引量：1
10Barbara D, Garcia-Molina H, Porter D. The management of probabilistic data. IEEE Transactions on Knowledge and Data Engineering, 1992, 4(5): 487-502 被引量：1

共引文献248

1刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
2刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
3何明,李薇.基于概率信息抽取模型的Top-k查询[J].计算机研究与发展,2011,48(S3):224-231.
4杜凌霞,李翠平,陈红,张应龙.概率图上的对象相似度计算[J].计算机研究与发展,2011,48(S3):326-333. 被引量：1
5叶杰敏,刘国华,貟慧,石丹妮,吴云龙,费凡.Attribute-or模型下不确定关系的无损分解算法[J].计算机研究与发展,2013,50(S1):117-124. 被引量：1
6于洋,赵志滨,鲍玉斌,于戈.面向属性级不确定数据的U-Topk查询优化算法的研究[J].计算机研究与发展,2013,50(S1):125-132.
7梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
8赵海军,栾帅.初探RFID在军队院校中的应用[J].甘肃科技,2008,24(24):24-25. 被引量：3
9周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. 被引量：185
10岳昆,刘惟一,周丽萍.EQPN:数据中不确定性知识的定性表示及推理[J].云南大学学报（自然科学版）,2010,32(S1):340-344.

同被引文献9

1张强,李盼池.一种自适应多策略行为粒子群优化算法[J].控制与决策,2020,35(1):115-122. 被引量：23
2陶新民,徐晶,杨立标,刘玉.一种改进的粒子群和K均值混合聚类算法[J].电子与信息学报,2010,32(1):92-97. 被引量：79
3满春涛,张锐,张涛.基于K-均值聚类的免疫粒子群优化算法[J].控制工程,2010,17(6):796-799. 被引量：3
4傅涛,孙亚民.基于PSO的k-means算法及其在网络入侵检测中的应用[J].计算机科学,2011,38(5):54-55. 被引量：34
5王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328. 被引量：195
6沈艳,余冬华,王昊雷.粒子群K-means聚类算法的改进[J].计算机工程与应用,2014,50(21):125-128. 被引量：15
7刘生建,杨艳,周永权.一种群体智能算法——狮群算法[J].模式识别与人工智能,2018,31(5):431-441. 被引量：79
8查琳琳,牛培峰,常玲芳,张先臣.基于优化型K-means聚类算法的锅炉热效率研究[J].控制工程,2021,28(1):29-34. 被引量：7
9李玥,穆维松,褚晓泉,傅泽田.基于改进量子粒子群的K-means聚类算法及其应用[J].控制与决策,2022,37(4):839-850. 被引量：30

引证文献1

1胡啸,王玲燕,张浩宇,常宇超,王银.基于狮群优化的改进K-Means聚类算法研究[J].控制工程,2022,29(11):1996-2002. 被引量：9

二级引证文献9

1于志良.基于Flink的鲸鱼优化K-Means算法[J].互联网周刊,2023(4):83-85. 被引量：3
2孙林,刘梦含.基于自适应布谷鸟优化特征选择的K-means聚类[J].计算机应用,2024,44(3):831-841. 被引量：4
3刘河生,徐浩,李宁,李林晏,景玮钰,雷航,张瑞刚.风电机组齿轮箱故障预警算法研究及应用[J].热力发电,2024,53(4):36-42. 被引量：2
4高千喜,毛琳,杨大伟.点云多属性聚类的三维锥桶目标检测算法[J].大连民族大学学报,2024,26(3):215-221.
5呼斯乐,于源,王渊,曹林峰,赵禹灿,杨家强.考虑灵活性分析的典型光伏日出力率曲线提取方法[J].内蒙古电力技术,2024,42(3):20-27. 被引量：2
6王世刚,关红利.自定义聚类中心点的快速K-means聚类点云精简算法[J].工业控制计算机,2024,37(8):123-125.
7刘红达,王福顺,孙小华,张广辉,王斌,何振学.一种基于改进差分进化的K-Means聚类算法研究[J].现代电子技术,2024,47(18):156-162.
8苑浩德,付庄,金惠良.FFDEZOA优化的SCARA机器人故障数据聚类分析[J].机械与电子,2024,42(10):69-75.
9郭如敏,陈学斌,单丽洋.差分隐私K-means聚类算法改进[J].哈尔滨理工大学学报,2024,29(4):21-28.

1董轶群,刘大有,王芳,王生生,吕帅.一种基于MBR的不确定区域间方向关系建模方法[J].电子学报,2011,39(2):329-335. 被引量：7
2杨楠,石伟铂.基于矩阵的MBR主方向关系的反关系[J].燕山大学学报,2007,31(3):229-233. 被引量：1
3张亚昕.不确定数据聚类算法研究[J].计算技术与自动化,2013,32(2):60-63. 被引量：5
4李俊洁.基于直角多边形近似的R树插入算法[J].信息技术,2007,31(11):93-95. 被引量：1
5任克江,张绍武,林鸿飞.地理信息检索中基于文档地名感知的排序方法[J].北京大学学报（自然科学版）,2013,49(2):219-226. 被引量：1
6李萍.一种高效的空间索引结构[J].盐城工学院学报（自然科学版）,2002,15(2):27-31. 被引量：6
7刘永山,黄章俊,姜书奎.基于线型物体的主方向关系模型的研究[J].燕山大学学报,2005,29(5):389-393.
8何云斌,周帆.一种新的空间数据索引方法[J].哈尔滨理工大学学报,2009,14(4):9-11. 被引量：2
9刘欣,余靖,刘国华.基于窗口查询的轮廓查询算法[J].燕山大学学报,2005,29(5):398-402. 被引量：9
10孙海龙,耿蕊.基于R树的方向关系表示及方向关系检索[J].齐齐哈尔大学学报（自然科学版）,2005,21(2):46-50.

东北大学学报（自然科学版）

2016年第12期

浏览历史

内容加载中请稍等...

一种面向不确定数据流的聚类算法被引量：1

参考文献5

二级参考文献131

共引文献248

同被引文献9

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种面向不确定数据流的聚类算法 被引量：1

参考文献5

二级参考文献131

共引文献248

同被引文献9

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种面向不确定数据流的聚类算法被引量：1