基于CUDA的k-means文档聚类算法并行优化被引量：2

Parallel optimization algorithm for k-means document clustering based on CUDA

下载PDF

导出

摘要为提高k-means的大数据量计算速度,结合k-means算法计算密集和计算统一设备架构(CUDA)的特点,提出了寄存器优化的并行聚类算法和滑动门并行计算中心点算法。寄存器优化的并行聚类算法优化了聚类步骤,提高了GPU的寄存器利用率,降低了数据获取延迟;滑动门并行计算中心点算法优化了中心点计算步骤,避免了数据同步,提高了GPU计算核心的利用率。实验结果表明,并行优化的k-means算法在GTX 480上可获最高约137倍的加速比,有效地提高了k-means算法在单机上的运行效率。 To enhance the computation speed of k-means document clustering combining computationally intensive feature, register optimized parallel algorithm for clustering process and sliding doors parallel algorithm for computing center point process are proposed based on compute unified device architecture （CUDA）. Register optimized parallel algorithm for clustering process improves utilization rate and reduces data acquisition delay of GPU; Sliding doors parallel algorithm for computing center point process utilizes GPU core much more efficiently while avoiding data synchronization. Experimental results show that the proposed parallel optimization algorithm gets the speed up ratio of more than 137 times and improves the operation efficiency of the k-means algorithm running in the stand-alone environment.

作者戴涛杨洲方勇景旭

机构地区西北农林科技大学信息工程学院北京计算机技术及应用研究所

出处《计算机工程与设计》 CSCD 北大核心 2013年第11期4032-4036,4071,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61271280 61001100) "十二五"国家科技支撑计划课题基金项目(2011BAD21B05)

关键词 K-MEANS 文档聚类 CUDA 并行计算 GPU k-means document clustering CUDA parallel computation GPU

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1尹建君,王乐.数据划分优化的并行k-means算法[J].计算机工程与应用,2010,46(15):127-131. 被引量：7
2毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：66
3Reza R, Daniel R, Ellick C, et al. A parallel implementation of k-means clustering on GPUs [C] //Proc of International Conference on Parallel and Distributed Processing Techniques and Applications. Springer-Verlag, 2008: 340-345. 被引量：1
4Mario Z, Michael G. Accelerating K-means on the graphics processor via CUDA [C] //Proc of the 1st International Con ference on Intensive Applications and Services. [S. l. ]: IEEE Press, 2009: 7-15. 被引量：1
5Bai Hongtao, He Lili, Ouyang Dantong, et al. K-means on commodity GPUs with CUDA [C]//Proc of WRI World Congress on Computer Science and Information Engineering. ACM Press, 2009: 651-655. 被引量：1
6兰远东,刘宇芳,徐涛.分批处理的K-means算法并行实现[J].计算机工程,2012,38(13):145-147. 被引量：2
7NVIDIA. CUDA programming guide 2.0 [M]. Santa Clara: NVIDIA Corporation, 2008. 被引量：1
8David B Kirk, Wen-mei W Hwu. Programming massively parallel Processors: A hands-on approach [M]. ELSEVIER, 2010. 被引量：1
9Han Jiawei, Kamber M. Data mining: Concepts and techniques [M]. Morgan Kaufmann, 2011. 被引量：1
10Vasily Volkov, James W Demmel LU. QR and cholesky factorizations using vector capabilities of GPUs [R]. UCB/EE-CS2008-49. Berkeley: University of California, 2008. 被引量：1

二级参考文献42

1倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3Phillips S.Content management:The new data infrastructure-convergence and divergence through chaos[M].Merrill Lynch. 被引量：1
4Gulli A,Signorini A.The indexable web is more than 11.5 billion pages[S/OL]//Special interest tracks and posters of the 14th international conference on World Wide Web.Chiba,Japan:ACM,2005: 902-903.http ://portal.acm.org/citation.cfm?id= 1062789. 被引量：1
5Han Jiawei,Micheline K.Data mining:Concepts and techniques[M]. 2nd.[S.l.] : Morgan Kaufmann Publisher, 2006. 被引量：1
6Hotho A.A brief survey of text mining[J].LDV Forum-GLDV Journal for Computational Linguistics and Language Technology,2005, 20( 1 ) : 19-62. 被引量：1
7Steinbach M.A comparison of document clustering techniques[D].Department of Computer Science and Engineering,University of Minnesota, 2000. 被引量：1
8MacQueen J B.Some methods for classification and analysis of multivariate observations[C]//Cam L M L,Neyman J.Proc of the fifth Berkeley Symposium on Mathematical Statistics and Probability.University of California Press,1967:281-297. 被引量：1
9Dhillon I S,Modha D S.A data-clustering algorithm on distributed memory muhiprocessors[C]//Revised Papers from Large-Scale Parallel Data Mining,Workshop on Large-Scale Parallel KDD Systems. Springer-Verlag, 2000 : 245-260. 被引量：1
10Kantabutra S,Couch A L.Parallel k-means clustering algorithm on nows[J].NECTEC Technical Journal, 2000, 1 (6) : 243-248. 被引量：1

共引文献71

1武森,冯小东,吴庆海.基于稀疏指数排序的高维数据并行聚类算法[J].系统工程理论与实践,2011,31(S2):13-18. 被引量：1
2马礼,李敬喆,葛根焰,杨银刚.一种基于多核环境的海量数据快速读取方法[J].计算机研究与发展,2011,48(S1):63-67. 被引量：2
3李青华,马春波.基于并行聚类算法的无监督异常检测研究[J].舰船电子工程,2012,32(1):79-82. 被引量：2
4徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
5海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
6杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
7余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
8黄蔚,李戴维.基于MapReduce的网络舆情分析系统的设计与实现[J].信息技术,2014,38(7):149-153. 被引量：2
9郎福通,王鹏.基于MapReduce的网格化优化CURE算法的实现[J].成都信息工程学院学报,2014,29(6):603-608.
10武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11

同被引文献21

1王秀芳,王岩.优化K均值随机初始中点的改进算法[J].化工自动化及仪表,2012,39(10):1302-1304. 被引量：4
2周家寰.地质调查信息化建设成果及思路[J].国土资源信息化,2005(5):2-4. 被引量：10
3韩志伟,刘志刚,鲁晓帆,周登登.基于CUDA的高速并行小波算法及其在电力系统谐波分析中的应用[J].电力自动化设备,2010,30(1):98-101. 被引量：19
4张翠芝,智明.泰州电网负荷特性分析及负荷预测[J].江苏电机工程,2011,30(4):45-47. 被引量：12
5谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的初始聚类中心优化K-均值算法[J].计算机应用研究,2012,29(3):888-892. 被引量：53
6曹志广,陈玮,马如豹.K均值和最大加权熵在彩色图像分割中的应用[J].计算机工程与应用,2012,48(21):174-177. 被引量：4
7江涵,江全元.基于GPU计算平台的大规模电力系统暂态稳定计算[J].电力系统保护与控制,2013,41(4):13-20. 被引量：11
8林成虎,李晓东,金键,尉迟学彪,吴军.基于W-Kmeans算法的DNS流量异常检测[J].计算机工程与设计,2013,34(6):2104-2108. 被引量：5
9张宇,刘坡,杨敏华,龚建华,黄明详.基于GPU的二部图联合聚类并行算法研究[J].地理与地理信息科学,2013,29(4):99-103. 被引量：4
10陈凡,刘海涛,黄正,张雪娇.基于改进k-均值聚类的负荷概率模型[J].电力系统保护与控制,2013,41(22):128-133. 被引量：25

引证文献2

1吴霜,季聪,孙国强.基于CUDA技术的海量电力负荷曲线聚类算法[J].电力工程技术,2018,37(4):65-70. 被引量：8
2夏梦.应用于地理信息数据自动分类的高性能聚类算法[J].计算机应用与软件,2018,35(4):65-68. 被引量：2

二级引证文献10

1王赛一,余建平,孙丰杰,王承民,谢宁.电力大数据的价值密度评价及结合改进k-means的提升方法研究[J].智慧电力,2019,47(3):8-15. 被引量：20
2张成炜,林瑞宗,张宁宇.考虑动态增容效应的陆上风电场送出线路截面优化方法[J].电力工程技术,2019,38(4):86-91. 被引量：5
3施佳君,秦川,鞠平,徐春雷,赵静波,陈彦翔.一种变电站负荷行业构成比例估算方法[J].电力自动化设备,2019,39(10):201-207. 被引量：3
4杨晓彬.基于曲线匹配的中长期电力负荷分配方法[J].机电信息,2019,0(35):163-163. 被引量：1
5汤向华,李秋实,侯丽钢,陈昌铭,刘晟源,林振智.基于Copula函数的风电时序联合出力典型场景生成[J].电力工程技术,2020,39(5):152-161. 被引量：13
6车兵,李轩,郑建勇,付慧,丁群晏.基于LHS与BR的风电出力场景分析研究[J].电力工程技术,2020,39(6):213-219. 被引量：11
7解仲秋.基于时空大数据挖掘的网络舆情研判方法研究[J].电子设计工程,2021,29(8):177-181. 被引量：1
8李蓉,周维柏.基于集合论与图论的餐饮推荐聚类算法[J].湖南科技大学学报（自然科学版）,2021,36(2):93-100. 被引量：1
9郭阳,李舜康,梁君,施祎辰,黄学良.城市轨道交通不间断供电系统蓄电池容量改进整定算法[J].电力工程技术,2021,40(6):157-164. 被引量：3
10王芳,贺子洋,张仕文,魏雪川,黄朝霞.基于聚类算法的窃电行为检测方法研究[J].湖北大学学报（自然科学版）,2023,45(4):608-613. 被引量：1

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2闫娜.“滑动门”技术在网页导航栏中的设计与应用[J].信息与电脑,2016,28(16):86-86. 被引量：1
3GeForce GTX400系列GPU专题测试 “精视”骇俗[J].新电脑,2010(5):66-69.
4林以诺.低温、降噪——“Fermi”降温有妙招[J].微型计算机,2010(25):130-131.
5GTX480即将让位 GTX570后来居上[J].现代计算机（中旬刊）,2011(1):80-82.
6快评[J].大众软件,2010(11):159-159.
7Fermi第二弹 Nvidia GeForce GTX 460登场[J].网友世界,2010(16):64-65.
8李隆.玩家终极武器索泰GTX460极速上市[J].电脑爱好者,2010(15):96-96.
9赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
10阎仲璞,邵秀丽,张峰.并行聚类分析算法(英文)[J].南开大学学报（自然科学版）,2008,41(4):106-112.

计算机工程与设计

2013年第11期

浏览历史

内容加载中请稍等...

基于CUDA的k-means文档聚类算法并行优化被引量：2

参考文献10

二级参考文献42

共引文献71

同被引文献21

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于CUDA的k-means文档聚类算法并行优化 被引量：2

参考文献10

二级参考文献42

共引文献71

同被引文献21

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于CUDA的k-means文档聚类算法并行优化被引量：2