基于Hadoop云平台的并行数据挖掘方法被引量：38

Parallel Approach in Data Mining Based on Hadoop Cloud Platform

下载PDF

导出

摘要业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。 The cloud platform has been dealt in industry with large-scale high-dimensional data. A variety of heterogeneous systems have been simulated as one system, in which data mining on Hadoop will encounter the issues, such as the globalization of data models, the random write operations of HDFS files, and the duration of data life. For practical large-scale high-dimensional data mining, an efficient data mining framework on Hadoop was proposed to solve these problems, which used databases to simulate the linked list structure, and provided a distributed algorithm for structures of tree and graph model. Based on it, a statistical algorithm-Yscore binning - was proposed, as well as the DB-tree and KD-tree building algorithm. The Vega cloud was used as a simulation of Hadoop cluster. The experimental data shows that the framework and the algorithm is practical and feasible, and may be expanded to other areas outside of data mining.

作者杨来史忠植梁帆齐保元

机构地区中科院计算技术研究所智能信息处理重点实验室中国科学院大学

出处《系统仿真学报》 CAS CSCD 北大核心 2013年第5期936-944,共9页 Journal of System Simulation

基金国家自然科学基金(61035003 61072085 61202212 60933004) 国家973项目(2013CB329502) 国家863高技术研究发展计划课题(2012AA011003) 国家科技支撑计划(2012BA107B02)

关键词并行数据挖掘决策树算法 KD树算法 JPA 云计算 parallel data mining DB-tree KD-tree JPA cloud computing

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Bohm C, Berchtold S, Kriagel H P, et al. Mul-tidimensional index structures in relational databases [C]// Proceedings of the 1st International Conference on Data Warehousing and Knowledge Discovery (DaWak 99), Florence, Italy, F Aug 30-Sep 01, 1999. 被引量：1
2Dean J, Ghemawat S, Usenix. MapReduce: Sim-plified data processing on large clusters [C]// Proceedings of the 6th Symposium on Operating Systems Design and Implementation (OSDI 04), San Francisco, CA, F Dec 06-08, 2004. 被引量：1
3李伯虎,柴旭东,侯宝存,李潭,张雅彬,余海燕,韩军,邸彦强,黄继杰,宋长峰,唐震,王鹏,施国强,王晓华.一种基于云计算理念的网络化建模与仿真平台——“云仿真平台”[J].系统仿真学报,2009,21(17):5292-5299. 被引量：125
4李伯虎,张霖,王时龙,陶飞,曹军威,姜晓丹,宋晓,柴旭东.云制造——面向服务的网络化制造新模式[J].计算机集成制造系统,2010,16(1):1-7. 被引量：852
5华翔,康凤举,田学伟,王定华.可视化仿真的私有云框架研究[J].系统仿真学报,2011,23(8):1652-1656. 被引量：9
6黄安祥,冯晓文,李劲松,禹海全.基于云计算平台的航空兵训练仿真体系结构[J].系统仿真学报,2011,23(B07):106-109. 被引量：9
7Mccreadie R M C, Macdonald C, Ounis I. On Single-Pass Indexing with MapReduce [M]. New York, USA: Assoc Computing Machinery, 2009. 被引量：1
8Lammel R. Google's MapReduce programming model - Revisited [J]. Science of Computer Programming (S0167-6423), 2008, 70(1): 1-30. 被引量：1
9Moretti C, Steinhaeuser K, Thain D, et al. Scaling Up Classifiers to Cloud Computers [C]// Proceedings of the IEEE International Conference on Data Mining, Pisa, Italy, F, 2008. USA: IEEE Computer Society, 2008. 被引量：1
10Gillick D, Faria A, Denero J. MapReduce: Dis-tributed Computing for Machine Learning [M/OL] (2006) [2011-07]. http://www.icsi.berkeley.edu/-arlo/publications/gillick_cs262a _proj.pdf. 被引量：1

二级参考文献42

1施国强,朱耀琴,李伯虎,柴旭东.复杂虚拟样机工程的项目管理技术研究[J].系统仿真学报,2005,17(8):1905-1908. 被引量：3
2李伯虎.现代建模/仿真技术现状与发展[C]//第五届中国科学家论坛,2006. 被引量：2
3Bo Hu Li, Xudong Chai, Baocun Hou, et al. Research and Application on CoSim (Collaborative Simulation) Grid [C]// The Proceeding of MS-MTSA'06. Canada: SCSC, 2006. 被引量：1
4President's Information Technology Advisory Committee. Computational Science: Ensuring America's Competitiveness [R]// Report to the President. USA: National Coordination Office for Information Technology Research & Development, 2005:10-13. 被引量：1
5Michael Armbrust, Armando Fox, Rean Griffith, et aL Above the Clouds: A Benkeley View of Cloud Computing [DB/OL]. (2009-2-10) [2009-6-12]. http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.p df. 被引量：1
6DMSO. High-Level Architecture Rules [Z]. Version 1.3.1998. 被引量：1
7Gemini Corp. OpenGVS Programming Guide [Z]. USA: Gemini Corp 1998. 被引量：1
8Guangyou Xu, Yuanchtm Shi. Pervasive Compute [J]. Computer Learned Journal, 2003, 26(9): 1042-1050(in Chinese). 被引量：1
9Guoqiang SHI, Yao Qin ZHU, Bo Hu LI, et al. Project Management Technology of Complex Virtual Prototype Engineering [J]. Journal of System Simulation (S 1004-731X), 2005, 17(8): 1905-1908 (in Chinese). 被引量：1
10Donald Brutzman, Michael Zyda, J Mark PuUen, et al. Morse: Extensible Modeling and Simulation Framework (XMSF): Challenges for Web- Based Modeling and Simulation, Findings and Recommendations Report of the XMSF Technical Challenges Workshop and Strategic Opportunities Symposium [EB/OL]. (2002-10) [2006-3-12]. http://www.movesinstitute.org/xmsf/Xms fW rtOctober2002.pdf. 被引量：1

共引文献971

1刘渊,冯兴兵,王晓锋,邓赵红.面向虚实互联网络的链路采集技术研究[J].系统仿真学报,2020,32(3):421-429. 被引量：4
2刘朝辉,王中杰.云制造资源调度综述[J].系统仿真技术,2019,0(4):268-273. 被引量：3
3丁震,李浩荡,孟峰,王跃旭,潘涛.矿用卡车巨型轮胎监控系统研究[J].煤炭科学技术,2020,48(S01):113-118. 被引量：4
4谢乃明,吴乔,郑绍祥.面向云平台中心化集成调度的跨供应商订单分配模型[J].控制与决策,2020,35(3):667-676. 被引量：6
5关盟,李玉林,宋海草,李成松.云制造环境下基于i-NSGA-Ⅱ-JG算法的制造资源服务组合优选[J].计算机应用研究,2020,37(S02):119-122. 被引量：4
6陈友玲,王龙,左丽丹,牛禹霏.基于云环境下新产品开发团队优选研究[J].计算机应用研究,2020,37(1):89-95.
7赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
8李佳意,董万鹏,任梦,张吉超,弓成美琪.新时代计算机智能制造模式的研究进展[J].智能计算机与应用,2021,11(3):98-105. 被引量：1
9张玙彬,董志明.基于仿真即服务的作战试验仿真系统设计[J].兵器装备工程学报,2020,41(2):72-74. 被引量：2
10王东阳,王芳佳,陈军,郭钢.汽车产业科技服务平台总包分包模式及应用研究[J].中国科技论文在线精品论文,2021(2):229-236.

同被引文献298

1曹桂均,程君.适用于正线机车的无线调车机车信号和监控系统的研究与试验[J].中国铁道科学,2012,33(4):91-98. 被引量：15
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3GUO Wei,GONG JianYa,JIANG WanShou,LIU Yi & SHE Bing State Key Laboratory for Information Engineering in Surveying,Mapping and Remote Sensing,Wuhan University,Wuhan 430074,China.OpenRS-Cloud:A remote sensing image processing platform based on cloud computing environment[J].Science China(Technological Sciences),2010,53(S1):221-230. 被引量：24
4王康,孙宏斌,张伯明,吴文传,蒋维勇.基于二维组合属性决策树的暂态稳定评估[J].中国电机工程学报,2009,29(S1):17-24. 被引量：19
5董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
6周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344. 被引量：41
7肖伯祥,王传宇,郭新宇,吴升,杜建军.玉米考种自动化流水线机构设计与仿真[J].系统仿真学报,2015,27(4):913-919. 被引量：6
8王石,郭建文,江务学,曹文梁.微细电火花加工中材料蚀除机理的仿真研究[J].系统仿真学报,2015,27(12):2891-2897. 被引量：2
9黄莹,徐政,曾德文,张琳.东北、华北和华东电网联网方案研究[J].电网技术,2005,29(1):1-6. 被引量：9
10龚静怡.居家养老—社区养老服务:符合中国国情的城镇养老模式[J].河海大学学报（哲学社会科学版）,2004,6(4):72-74. 被引量：93

引证文献38

1廉文武.基于中位分割碎片合并的特征挖掘云平台设计[J].科技通报,2014,30(6):97-99. 被引量：5
2方晓洪,陆涛,吴金成,何建兵.基于云平台的岭南通IC卡数据挖掘方法研究[J].科技视界,2014(19):63-63. 被引量：2
3于景茹,林海霞,高静.基于绕点旋度修正的粗糙集下挖掘算法[J].科技通报,2014,30(8):113-115.
4周建华.基于Hadoop的微博舆情分析预警系统研究[J].西安文理学院学报（自然科学版）,2014,17(4):75-81. 被引量：3
5方晓洪,陆涛,吴金成,何建兵.基于云平台的岭南通IC卡数据挖掘方法研究[J].江苏交通科技,2014,0(5):28-30.
6黄彦浩,于之虹,谢昶,史东宇,周孝信.电力大数据技术与电力系统仿真计算结合问题研究[J].中国电机工程学报,2015,35(1):13-22. 被引量：110
7梁武,苏燕.协方差特征爬虫网页语义概念树构建方法[J].科技通报,2015,31(4):85-87. 被引量：1
8邢计亮.基于叠加编码的Web网页抓取路径损耗估计[J].科技通报,2015,31(6):181-183. 被引量：1
9王翠娥,张志宏.云存储中多路径数据监测资源访问优化算法[J].兰州工业学院学报,2015,22(4):61-65.
10袁春园.基于Hadoop云计算平台的数据挖掘分析[J].信息与电脑,2015,27(8):58-59. 被引量：3

二级引证文献213

1王小宁.管理信息系统在高校管理工作的应用研究[J].计算机产品与流通,2020(10):127-127. 被引量：1
2车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：2
3尚长仲,曲志明,冯万平,郭广磊.远距离光纤通信传输故障数据挖掘方法[J].探索科学,2019,0(1):130-130.
4郭志民,马建伟,张小斐,万迪明,刘涌,袁秋实.面向三维可视化场景的电力大数据分析模型构建研究[J].电网与清洁能源,2019,35(6):46-51. 被引量：35
5张琛.机器英语翻译中的模糊语义最优解选取方法[J].英语广场（学术研究）,2018,0(12):43-44.
6宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
7黄天恩,郭庆来,孙宏斌,赵乃岩,王彬,郭文鑫.模型-数据混合驱动的电网安全特征选择和知识发现关键技术与工程应用[J].电力系统自动化,2019,43(1):95-101. 被引量：53
8汤奕,崔晗,李峰,王琦.人工智能在电力系统暂态问题中的应用综述[J].中国电机工程学报,2019,39(1):2-13. 被引量：104
9颜飞,张兴,李万杰,李帅.桥梁建筑质量运营监测数据处理仿真研究[J].计算机仿真,2019,36(1):441-444. 被引量：6
10王继业,季知祥,史梦洁,黄复鹏,朱朝阳,张东霞.智能配用电大数据需求分析与应用研究[J].中国电机工程学报,2015,35(8):1829-1836. 被引量：179

1刘军.基于粒划分方法构建决策树的算法研究[J].计算机技术与发展,2012,22(10):87-90.
2周志光.java-to-java分布式计算[J].中国科技信息,2005(19A):33-33.
3蔡震,朱永利.一种基于分布式Web-GIS的数据仓库模型[J].河北省科学院学报,2009,26(3):39-42.
4李晓蕾.基于Hadoop社交网络分析平台的设计与实现[J].计算机测量与控制,2014,22(12):4094-4097. 被引量：4
5魏燕.身份管理:现代ILM之魂[J].软件世界,2006(12):34-36.
6王丽丽.云计算数据安全防护研究[J].信息与电脑（理论版）,2013,0(10):117-118.
7黄翔,张媛媛.浅析云计算下的数据隐私保护问题[J].数字技术与应用,2014,32(6):209-209.
8胡艳.云计算数据安全与隐私保护[J].科技通报,2013,29(2):212-214. 被引量：26
9刘晓.大数据环境下数据中心的数据生命周期管理研究[J].中国金融电脑,2014(10):71-75. 被引量：2
10朱楠楠,李尧,高智伟,程广明.云计算环境下数据生命周期安全技术研究进展[J].无线互联科技,2015,12(23):108-109. 被引量：9

系统仿真学报

2013年第5期

浏览历史

内容加载中请稍等...

基于Hadoop云平台的并行数据挖掘方法被引量：38

参考文献18

二级参考文献42

共引文献971

同被引文献298

引证文献38

二级引证文献213

相关作者

相关机构

相关主题

浏览历史

基于Hadoop云平台的并行数据挖掘方法 被引量：38

参考文献18

二级参考文献42

共引文献971

同被引文献298

引证文献38

二级引证文献213

相关作者

相关机构

相关主题

浏览历史

基于Hadoop云平台的并行数据挖掘方法被引量：38