分布式并行数据挖掘计算框架及其算法研究被引量：9

Investigation of Distributed and Parallel Data Mining Calculating Architecture and Algorithms

下载PDF

导出

摘要为了提供一个灵活可扩展的计算平台进行高效的挖掘计算,提出了一种应用于分布和并行环境的数据挖掘计算框架和相应的算法。通过分析关联规则挖掘理论和以往算法的优缺点,建立一种分布式并行数据挖掘的计算框架,并给出相应的求解算法。实例分析表明该计算框架能够减少节点间的通信开销,保持了良好的可扩展性;挖掘算法则利用本地节点动态有序集合枚举树生成方法代替数据库节省了本地空间的占用,大大提高了查找的计算效率。 In order to provide a flexible and patulous calculating platform and execute high efficiency data mining, a calculating architecture and algorithms of data mining are presented to apply in distributed and parallel environment. The distributed and parallel calculating architecture of data mining and the corresponding algorithms are established by analyzing mining theory of association rule and merit ＆ shortcoming of former algorithms. Examples show that the calculating architecture can reduce overhead traffic, and keep a favorable expansibility. The algorithms save occupation of local space by using the generating method of dynamic order set enumerate trees in local nodes to replace database, and the seeking efficiency is improved greatly.

作者王轶达新宇

机构地区空军工程大学电讯工程学院

出处《微电子学与计算机》 CSCD 北大核心 2006年第9期223-225,共3页 Microelectronics & Computer

基金国家自然科学基金项目(60473083) "863"高技术项目(2005AA103110-2)

关键词数据挖掘关联规则项集分布式并行结构 Data mining, Association rule, Item-set, Distributed and parallel structure

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1J W Han,M Kamber.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2006 被引量：1
2张云涛,龚玲著..数据挖掘原理与技术[M].北京:电子工业出版社,2004:238.
3李雄飞,苑森淼,王爱军,郇丹丹.基于项目属性的相联规则提取[J].计算机学报,2002,25(12):1421-1427. 被引量：3
4R Agrawal.Fast algorithms for mining association rules[A].In Proc.1994 Int.Conf.Very Large Dataases[C].Santiago:1994:467～499. 被引量：1
5R Agrawal,A Gupta,S Sarawagi.Modeling multidimensional databases[A].In Proc.1997 Int.Conf.Data Engineering[C].Birmingham:1997:232～243 被引量：1
6万仁霞,陈瑞典.一种改进的Apriori算法[J].福州大学学报（自然科学版）,2005,33(2):282-284. 被引量：4

二级参考文献19

1Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Proc 20th VLDB Conference, Santiago, Chile, 1994. 487-499 被引量：1
2Ozden B, Ramaswamy S, Silberschatz A. Cyclic associationrules. In: Proc 14th International conference on Data Engineer ing,Orlando,FL, 1998. 412-421 被引量：1
3Ramaswamy S, Mahajan S, Silberschatz A. On the discovery of interesting patterns in association rules. In: Proc 24th Interna tional Conference on Very Large Data Bases, New York,USA, 1998. 368-379 被引量：1
4Bayardo R, Agrawal R. Mining the most interesting rules. In: Proc KDD-99,San Diego,1999. 112-121 被引量：1
5Bing Liu, Wynne Hsu, Yiming Ma. Mining association rules with multiple minimum supports. In: Proc International Confer ence on Knowledge Discovery and Data Mining, San Diego, USA, 1999. 125-134 被引量：1
6Lee W, Stolfo S J, Mok K W. Mining audit data to build intrusion detection models. In: Proc KDD-98, New York, USA, 1998. 106-110 被引量：1
7Han J, Fu Y. Discovery of multiple level association rules from large databases. In: Proc International Conference on VeryLarge Data Bases, Zurich,Switzerl, 1995. 420-431 被引量：1
8Park J S, Chen M S, Yu P S. An effective hash-based algo rithm for mining association rules. In: Proc ACM-SIGMOD International Conference on Management of Data, San Jose, CA, 1995. 175-186 被引量：1
9JiaweiHan Dataminin 范明.conceptsandtechniques[M],MichelineKamber,孟小峰等译[M].北京:机械工业出版社,2001.150-151,158. 被引量：1
10Park J S, Chen M S, Yu P S. An effective hash - based algorithm for mining association rules[A]. In Proc 1995 ACM - SIGMOD Int Conf Management of Data(SIGMOD'95)[C]. 1995. 175-186. 被引量：1

共引文献5

1杜跃,王治和,景永霞.基于数组的关联规则挖掘算法[J].甘肃联合大学学报（自然科学版）,2007,21(3):56-57. 被引量：1
2周义建,王轶,王辉.基于Apriori数据挖掘优化方法研究[J].计算机与数字工程,2008,36(2):20-22. 被引量：1
3王新勇,袁剑秋,周家纪.关联规则算法优化研究与实现[J].世界科技研究与发展,2010,32(3):312-316. 被引量：2
4张恺,郑晶.一种基于云计算的新的关联规则Apriori算法[J].甘肃联合大学学报（自然科学版）,2012,26(6):61-64. 被引量：5
5黄再祥,周忠眉,何田中,郑艺峰.改进的多类不平衡数据关联分类算法[J].模式识别与人工智能,2015,28(10):922-929. 被引量：11

同被引文献61

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2徐君,黄亚楼,李飞.K-Means聚类中序列模式和批量模式的比较研究[J].计算机科学,2004,31(6):156-158. 被引量：5
3李培强,李欣然,陈辉华,唐外文.基于模糊聚类的电力负荷特性的分类与综合[J].中国电机工程学报,2005,25(24):73-78. 被引量：131
4赵国富,曲国庆.聚类分析中CLARA算法的分析与实现[J].山东理工大学学报（自然科学版）,2006,20(2):45-48. 被引量：9
5李晓毅,徐兆棣.关联规则挖掘的算法分析[J].辽宁工程技术大学学报（自然科学版）,2006,25(2):318-320. 被引量：17
6陈良维.数据挖掘中聚类算法研究[J].微计算机信息,2006(07X):209-211. 被引量：32
7Michael Miller姜进磊,孙瑞志,向勇等译.云计算[M].北京:机械出版社.2009. 被引量：34
8曾梦好.分类用户峰谷电价研究[D].2006:40. 被引量：4
9Aoying Zhou, Feng Cao, Ying Yan,et al. Distributed Data Stream Clustering: A Fast EM-based Approach [ C ]. IEEE,2007,1 - 4244 - 0803 - 2/07. 被引量：1
10Charu C Aggarwal, Jiawei Han, Jianyong Wang, et al. A Framework for On-Demand Classification of Evolving Data Strings[ J ]. IEEE Transaction on Knowledges and Data Engineering,2006,18 ( 5 ). 被引量：1

引证文献9

1庄绪强.基于云计算技术的用户用电智能分析技术研究[J].自动化与仪器仪表,2016(2):187-189. 被引量：8
2华铨平.面向数据特征的分布式数据挖掘研究[J].计算机工程与设计,2010,31(6):1313-1315. 被引量：2
3何青松,吴承荣,曾剑平.一种基于微簇的分布式聚类算法[J].计算机应用与软件,2011,28(1):270-271.
4李凯,常征.基于云计算的并行数据挖掘系统设计与实现[J].微计算机信息,2011,27(6):121-123. 被引量：20
5张素香,刘建明,赵丙镇,曹津平.基于云计算的居民用电行为分析模型研究[J].电网技术,2013,37(6):1542-1546. 被引量：133
6邱桂华,吴树鸿,何炎.基于综合能源信息融合的大数据挖据分析与应用[J].低碳世界,2016,6(11):240-241. 被引量：1
7陈勇.一种基于云计算的大数据关联规律挖掘分析方法[J].无线电工程,2017,47(3):8-11. 被引量：13
8陆可,桂伟,江雨燕,杜萍萍.基于Spark的并行FP-Growth算法优化与实现[J].计算机应用与软件,2017,34(9):273-278. 被引量：8
9孔慧峰.多源数据关联分析在走私犯罪案件侦办中的应用探讨[J].法制博览,2019(5):176-176. 被引量：1

二级引证文献185

1王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
2姚栋方,吴瀛,罗磊,阎帅,武文广,丁宏.基于深度学习的短期电力负荷预测[J].国外电子测量技术,2020,39(1):44-48. 被引量：18
3杜建清.云计算技术在综合电子信息系统中的应用研究[J].自动化与仪器仪表,2016(5):181-182. 被引量：3
4孙中祥,彭湘君,杨玉平,贺一.数据挖掘在教育教学中的应用综述[J].智能计算机与应用,2012,2(1):78-80. 被引量：7
5贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013,23(2):69-72. 被引量：97
6孙亚楠.对云计算的海量数据挖掘相关问题的再探讨[J].中国电子商务,2013(18):32-32.
7王保义,赵硕,张少敏.基于云计算和极限学习机的分布式电力负荷预测算法[J].电网技术,2014,38(2):526-531. 被引量：76
8李青,齐林海,田璐,王红,田世明,卜凡鹏.一种融合降维和聚类的电力用户高效分类方法[J].电力信息与通信技术,2018,16(11):12-18. 被引量：5
9张中超,叶伟灵.基于用电行为习惯的家庭节能用电策略研究[J].电气应用,2019,38(2):91-96. 被引量：1
10杜乾,邓帅,王嗣常.计及温度区间的电网负荷典型日筛选方法研究[J].安徽电力,2017,34(4):27-30. 被引量：1

1张漫,王永安,王征.基于高速分布式并行结构的测井数据处理系统[J].计算机应用与软件,2009,26(6):136-137. 被引量：1
2马莉,任学军,赵纪涛.一种挖掘关联规则的改进算法[J].郑州轻工业学院学报（自然科学版）,2008,23(3):117-120.
3徐凤生,赵永华.一种新的关联规则挖掘算法[J].德州学院学报,2002,18(4):45-47.
4徐凤生,陆玉昌.模糊关联规则的挖掘算法[J].德州学院学报,2002,18(2):65-68. 被引量：3
5武坤.一种快速挖掘关联规则的改进算法[J].河南财政税务高等专科学校学报,2016,30(1):91-95.
6蒋莉芳,苏一丹,覃华.基于CUDA的并行谱聚类社区挖掘算法[J].山西电子技术,2016(2):46-49.
7黄欣,梅松.高速公路联网信息检索系统的设计与实现[J].无线互联科技,2011,8(10):5-6. 被引量：4
8蒋瑜.基于集合枚举树的最小属性约简算法[J].计算机工程与应用,2013,49(11):101-104. 被引量：2
9刘芳,路松峰,卢正鼎,胡和平.一种基于限制的关联规则数据开采的算法[J].华中科技大学学报（自然科学版）,2001,29(3):27-29. 被引量：1
10赵相福,欧阳丹彤.可用于诊断产生的计算碰集的新方法[J].吉林大学学报（理学版）,2006,44(3):385-390. 被引量：6

微电子学与计算机

2006年第9期

浏览历史

内容加载中请稍等...

分布式并行数据挖掘计算框架及其算法研究被引量：9

参考文献6

二级参考文献19

共引文献5

同被引文献61

引证文献9

二级引证文献185

相关作者

相关机构

相关主题

浏览历史

分布式并行数据挖掘计算框架及其算法研究 被引量：9

参考文献6

二级参考文献19

共引文献5

同被引文献61

引证文献9

二级引证文献185

相关作者

相关机构

相关主题

浏览历史

分布式并行数据挖掘计算框架及其算法研究被引量：9