基于特征加权的分布式大数据相关性挖掘方法被引量：3

Distributed Big Data Correlation Mining Method Based on Feature Weighting

下载PDF

导出

摘要针对传统方法存在计算时间较长,任务分配均匀程度较差的问题,提出基于特征加权的分布式大数据相关性挖掘方法。对软子空间进行聚类,根据特征加权的不确定性表示加权聚类中心,并求解权值。设计特征选择的技术框架对特征加权进行选择,依据特征空间搜索机制完成特征筛选。根据特征筛选结果运用MapReduce编程模型对数据簇的聚类中心进行反复扫描,计算样本到聚类中心的距离,去除其中的孤立点。利用Shuffle均衡分组机制计算频繁项集,开始新项的FP树建立及频繁项集挖掘,直至完成所有频繁项集的挖掘。实验结果表明,所提方法的挖掘时间低于传统方法,并且任务分配均衡性较高,说明上述方法具有一定的应用价值。 Obviously, the traditional method has a long computing time and poor uniformity of task allocation. Therefore, a distributed big data correlation mining method based on feature weighting was presented in this paper. Soft subspaces were clustered. Based on the uncertainty of feature weighting, the weighted clustering center was represented to get the solution of weight. The technical framework of feature selection was designed for selecting feature weighting. The search mechanism of feature space was used to complete feature selection. Combined with the results of feature selection, the MapReduce programming model was applied to repeatedly scan the cluster center of the data cluster, and the distance between the sample and the cluster center was calculated to remove the outliers. Shuffle balanced grouping mechanism was used to calculate frequent item-sets, and FP Tree of new items was established to mine frequent item-sets, completing the mining of all frequent item-sets. The results show that the mining time, balance of task allocation, and application value of this method are better than those of traditional methods.

作者戴惠丽王敬宇 DAI Hui-li;WANG Jing-yu(Minnan Science and Technology Institute,Quanzhou Fujian 362332,China;Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区闽南科技学院北京邮电大学

出处《计算机仿真》北大核心 2021年第6期282-285,372,共5页 Computer Simulation

基金 2018年福建省高等学校学科(专业)带头人培养计划国内访问学者项目(138) 闽南科技学院一般教改项目(MKJG-2018-017)研究成果。

关键词特征加权分布式大数据相关性挖掘软子空间聚类任务分配 Feature weighting Distributed big data Correlation mining Soft subspace clustering Task allocation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1蔡柳萍,解辉,张福泉,张龙飞.基于稀疏表示和特征加权的大数据挖掘方法的研究[J].计算机科学,2018,45(11):256-260. 被引量：15
2陈明,张重阳,冯国富,陈希,陈冠奇,王丹.基于特征加权融合的鱼类摄食活动强度评估方法[J].农业机械学报,2020,51(2):245-253. 被引量：18
3米捷,刘道华.基于语义关联性特征融合的大数据挖掘方法[J].信阳师范学院学报（自然科学版）,2019,32(1):141-145. 被引量：20
4毛晓菊.基于模糊关联规则的海量数据挖掘方法研究[J].微电子学与计算机,2018,35(2):89-93. 被引量：10
5孙红,李存进.融合遗传算法和关联规则的数据挖掘方法改进[J].数据采集与处理,2019,34(5):863-871. 被引量：15
6江志良,侯远,吴敏.基于特征关系的加权投票聚类集成研究[J].计算机工程与应用,2018,54(3):150-159. 被引量：7
7杨欢欢,赵书良,李文斌,武永亮,田国强.基于统计特征的Quality Phrase挖掘方法[J].数据采集与处理,2020,35(3):458-473. 被引量：4
8陈谊,张聪.一种基于维度投影的多维数据相关性可视分析方法[J].计算机辅助设计与图形学学报,2018,30(4):592-601. 被引量：11
9韩晟,韩坚舟,赵璇,王小玄,范立红,梅杰.距离权重改进的Pearson相关系数及应用[J].石油地球物理勘探,2019,54(6):1363-1370. 被引量：24
10何保荣.基于多目标决策的时间序列数据挖掘算法仿真[J].计算机仿真,2019,36(11):243-246. 被引量：11

二级参考文献82

1任子武,伞冶.自适应遗传算法的改进及在系统辨识中应用研究[J].系统仿真学报,2006,18(1):41-43. 被引量：168
2阳琳赟,周海京,卓晴,王文渊.基于属性重要性的加权聚类融合[J].计算机科学,2009,36(4):243-245. 被引量：12
3曾庆森,黄贤英.基于FP-tree的快速数据挖掘算法[J].重庆工学院学报（自然科学版）,2009,23(10):72-76. 被引量：3
4宋马林,王舒鸿,汝慧萍.一种新的考虑时间和空间的相关系数及其算例[J].数量经济技术经济研究,2010,27(7):142-152. 被引量：11
5孙红,谭笑.遗传算法在车辆调度优化问题中的研究[J].计算机工程与应用,2010,46(24):246-248. 被引量：7
6倪逸,杨慧珠,郭玲萱,王倩,张冲.储层油气预测中地震属性优选问题探讨[J].石油地球物理勘探,1999,34(6):614-626. 被引量：38
7潘仁芳,金吉能.断层和裂缝尺度识别的地球物理方法探讨[J].长江大学学报（自然科学版）,2011,8(3):16-18. 被引量：9
8徐维超.相关系数研究综述[J].广东工业大学学报,2012,29(3):12-17. 被引量：78
9罗勇,陈治亚.基于改进遗传算法的物流配送路径优化[J].系统工程,2012,30(8):118-122. 被引量：51
10张文博,姬红兵,王磊.一种自适应权值的多特征融合分类方法[J].系统工程与电子技术,2013,35(6):1133-1137. 被引量：11

共引文献145

1卢明,高超,邹乔戈,刘泽辉,李黎,刘阳.特高压交流线路大吨位瓷绝缘子运行状态评估方法研究[J].中国电机工程学报,2021,41(S01):392-400. 被引量：4
2徐立鸿,黄薪,刘世晶.基于改进LRCN的鱼群摄食强度分类模型[J].农业机械学报,2022,53(10):236-241. 被引量：6
3程广发.探索多目标决策在技术经济分析中的应用[J].产业科技创新,2019(33):78-80. 被引量：1
4张恒,柳明军,李雪芸,张伟燕,张道英.基于云计算大数据的优化路径分析[J].新一代信息技术,2022,5(6):58-60.
5江华.浅谈Windows98的桌面[J].电脑编程技巧与维护,2000(5):30-31.
6刘春贵,赵筱蓉.PLC控制在高压系统中的应用[J].四川冶金,2000,22(2):57-59.
7张小奇.基于决策树算法的教学管理数据分析[J].青岛大学学报（自然科学版）,2019,32(2):86-94. 被引量：3
8曹杰.大数据审计中的特征工程[J].江苏商论,2019,0(9):31-34. 被引量：3
9陈彦萍,高宇坤,张恒山,夏虹.基于多链接特征子集的聚类集成算法[J].小型微型计算机系统,2019,40(10):2097-2101. 被引量：2
10艾楚涵,姜迪,吴建德.基于主题模型和关联规则的专利文本数据挖掘研究[J].中北大学学报（自然科学版）,2019,40(6):524-530. 被引量：9

同被引文献35

1吴漾,王鹏宇,缪新萍,柳林溪,田钺.基于改进深度强化学习算法的电网缺陷文本挖掘模型研究[J].科技通报,2021,37(2):47-55. 被引量：4
2陈强璋.一种高效的二叉查找树——红黑树[J].华东师范大学学报（自然科学版）,2000(3):39-42. 被引量：6
3朱贺军,马丁.海量短文本实时挖掘方法的研究与仿真[J].计算机仿真,2015,32(12):442-446. 被引量：4
4吴德超,刘晓红,曲志坚.基于Hadoop的分布式聚类算法研究[J].山东理工大学学报（自然科学版）,2018,32(4):25-29. 被引量：3
5毛临川,吴根秀,吴恒,黄梅.基于信息增益的最优组合因子Fisher判别法[J].计算机工程与应用,2016,52(19):94-96. 被引量：4
6梁显丽.基于人工蜂群优化的多段支持度数据挖掘仿真[J].计算机仿真,2019,36(7):273-276. 被引量：4
7孙红,李存进.融合遗传算法和关联规则的数据挖掘方法改进[J].数据采集与处理,2019,34(5):863-871. 被引量：15
8林倩瑜.基于模糊卷积神经网络的大数据分类挖掘技术[J].重庆理工大学学报（自然科学）,2019,33(10):121-126. 被引量：15
9梁春华.人工神经网络在数据挖掘中的应用研究[J].无线互联科技,2019,16(22):17-18. 被引量：4
10方旭东,包汉生,李阳,徐芳泓,夏焱.超超临界锅炉用新型耐热无缝管C-HRA-5的开发[J].钢铁,2020,55(2):119-130. 被引量：13

引证文献3

1蔡传军,童绪军.基于卷积神经网络的顶岗实习管理系统数据挖掘研究[J].河南工程学院学报（自然科学版）,2023,35(3):71-76.
2孙丽君.电炉企业异构网络共享数据跨级高效项集挖掘系统[J].工业加热,2024,53(3):55-58.
3王红林,李忠伟.大数据场景下用户评论聚类文本挖掘算法[J].计算机仿真,2024,41(3):352-358.

1李林蔚.基于区块链的代理重加密信息共享及安全多方计算模型[J].长江信息通信,2021(2):107-110. 被引量：1
2王营,高琦,李婷玉,张乐.基于改进FP-growth算法的售后服务数据挖掘[J].现代制造工程,2021(6):31-37. 被引量：8
3周文兰.数字普惠金融发展对城乡收入差距的影响研究[J].全国流通经济,2021(10):152-156. 被引量：1
4吴虎胜,肖人彬.群智能新研究:角色-匹配的狼群劳动分工[J].智能系统学报,2021,16(1):125-133. 被引量：2
5宫园园,艾宏志.Hadoop平台的民俗文化旅游资源推荐系统[J].科技通报,2021(2):62-66. 被引量：5
6王敏静,王党利,赵美枝.基于人工智能的新闻大数据传播特征及挖掘系统设计[J].制造业自动化,2021,43(7):91-95. 被引量：2
7翟悦,李楠,于文武.基于扩展概念格的带约束关联分类规则挖掘方法[J].大连交通大学学报,2021,42(4):88-93. 被引量：1
8王志忠,邹航,陈璎.基于状态不确定性的动态滤波算法[J].数学理论与应用,2020,40(3):1-10.
9沈汝超.集装箱港口装船作业模式下场桥和内集卡跨箱区联合调度优化[J].港口科技,2021(7):11-17.
10赵德明,庞锐,王海波.微震震源定位算法优化研究及应用[J].计算机技术与发展,2021,31(7):209-214. 被引量：2

计算机仿真

2021年第6期

浏览历史

内容加载中请稍等...

基于特征加权的分布式大数据相关性挖掘方法被引量：3

参考文献12

二级参考文献82

共引文献145

同被引文献35

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于特征加权的分布式大数据相关性挖掘方法 被引量：3

参考文献12

二级参考文献82

共引文献145

同被引文献35

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于特征加权的分布式大数据相关性挖掘方法被引量：3