期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
分布式大数据函数依赖发现 被引量:9
1
作者 李卫榜 李战怀 +3 位作者 陈群 姜涛 刘海龙 潘巍 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期282-294,共13页
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据... 在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升. 展开更多
关键词 函数依赖发现 函数依赖 大数据 知识发现 并行计算
下载PDF
Spark平台下的分布式函数依赖发现算法 被引量:6
2
作者 朱星宇 蔡志成 +2 位作者 刘段 徐建 李小平 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1569-1575,共7页
函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分... 函数依赖发现被广泛应用于分布式大数据分析,是数据清洗、质量评估和语义分析的重要手段.已有函数依赖发现算法主要针对集中式数据,不适用于分布在不同节点上的云计算数据.将分布式数据汇集到集中节点非常耗时,而使用传统集中式方法分别处理分布式节点上的数据会导致错误的结果.已经存在的分布式算法存在内存消耗过大的缺点.因此,本文提出一种基于云计算数据处理平台Spark的快速低内存分布式函数依赖发现算法.该算法提出了多个分布式任务分配策略和基于标识符集一致性的最大等价类元素去重策略,在保障正确性前提下,减少了集合交集运算的次数,加快了处理速度.实验结果表明,与传统集中式算法相比,本文提出的分布式算法在本实验环境下使平均执行时间降低了50%左右,去重策略进一步降低了30%左右执行时间.和已有分布式函数依赖发现算法相比,在有些实例上可以节省大约75%的内存. 展开更多
关键词 数据挖掘 函数依赖发现 Dep_Miner 分布式计算 SPARK
下载PDF
基于聚类离散化的Dep-Miner函数依赖发现方法
3
作者 仓敏 王静怡 +3 位作者 吴霜 翟晓萌 程曦 诸德律 《南京理工大学学报》 CAS CSCD 北大核心 2023年第3期318-329,共12页
针对已有函数依赖发现方法直接应用于连续型数据时,易导致依赖关系挖掘失败的问题,该文基于已有Dep-Miner方法,提出基于等间隔离散化的Dep-Miner(ED-Dep-Miner)和基于聚类离散化的Dep-Miner(CD-Dep-Miner)函数依赖发现方法。通过数据离... 针对已有函数依赖发现方法直接应用于连续型数据时,易导致依赖关系挖掘失败的问题,该文基于已有Dep-Miner方法,提出基于等间隔离散化的Dep-Miner(ED-Dep-Miner)和基于聚类离散化的Dep-Miner(CD-Dep-Miner)函数依赖发现方法。通过数据离散化,将指标的连续型数据合理地转变为类别数据。实现基于类别数据的函数依赖发现,提升函数依赖发现能力。同时,对Dep-Miner中的部分定理给出了基于反证法和枚举法的通俗化证明。该文将提出的ED-Dep-Miner和CD-Dep-Miner与不带有任何离散化操作的原始Tane和Dep-Miner进行了实验对比。实验结果表明,该文的ED-Dep-Miner和CD-Dep-Miner方法将原始连续型数据转化为离散型分类,挖掘出了更多潜在的函数依赖关系。同时,CD-Dep-Miner的性能要优于ED-Dep-Miner,解决了等间隔离散化存在的边界值问题。 展开更多
关键词 聚类 离散化 函数依赖发现 等间隔离散化 类别数据 反证法 枚举法 边界值问题
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部