题名 基于联盟区块链的电力碳权交易机制设计
被引量:24
1
作者
吉斌
刘妍
朱丽叶
昌力
曹斌
机构
南瑞集团有限公司(国网电力科学研究院有限公司)
国电南瑞科技股份有限公司
国网渭南供电公司
出处
《华电技术》
CAS
2020年第8期32-40,共9页
基金
国家电网有限公司科技项目(SGTYHT/16-JS-198)。
文摘
碳排放权(以下简称碳权)交易是推动我国实践低碳、节能的市场手段和政策工具。为加强碳权市场的流通、引导市场主体主动响应以及控制温室气体的排放、积极应对国家战略,基于联盟区块链(以下简称联盟链)技术提出了“多对多”的碳权交易应用。通过分析联盟链的技术特征,设计了碳权交易应用的流程和系统架构;设计了碳权交易应用及其机制,并提出了基于联盟链的碳权交易执行逻辑;建立了碳权交易的数学模型,指出了交易的匹配方式;通过算例验证该碳权交易机制和模型的正确性和可行性。由此可以看出,该碳权交易机制相比于传统趸售市场方式有一定的市场效益优势,可以提高参与碳权市场的市场主体的收益,为碳权市场建设提供技术和交易机制的参考。
关键词
联盟链
碳权交易
分布式数据
交易机制
交易方式
效益分析
交易匹配
区块链技术
Keywords
consortium blockchain
carbon trading
distributed data
trading mechanism
transaction mode
benefit analysis
trade matching
blockchain technology
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
F426
[自动化与计算机技术—计算机科学与技术]
题名 基于分布信息融合的直流锅炉燃料量信号重构
被引量:15
2
作者
于达仁
范轶
徐志强
机构
哈尔滨工业大学能源科学与工程学院
出处
《中国电机工程学报》
EI
CSCD
北大核心
2004年第2期191-195,共5页
基金
国家自然科学基金项目(59976008)~~
文摘
通过对超临界直流锅炉燃料量间接测量信号频谱特性的研究,指出了不同信号具有互补的频谱特性。基于广义观测器结构,利用分布信息的互补特性设计了分布信息融合算法。该文利用沿流程各汽温信号稳态精度高和给粉信号响应速度快的互补特性,经过信息融合,解决了给粉量测量的困难,提高了测量的快速性和准确性,从而有效地提高了直流锅炉机组燃水比调节系统的控制品质。通过对融合算法鲁棒性研究。
关键词
超临界直流锅炉
燃料量
信号重构
信息融合
控制系统
分布参数特性
Keywords
Supercritical once-through boiler
distributed data
data fusion
Measure invalidation
分类号
TK229.54
[动力工程及工程热物理—动力机械及工程]
题名 分布式大数据多函数依赖冲突检测
被引量:16
3
作者
李卫榜
李战怀
姜涛
机构
西北工业大学计算机学院
出处
《计算机学报》
EI
CSCD
北大核心
2017年第1期144-160,共17页
基金
国家"九七三"重点基础研究发展规划项目基金(2012CB316203)
国家自然科学基金(61502390
+3 种基金
61472321
61332006
61272121)
国家"八六三"高技术研究发展计划项目基金(2015AA015307)资助~~
文摘
关系数据库数据质量的一个主要问题是存在数据不一致现象.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,而分布式环境下的函数依赖冲突检测更富有挑战性,特别是大数据背景下,这个问题尤为突出.分布式环境下的函数依赖冲突检测通常需要进行数据迁移,而且不同的数据迁移方法会对检测效率产生一定的影响.该文提出了一种基于等价类的分布式环境多个函数依赖冲突检测的方法,给出了冲突检测的响应时间代价模型.由于分布式环境函数依赖冲突检测问题的任务分配问题为NP-难问题,多项式时间内难以得到最优解,该文将不一致性检测响应时间最小化问题转化为整数规划问题,并给出了近似最优解.针对集群规模和函数依赖个数大小不同的情况,分别给出了不同的任务分配策略,并在检测过程中实现了动态负载均衡,有效提高了负载均衡度和检测效率.在真实和人工数据集上的实验表明,相对于集中式检测方法以及基于Hadoop的naive方法,该文提出的多函数依赖冲突检测方法检测效率有明显的提升,且在数据规模、节点个数和函数依赖个数等方面扩展性能良好.
关键词
函数依赖
冲突检测
不一致性
分布式数据
大数据
Keywords
functional dependency
violations detection
inconsistency
distributed data
big data
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于信息分散算法的分布式数据实时存储方法
被引量:11
4
作者
黄恺彤
周开东
李凯
钟苏生
机构
广东电网有限责任公司信息中心
出处
《电子设计工程》
2020年第5期12-16,共5页
基金
国家自然科学基金(61862033)。
文摘
为了解决现有分布式数据实时存储方法存在的存储实时性差、存储效率低问题,引入信息分散算法对分布式数据实时存储方法进行研究。通过组合法创建分布式数据库,确定分布式数据存储模式,利用数据同步技术对分布式数据进行复制,以复制结果为依据,通过分区技术对分布式数据进行分区,采用信息分散算法对分布式数据进行分片,结合一致性哈希算法对分布式数据进行实时存储调度。实验结果表明,与传统分布式数据实时存储方法相比较,所提方法极大地提升了存储实时性与效率,说明提出的分布式数据实时存储方法具备更好的存储效果。
关键词
信息分散算法
分布式数据
实时存储
数据复制
数据分区
Keywords
information dispersion algorithm
distributed data
real time storage
data replication
data partitioning
分类号
TN301
[电子电信—物理电子学]
题名 隐私保护的数据挖掘方法的研究
被引量:10
5
作者
汤琳
何丰
机构
北方民族大学计算机科学与工程学院
出处
《计算机技术与发展》
2011年第4期156-159,226,共5页
基金
国家自然科学基金(61070131)
文摘
介绍了隐私保护数据挖掘方法的产生背景和意义,其次概括了现阶段国内外隐私保护数据挖掘算法的研究现状,并对当前隐私保护数据挖掘领域中已提出的算法按照数据挖掘的方法、数据源分布情况、隐私保护技术和隐私保护对象以及数据挖掘应用类型等方面进行分类,然后分别详细阐述了在集中式和分布式数据分布环境下,应用在隐私保护的关联规则挖掘、分类和聚类挖掘中的一些典型的技术和算法,总结出它们的优缺点,并对这些优缺点进行剖析和对比,最后指明了隐私保护数据挖掘算法在未来的整体发展方向。
关键词
隐私保护数据挖掘
隐私保护的关联规则挖掘
分类挖掘
聚类挖掘
集中式数据
分布式数据
Keywords
privacy-preserving data mining
privacy-preserving association rule mining
privacy-preserving classification mining
cluster mining
centralized data
distributed data
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 分布式隐私保护数据挖掘研究
被引量:10
6
作者
刘英华
杨炳儒
马楠
曹丹阳
机构
北京科技大学信息工程学院
中国青年政治学院
出处
《计算机应用研究》
CSCD
北大核心
2011年第10期3606-3610,共5页
基金
国家自然科学基金资助项目(60875029)
北京市科技计划专项课题
文摘
隐私保护挖掘是近年来数据挖掘领域的热点之一,主要研究在避免敏感数据泄露的同时在数据中挖掘出潜在的知识。实际应用中,大量的数据分别存放在多个站点,因此分布式隐私保护数据挖掘(distributed priva-cy preserving data mining,DPPDM)的研究更具有实际意义。对该领域的研究进行了详细的阐述,比较了各种方法的优缺点,对现有方法进行了分类和总结,最后指出了该领域未来的研究方向。
关键词
数据挖掘
隐私保护
分布式
Keywords
data mining
privacy preserving
distributed data
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于人工智能的分布式多媒体数据库资源整合系统设计
被引量:10
7
作者
袁煜
韦忠庆
机构
桂林电子科技大学
广西科技大学
出处
《现代电子技术》
2021年第5期166-170,共5页
文摘
针对当前传统多媒体数据库资源整合系统处理能力不足的问题,设计一种新的基于人工智能的分布式多媒体数据库资源整合系统。该系统设计分为三部分,首先在B/S三层逻辑架构模式的基础上设计系统框架,然后进行系统硬件设计,包括集成芯片、传输设备、整合设备、储存设备和检索共享装置,最后设计系统硬件运行逻辑,即系统软件。结果表明,与传统多媒体数据库资源整合系统相比,所设计系统进行分布式多媒体数据库资源整合的吞吐量达到2.58 Mb/s,证明所提系统的处理性能更强大,解决了分布式多媒体数据库资源面临的共享问题。
关键词
人工智能
分布式数据
多媒体
数据库
整合系统
系统测试
Keywords
artificial intelligence
distributed data
multimedia
data base
integration system
system test
分类号
TN99-34
[电子电信—信号与信息处理]
题名 基于分布式数据管理的电网智能调度控制系统设计
被引量:4
8
作者
金萍
侯娟
机构
国网银川供电公司
出处
《机械与电子》
2023年第6期46-50,共5页
文摘
为解决电网智能调度数据管理问题,提出了基于分布式数据管理的电网智能调度控制系统。分析了分布式数据管理的基本含义和结构,利用Hadoop存储技术进行数据存储,结合智能电网调控数据需求进行体系设计。设计了电网智能调度控制系统的总体架构,分析了电网模型同步、数据台上管理、统计查询应用、智能运行评估、辅助决策和终端展示等功能模块,以调度数据分析和辅助应用决策为重点分析了系统的功能,并针对某变电站的具体应用,以数据调用为背景进行案例分析,说明了系统的有效性。
关键词
分布式数据
电网智能调度
数据分析
系统设计
Keywords
distributed data
grid intelligent dispatch
data analysis
system design
分类号
TM73
[电气工程—电力系统及自动化]
题名 面向分布式数据的跨系统数据同步中台构建方法
被引量:3
9
作者
甘杉
余芸
萧展辉
机构
南方电网数字电网研究院有限公司
出处
《电子设计工程》
2023年第2期112-115,120,共5页
文摘
为了防止信息“碎片化问题”的出现,实现对数据文件的稳定跨区域传输,提出面向分布式数据的跨系统数据同步中台构建方法。针对分布式数据库,确定数据分片原则对输入信息分离处理的具体影响效果,完成面向分布式数据的跨系统传输环境搭建。在此基础上,建立同步服务架构,按照已知的传输用例关系,确定关键性的中台运作机制,实现跨系统数据同步中台的应用需求分析,完成面向分布式数据的跨系统数据同步中台构建方法设计。实例分析结果表明,相较于MyCAT分表方法,同步中台构建方法在单位时间内跨区域传输的数据文件总量值更大,且碎片信息的出现几率更低,能够更好地贴合稳定跨区域传输数据文件的应用需求,对于“碎片化问题”的解决也有较强地促进作用。
关键词
分布式数据
跨系统数据
同步中台
数据分片
信息分离
用例关系
Keywords
distributed data
cross system data
synchronization center
data fragmentation
separation of information
use case relationship
分类号
TN919
[电子电信—通信与信息系统]
题名 分布式系统数据一致性处理的研究
被引量:5
10
作者
成汝震
尚志恩
刘宏忠
张运凯
机构
河北师范大学数信学院计算机系
河北师范大学数信学院网络中心
出处
《计算机科学》
CSCD
北大核心
2001年第8期69-71,共3页
文摘
Through structure and analyse of data object attribute, this paper discusses the scheme on consistency processing of distributed bot multimedia data of structured and common data. The scheme provides a new way for solving difficult problem of distributed data on consistency processing.
关键词
分布式系统
数据一致性处理
数据对象
多媒体数据库系统
Keywords
distributed system,distributed data ,data consistency ,data -oriented
分类号
TP311.134
[自动化与计算机技术—计算机软件与理论]
题名 分布式大数据不一致性检测
被引量:7
11
作者
李卫榜
李战怀
陈群
杨婧颖
姜涛
机构
西北工业大学计算机科学学院
出处
《软件学报》
EI
CSCD
北大核心
2016年第8期2068-2085,共18页
基金
国家重点基础研究发展计划(973)(2012CB316203)
国家自然科学基金(61472321
+4 种基金
61332006
61502390)
国家高技术研究发展计划(863)(2015AA015307)
西北工业大学基础研究基金(3102014JSJ0005
3102014JSJ0013)~~
文摘
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Na?ve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好.
关键词
函数依赖
不一致性
冲突检测
分布式数据
大数据
Keywords
functional dependency
inconsistency
violation detection
distributed data
big data
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 电力业务统一数据中心架构设计
被引量:6
12
作者
曾楠
陈志刚
窦昊翔
姚剑
郭爱群
机构
国家电网公司
国网江苏省电力公司
国网江苏省电力公司信息通信分公司
北京友友天宇系统技术有限公司
出处
《微型电脑应用》
2018年第6期19-22,共4页
文摘
随着电力公司各业务条线信息系统建设和应用的不断深入,暴露出跨专业业务协同与信息共享不足,数据多头输入,数据准确性、实时性不强,数据反复抽取、冗余存储、质量不高等问题。为了进一步提升数据贡献、业务融合的程度,提出了全业务统一数据中心建设架构设计方法,主要分为3部分:数据处理中心、数据分析中心、数据管理中心,进而实现企业数据的集中管理及统一访问。
关键词
全业务统一数据中心
统一数据访问层
数据分析
分布式数据
Keywords
full service unified data center
unified data access layer
data analysis
distributed data
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于密度划分的分布式数据容错存储算法研究
13
作者
翁锦阳
朱铁兵
柏志安
机构
上海交通大学医学院附属瑞金医院计算机中心
出处
《吉林大学学报(信息科学版)》
CAS
2024年第1期67-73,共7页
基金
上海市科技基金资助项目(202011000032)。
文摘
为保证数据安全性,缓解数据存储空间,提出基于密度划分的分布式数据容错存储算法。过滤分布式数据高密度数据区域,将具有高度相似的目标划分到不同区域,通过数据来源样本点描述数据的密度分布,设定数据弹性,利用概率以及数据粒度推算出对应的存储梯度和强度指数,并在信息存储中引入数据存储梯度和数据弹性,完成分布式数据容错存储。实验证明,所提算法有较高的容错性,带宽吞吐量平稳,平均路径长度较小,能提高网络数据的安全性。
关键词
密度划分
分布式数据
数据容错存储
数据粒度
强度指数
Keywords
density division
distributed data
data fault⁃tolerant storage
data granularity
strength index
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于边端协作的分布式数据分级管理技术
14
作者
任德旺
周俊鹏
倪鑫
李丽娜
李亚晖
李运喜
机构
航空工业西安航空计算技术研究所
机载弹载计算机航空科技重点实验室
出处
《网络安全与数据治理》
2024年第4期35-40,共6页
文摘
随着智能应用在嵌入式装备系统中的不断普及与发展,对大数据的有效利用和深度融合提出了更高的要求。然而,嵌入式装备类型多样、大数据多源异构,由于缺乏统一的组织管理,业务应用间存在数据壁垒,并出现了数据孤岛现象,导致大数据利用与开发困难。因此,在嵌入式装备系统中,如何有效组织管理数据是亟待解决的难点。为此,以嵌入式装备系统的数据统一管理和共享利用为导向,基于边侧与端侧协作技术,从数据管理架构、数据分级协同管理方案、数据请求调度策略三个方面,探讨了嵌入式装备系统中分布式数据协作管理技术的可行性,以促进数据到信息、信息到知识、知识到决策的快速转化,同时,通过管与用的紧密结合,推动嵌入式装备系统中数据应用的开发。
关键词
数据管理
分级协同
边端协作
分布式数据
Keywords
data management
hierarchical collaboration
edge-terminal collaboration
distributed data
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
TP311
[自动化与计算机技术—计算机科学与技术]
题名 基于CART决策树的分布式数据离群点检测算法
15
作者
朱华
乔勇进
董国钢
机构
武汉生物工程学院计算机科学与技术学院
中国农业大学
上海市农业科学院
出处
《现代电子技术》
北大核心
2024年第16期157-162,共6页
基金
国家自然科学青年基金项目:基于UV-B信号转导途径的桃果实芳樟醇合成转录调控机制研究(32102451)。
文摘
在分布式计算环境中,离群点通常表示数据中的异常情况,例如故障、欺诈、攻击等。通过检测分布式数据的离群点,可以对这些异常数据进行集中处理,保护系统和数据的安全。而进行离群点检测时,不仅要考虑数据的规模和复杂性,还要在分布式环境下高效地发现离群点。因此,提出一种基于CART决策树的分布式数据离群点检测算法。在构建CART决策树时,使用类间中心距离作为分裂准则,根据分离类别对训练数据进行分类,从而确定数据的类型。在上述基础上,考虑到离群点的分布模式与其周围数据对象不同,使用空间局部偏离因子(SLDF)对空间内各个数据对象之间的离群程度展开度量,同时在高维空间内展开网格划分,引入SLDF算法检测剩余离群点集,最终实现分布式数据离群点检测。实验结果表明,所提方法的离散点检测错误率在0.010以内,可以更加精准地实现分布式数据离群点检测,具有良好的检测性能。
关键词
CART决策树
分布式数据
离群点检测
类间距离
数据分类
空间局部偏离因子
Keywords
CART decision tree
distributed data
outlier detection
inter class distance
data classification
spatial local deviation factor
分类号
TN919-34
[电子电信—通信与信息系统]
TP391
[电子电信—信息与通信工程]
题名 电力业务流转数据库中分布式数据一致性算法
被引量:2
16
作者
明哲
余芸
甘杉
机构
南方电网数字电网研究院有限公司
出处
《电子设计工程》
2023年第1期120-123,128,共5页
文摘
目前研究的电力业务流转数据库中分布式数据一致性算法收敛速度较慢,导致算法响应能力较差。为了解决上述问题,在传统算法的基础上,提出了一种新的电力业务流转数据库中分布式数据一致性算法。由工作量、工作效率以及执行效率组成电力业务流程流转数据库的定量操作,所提算法在传统算法的基础上,融入了两阶段的封锁协议和解锁协议,减少电力业务流转中不必要的通信,提高操作的响应速度,避免系统出现死机造成的连锁反应。分层分析数据库中的复杂分布式数据,筛选出重复冗余的业务流转数据,保证电力流转业务流程的规范性。实验结果表明,所提算法具有较高的一致性收敛速度,有很高的可行性。
关键词
流转数据
数据库
电力业务
分布式数据
一致性算法
Keywords
circulation data
data base
electric power business
distributed data
consensus algorithm
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
题名 云计算环境中自适应负载均衡设计与实现
17
作者
陈海彬
机构
安徽国防科技职业学院信息技术学院
出处
《佳木斯大学学报(自然科学版)》
CAS
2024年第6期37-40,共4页
基金
安徽省高等学校省级自然科学研究计划项目(2022AH052514、KJ2021A1491),安徽省质量工程项目(2021jyxm0234、2021kcszsfkc076、2022jyxm236)。
文摘
设计了一种新的可分配的加权轮询负载均衡方法,结合云计算技术通过高效的调度,平衡位于不同的地区、不同用户传入的负载请求,通过使用分布式数据源的数据,可以有效利用云资源和提高任务处理时间。实验证明该方法与轮询调度方法、加权最小连方法相比能够更加高效。
关键词
云计算
负载均衡
可分配的加权轮询
分布式数据
Keywords
cloud computing
load balancing
divisible weighted polling
distributed data
分类号
TP302.7
[自动化与计算机技术—计算机系统结构]
题名 基于分布共识的联邦增量迁移学习
18
作者
崔腾
张海军
代伟
机构
中国矿业大学信息与控制工程学院
哈尔滨工业大学(深圳)计算机科学与技术学院
中国矿业大学人工智能研究院
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2024年第4期821-841,共21页
基金
国家重点研发计划(2022YFB3304700)
国家自然科学基金(62373361)
+2 种基金
中央高校基本科研业务费专项资金(2023XSCX027)
中国矿业大学研究生创新计划项目(2023WLKXJ095)
江苏省研究生科研与实践创新计划(KYCX23_2710)资助.
文摘
相同生产工艺的工业过程协同建模是解决工业难测参数在线软测量的有效方法,但因生产原料、设备等因素差异,所形成的分布式数据往往呈现非独立同分布特性(Nonindependent Identically Distribution,Non-IID).同时,受生产环境变化影响,数据分布特性会随时间发生变化.因此,工业建模场景对模型的个性化配置和自主调整能力提出了更高的要求.为此,本文提出一种结构与参数并行优化的联邦增量迁移学习方法(Federated Incremental Transfer Learning,FITL).所提方法在增量式联邦学习框架下,建立了基于模型输出信息的联邦共识组织,并利用横向联邦进行组内增强;进而,面向联邦共识组织,通过最小化组间共识差异增量迁移不同共识组织信息;最后,结合组内横向增强和跨组织迁移学习,构造增量迁移下的联邦学习模型.在工业数据集和基准数据集上的实验结果表明,与现有方法相比,所提模型能更好地实现不同工况Non-IID情况下的协同建模.在过程工业回归任务和公开数据集的分类任务中,FITL能在多工况环境下相较基线方法提升9%和16%的模型预测精度.
关键词
协同建模
分布式数据
非独立同分布
迁移学习
联邦学习
Keywords
scollaborative modeling
distributed data
non-independent identically distribut ion
transfer learning
federated learning
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 多维时空数据分布式协同进化属性约简分析
19
作者
吴极
周明
徐敏
张靖
郭洋
张永梅
机构
国网安徽省电力有限公司信息通信分公司
出处
《电子设计工程》
2024年第15期16-20,共5页
基金
国网安徽省电力有限公司科研项目(2019KSA11207)。
文摘
面对多维时空数据属性复杂无法有效约简的问题,提出了多维时空数据分布式协同进化属性约简方法。通过多维时空数据投影抖动处理,使投影点分布角度一致。按照时间序列将多维属性的时空目标归入一维特征时空,构建约简布局优化结构。使用邻域粗糙集模型的贪心属性约简算法,获取多个属性约简子集,采用邻域覆盖约简规则学习方法,保证动态数据属性偏向约简过程稳定。根据协同进化约简布局优化结构,计算多维时空之间相对距离,获取偏序约简结果,实现多维时空数据分布式协同进化属性约简。由实验结果可知,该方法约简后数据最小为14个,具有良好约简效果。
关键词
多维时空
分布式数据
协同进化
属性约简
Keywords
multidimensional spatio-temporal
distributed data
coevolution
attribute reduction
分类号
TN957.52
[电子电信—信号与信息处理]
题名 基于改进随机决策树算法的分布式数据挖掘
被引量:5
20
作者
石红姣
机构
商洛学院
出处
《计算机与数字工程》
2017年第9期1802-1808,共7页
基金
国家自然科学基金项目(编号:61372003)资助
文摘
随着大数据时代带来的数据量激增问题,该研究以随机决策树算法为基础,通过分析单个树与多个树的概率估计,利用无监督局部敏感哈希函数(LSH)处理大数据敏感分类,在对分布式数据挖掘过程中,采用超平面hash减少超平面的可能空间和增加系数处理密集数据类型,结合Sim Hash间接生成随机向量,Fast Hash将整数映射到位图处理稀疏数据类型。最后,在Spark平台上运行8个小数据集和6个大数据集的模拟结果显示:改进后的算法不需要构造很多深度树,检验了改进算法运行在配置不同数量节点的集群上的可扩展性。
关键词
分布式数据
数据挖掘
决策树算法
哈希函数
Keywords
distributed data , data mining, decision tree algorithm, hash function
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]