期刊文献+
共找到282篇文章
< 1 2 15 >
每页显示 20 50 100
基于微博数据的“新冠肺炎疫情”舆情演化时空分析 被引量:86
1
作者 陈兴蜀 常天祐 +2 位作者 王海舟 赵志龙 张杰 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期409-416,共8页
本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及K-Means文本聚类算法,对与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次... 本文依托2020年1月1日至2月29日期间共计6万条新浪微博博文与1.5万条微博热门评论,基于分布式爬虫技术、分布式数据库系统、SnowNLP情感分析模型以及K-Means文本聚类算法,对与“新冠肺炎疫情”相关的话题展开舆情分析,可视化地展现本次疫情事件中网络舆情的时空演化过程.在时间维度层面,通过文本聚类与情感分析,发现网民对于此次肺炎疫情的态度大致经历了三个阶段,即起伏不定的紧张焦虑期、缓慢攀升的团结振作期以及波动很小的自信平稳期,总体上呈现积极大于消极、正面大于负面的情绪状态.在空间维度层面,通过地理统计分析,发现疫情最严重地区网民评论人数最多,同时情感值也最低. 展开更多
关键词 新浪微博 新冠肺炎疫情 分布式爬虫 情感分析 文本聚类 地理统计分析
下载PDF
面向海量用户用电特性感知的分布式聚类算法 被引量:67
2
作者 朱文俊 王毅 +3 位作者 罗敏 林国营 程将南 康重庆 《电力系统自动化》 EI CSCD 北大核心 2016年第12期21-27,共7页
智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集... 智能电表的普及促进了配用电大数据的发展。通过对用户用电数据的挖掘和用电特性的感知,能够有效识别用户用电模式、评估需求响应潜力、指导电价制定等。然而,用户用电数据一方面随时间不断更新,增长迅速,呈海量态势;另一方面,数据采集点分布在用户侧,具有极强的分散性。针对海量、分散的用电数据带来的挑战,文中提出一种新的分布式聚类算法。首先利用自适应k-means聚类算法对分布在各区域的用电数据进行局部聚类分析,提取各局部数据的典型负荷曲线,构建局部模型;然后利用传统聚类算法对获取的局部模型进行二次聚类分析,获取全局的典型负荷曲线,构建全局模型;最后向局部数据中心反馈全局聚类结果,实现全局聚类分析。通过爱尔兰实际量测用电数据证明了所提出算法的有效性。 展开更多
关键词 分布式聚类 自适应k-means 聚类算法 大数据 负荷曲线 态势感知
下载PDF
计及分布式电源与电容器协调的配电网日前无功计划 被引量:34
3
作者 谭煌 张璐 +4 位作者 丛鹏伟 唐巍 耿光飞 杨德昌 李绚丽 《电网技术》 EI CSCD 北大核心 2014年第9期2590-2597,共8页
针对目前含分布式电源(distributed generation,DG)的配电网中未考虑电容器补偿容量和DG无功出力协调调度的问题,研究了考虑DG与电容器组协调的无功优化方法。以网损和电压偏移满意度最高为目标,构建含DG的配电网日前动态无功优化调度... 针对目前含分布式电源(distributed generation,DG)的配电网中未考虑电容器补偿容量和DG无功出力协调调度的问题,研究了考虑DG与电容器组协调的无功优化方法。以网损和电压偏移满意度最高为目标,构建含DG的配电网日前动态无功优化调度模型。根据DG无功出力和电容器补偿的特点,提出DG和电容器协调的日前无功计划方法。分析了各类DG的无功出力极限并作为约束条件,对电容器和DG进行整体静态优化得到电容器的投切容量曲线;其次采用模糊聚类对电容器投切曲线进行时序分段并融合,制定电容器的日前计划;最后,在电容器补偿容量确定后,以DG作为优化变量,制定DG出力的日前计划。仿真结果验证了所提方法的有效性。 展开更多
关键词 配电网 分布式电源 日前无功计划 协调优化 模糊聚类
下载PDF
计及不确定性和环境因素的多类型分布式电源选址定容 被引量:28
4
作者 初壮 李钊 白望望 《电力系统保护与控制》 EI CSCD 北大核心 2017年第13期34-41,共8页
分布式风电源和光伏电源因风速和太阳辐照度的随机性存在出力不确定性的特点,且配电网负荷水平也存在不恒定的特性。在进行配电网规划时,该不确定性对配电网具有不可忽视的影响。将这种不确定性计及到分布式电源的优化配置问题当中,运... 分布式风电源和光伏电源因风速和太阳辐照度的随机性存在出力不确定性的特点,且配电网负荷水平也存在不恒定的特性。在进行配电网规划时,该不确定性对配电网具有不可忽视的影响。将这种不确定性计及到分布式电源的优化配置问题当中,运用场景划分的方法将一年中配电网的运行状态划分成8760个小时场景,并采用改进K-means聚类方法对场景进行聚类。以计及环境因素在内的年综合费用最小为目标函数,采用改进粒子群算法对多类型分布式电源进行选址定容规划。最后采用配电网系统算例进行仿真分析,验证了该优化配置模型和方法的有效性。 展开更多
关键词 分布式电源 不确定性 场景划分 聚类 环境因素
下载PDF
基于分位数半径动态K-means的分布式负荷聚类算法 被引量:27
5
作者 刘季昂 刘友波 +1 位作者 程明畅 余莉娜 《电力系统保护与控制》 EI CSCD 北大核心 2019年第24期15-22,共8页
针对电力负荷曲线聚类中传统的K-means算法对初始值敏感以及需给定类数目的缺陷,将一种基于分位数半径的动态K-means算法应用到日负荷曲线的聚类分析中,并进行了分布式的改进以优化计算效率。此算法结合了两种思想:分布式聚类中的局部... 针对电力负荷曲线聚类中传统的K-means算法对初始值敏感以及需给定类数目的缺陷,将一种基于分位数半径的动态K-means算法应用到日负荷曲线的聚类分析中,并进行了分布式的改进以优化计算效率。此算法结合了两种思想:分布式聚类中的局部聚类与全局聚类,以及层次K-means中以多次k取定值时K-means运算所得到的中心点来表示该类。将多次的K-means运算分配到不同子站点,并使每次K-means运算中k不断改变。再从类的几何特征出发,引入了分位数半径的概念,规定样本点与各类中心点间距的分位数表示该类的半径,于主站点中对各类的中心点间距与类的半径进行大小比较,并进行筛选融合来获得新的类,从而实现较为快速地识别类数目,并且得到新的聚类初始中心与结果。最终以某地区606个用户某月的日负荷数据为研究对象,验证了该算法在电力负荷曲线聚类分析中的有效性。 展开更多
关键词 电力大数据 聚类分析 负荷曲线聚类 分位数半径 分布式聚类
下载PDF
一种基于局部密度的分布式聚类挖掘算法 被引量:19
6
作者 倪巍伟 陈耿 +1 位作者 吴英杰 孙志挥 《软件学报》 EI CSCD 北大核心 2008年第9期2339-2348,共10页
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的... 分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的. 展开更多
关键词 分布式聚类 局部密度聚类局部聚类模型 密度吸引子 高维数据
下载PDF
基于云计算技术的电力大数据分布式检索系统 被引量:23
7
作者 杜红军 李巍 +1 位作者 张文杰 于海 《电网与清洁能源》 2018年第9期19-24,共6页
为了提高电力大数据定位识别和信息融合能力,进行电力大数据检索优化设计,提出一种基于云计算技术的电力大数据检索系统设计方法,采用多元回归分析方法构建电力大数据库存储结构模型,进行电力大数据的分布式存储数据结构特征分析,对混... 为了提高电力大数据定位识别和信息融合能力,进行电力大数据检索优化设计,提出一种基于云计算技术的电力大数据检索系统设计方法,采用多元回归分析方法构建电力大数据库存储结构模型,进行电力大数据的分布式存储数据结构特征分析,对混合型的电力大数据在云计算环境下进行信息聚类融合处理,采用模糊特征分组聚类方法对不同属性的电力大数据进行分组检测,提取电力大数据的关联规则特征量,采用云计算技术实现电力大数据分布式检索。在嵌入式环境下进行电力大数据分布式检索系统软件设计。仿真结果表明,采用该方法进行电力大数据检索的特征指向性较好,数据检索的数据召回率较高。 展开更多
关键词 云计算技术 电力大数据 分布式检索 聚类 多元回归分析
下载PDF
基于向量内积不等式的分布式k均值聚类算法 被引量:15
8
作者 倪巍伟 陆介平 孙志挥 《计算机研究与发展》 EI CSCD 北大核心 2005年第9期1493-1497,共5页
聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这... 聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这一问题的有效方法.在已有分布式聚类算法kDMeans基础上,结合向量内积不等式关系对算法加以优化,提出分布式聚类算法kDCBIP.理论分析和实验结果表明,算法kDCBIP优于kDMeans,可以有效地解决大数据集聚类问题,算法是有效可行的. 展开更多
关键词 分布式聚类 数据点的模 向量内积 向量内积不等式
下载PDF
面向分布式电源就地消纳的园区分时电价定价方法 被引量:21
9
作者 刘敦楠 徐尔丰 +3 位作者 刘明光 周保中 应昱杭 俞秦博 《电力系统自动化》 EI CSCD 北大核心 2020年第20期19-28,共10页
在能源互联网的背景下,园区运营商首先对内利用分布式电源满足园区用电需求,然后对外进行不平衡能量交换。园区运营商通过制定差异化分时电价套餐,挖掘园区用户的需求响应潜力,能够促进分布式电源就地消纳,优化园区内外交换负荷,对此提... 在能源互联网的背景下,园区运营商首先对内利用分布式电源满足园区用电需求,然后对外进行不平衡能量交换。园区运营商通过制定差异化分时电价套餐,挖掘园区用户的需求响应潜力,能够促进分布式电源就地消纳,优化园区内外交换负荷,对此提出一种园区分时电价定价方法。首先,综合考虑园区用户的用电负荷和需求响应特征,基于谱聚类算法形成园区用户群体;然后,根据园区用户群体的用电负荷特征,基于k-means聚类算法确定分时时段;最后,构建园区分时电价定价优化模型,形成面向不同园区用户群体的差异化分时电价套餐。根据算例分析可知,基于该方法制定园区分时电价,能够有效提高园区分布式电源的就地消纳率和综合利用效率、与外部电网的友好程度和整体经济性。 展开更多
关键词 能源互联网 分布式电源 需求响应 分时电价 谱聚类
下载PDF
一种基于分层聚合的分布式异常数据检测方案 被引量:20
10
作者 许春杰 吴蒙 杨立君 《计算机工程》 CAS CSCD 北大核心 2020年第4期213-219,共7页
在无线传感器网络中,由于传感器节点的带宽、功率、计算能力有限,传统的集中式方案难以区分海量数据中的异常数据.为解决此问题,提出一种基于多层分布式无线传感器网络的异常数据检测方案.在节点层级采用K-Means++算法对数据进行聚类,... 在无线传感器网络中,由于传感器节点的带宽、功率、计算能力有限,传统的集中式方案难以区分海量数据中的异常数据.为解决此问题,提出一种基于多层分布式无线传感器网络的异常数据检测方案.在节点层级采用K-Means++算法对数据进行聚类,执行簇合并算法以减少数据传输量,在网关节点执行基于KNN的异常簇检测算法,将正常簇信息返回至底层节点进行局部检测,从而区分异常数据.在高斯数据集与IBRL数据集上的实验结果表明,该方案检测率高于98%,且能显著降低通信消耗. 展开更多
关键词 异常检测 无监督学习 无线传感器网络 分布式处理 聚类
下载PDF
严重通信故障下主动配电系统分布式电源应急运行策略优化 被引量:19
11
作者 刘文霞 马铁 +1 位作者 杨梦瑶 黄钰辰 《中国电机工程学报》 EI CSCD 北大核心 2020年第3期754-764,共11页
高渗透率主动配电网对信息系统产生深度依赖,为降低通信故障下电网状态的状态波动,该文提出一种主动配电网分布式电源应急运行策略优化方法。首先,考虑通信故障对主动配电网运行状态影响的可能性和后果,提出基于结构修正的状态脆弱性的... 高渗透率主动配电网对信息系统产生深度依赖,为降低通信故障下电网状态的状态波动,该文提出一种主动配电网分布式电源应急运行策略优化方法。首先,考虑通信故障对主动配电网运行状态影响的可能性和后果,提出基于结构修正的状态脆弱性的综合表征方法。以综合脆弱性最小为目标,建立通信故障下分布式电源与储能离线运行策略的优化模型,并基于自适应聚类算法典型场景集和改进智能单粒子算法进行模型求解。算例结果表明,通信故障下分布式能源采用离线上限受控下的注入策略,可以有效降低系统的运行脆弱性,为主动配电网的安全运行提供了新的思路。 展开更多
关键词 主动配电网 分布式电源 脆弱性分析 ISODATA聚类 智能单粒子算法
下载PDF
BPEC:无线传感器网络中一种能量感知的分布式分簇算法 被引量:17
12
作者 周新莲 吴敏 徐建波 《计算机研究与发展》 EI CSCD 北大核心 2009年第5期723-730,共8页
无线传感器网络的大面积铺设以及数据融合的需求,促使必须有效地组织网络的拓扑结构,以达到均衡负载、延长网络的生命周期的目标.分簇已被证实是将网络组织成层次相连结构的有效方式.提出了一种新的以邻居节点的平均剩余能量与节点本身... 无线传感器网络的大面积铺设以及数据融合的需求,促使必须有效地组织网络的拓扑结构,以达到均衡负载、延长网络的生命周期的目标.分簇已被证实是将网络组织成层次相连结构的有效方式.提出了一种新的以邻居节点的平均剩余能量与节点本身的剩余能量的比值作为竞争簇头的主要参数,以节点的"度"作为节点竞争簇头辅助参数的节能分布式分簇算法BPEC.如果执行BPEC算法,整个网络的广播消息量复杂度为O(n),整个网络的时间复杂度为O(1).证明了由BPEC算法产生的簇头集合是一个最大独立集,簇头集合能覆盖网络的所有节点.当节点足够多时,仿真实验结果表明,簇头集合的尺寸大小与理论推导值十分接近. 展开更多
关键词 无线传感器网络 能量感知 分布式计算 分簇算法 连通支配集
下载PDF
DCAD:a Dual Clustering Algorithm for Distributed Spatial Databases 被引量:15
13
作者 ZHOU Jiaogen GUAN Jihong LI Pingxiang 《Geo-Spatial Information Science》 2007年第2期137-144,共8页
Spatial objects have two types of attributes: geometrical attributes and non-geometrical attributes, which belong to two different attribute domains (geometrical and non-geometrical domains). Although geometrically... Spatial objects have two types of attributes: geometrical attributes and non-geometrical attributes, which belong to two different attribute domains (geometrical and non-geometrical domains). Although geometrically scattered in a geometrical domain, spatial objects may be similar to each other in a non-geometrical domain. Most existing clustering algorithms group spatial datasets into different compact regions in a geometrical domain without considering the aspect of a non-geometrical domain. However, many application scenarios require clustering results in which a cluster has not only high proximity in a geometrical domain, but also high similarity in a non-geometrical domain. This means constraints are imposed on the clustering goal from both geometrical and non-geometrical domains simultaneously. Such a clustering problem is called dual clustering. As distributed clustering applications become more and more popular, it is necessary to tackle the dual clustering problem in distributed databases. The DCAD algorithm is proposed to solve this problem. DCAD consists of two levels of clustering: local clustering and global clustering. First, clustering is conducted at each local site with a local clustering algorithm, and the features of local clusters are extracted clustering is obtained based on those features fective and efficient. Second, local features from each site are sent to a central site where global Experiments on both artificial and real spatial datasets show that DCAD is effective and efficient. 展开更多
关键词 distributed clustering dual clustering distributed spatial database
下载PDF
海量遥感数据分布式集群化存储技术研究 被引量:17
14
作者 季艳 鲁克文 张英慧 《计算机科学与探索》 CSCD 北大核心 2017年第9期1398-1404,共7页
针对当前高分辨率遥感数据的高效存储与高速访问迫切需求,采用分布式架构、对象存储和集群技术,结合遥感数据的空间特性,构建了基于数据对象的存储组织模型,设计了全分布式的存储管理架构;形成了逻辑上全球覆盖,物理上分散存储,全球遥... 针对当前高分辨率遥感数据的高效存储与高速访问迫切需求,采用分布式架构、对象存储和集群技术,结合遥感数据的空间特性,构建了基于数据对象的存储组织模型,设计了全分布式的存储管理架构;形成了逻辑上全球覆盖,物理上分散存储,全球遥感数据存储视图一体化,数据高效共享的分布式集群化遥感大数据存储体系。通过使用此架构,可实现遥感数据资源配置的灵活化,业务区域化特征的定制化与个性化,以及管理系统的智能化。 展开更多
关键词 遥感数据 高性能存储 分布式集群化 对象存储
下载PDF
计及源荷相关性含电动汽车的分布式电源选址定容规划 被引量:17
15
作者 龙川 张文涛 +6 位作者 叶圣永 雍友 韩宇奇 刘旭娜 赵达维 刘洁颖 王司琪 《热力发电》 CAS 北大核心 2020年第6期97-104,共8页
分布式电源大规模并入电网与电动汽车的广泛应用在优化能源结构的同时,也给配电网的选址定容规划带来新的挑战。本文通过拉丁超立方抽样并结合Cholesky分解和Nataf变换,得到具有相关性的风速、光照强度与需求负荷样本;利用蒙特卡洛模拟... 分布式电源大规模并入电网与电动汽车的广泛应用在优化能源结构的同时,也给配电网的选址定容规划带来新的挑战。本文通过拉丁超立方抽样并结合Cholesky分解和Nataf变换,得到具有相关性的风速、光照强度与需求负荷样本;利用蒙特卡洛模拟得到具有随机性的电动汽车充电负荷,与考虑不确定因素的风光荷样本相结合,由K-means聚类方法进行场景聚类得到典型的运行场景;利用机会约束规划方法建立规划模型,并以收缩因子粒子群优化算法求解;通过典型IEEE 33节点算例分析了风光荷相关性与电动汽车不同充电方式对规划方案的影响。结果表明:电动汽车用户选择常规充电方式能够降低电网负荷;考虑风力、光伏与负荷之间的相关性,得到的规划方案将更经济且更具有指导意义。 展开更多
关键词 分布式电源 电动汽车 选址定容 风电 光伏 负荷 相关性 场景聚类
下载PDF
分布式环境中聚类问题算法研究综述 被引量:13
16
作者 海沫 张书云 马燕林 《计算机应用研究》 CSCD 北大核心 2013年第9期2561-2564,共4页
传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式... 传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式聚类算法进行了分类,然后对每类算法的基本思想和优缺点进行了比较,最后采用Iris和Wine两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。 展开更多
关键词 集中式聚类 分布式聚类 聚类精度 聚类时间
下载PDF
基于改进粒子群算法的分布式光伏及储能系统优化配置 被引量:8
17
作者 胡祖源 靳现林 +1 位作者 谭雅之 樊静宜 《综合智慧能源》 CAS 2023年第1期49-57,共9页
“碳达峰、碳中和”目标的提出要求进一步推进分布式电源接入配电网,针对分布式光伏并网引起的不确定性问题,研究了分布式光伏及储能的优化配置,采用系统聚类筛选光伏的典型出力场景用于储能规划,综合考虑场景的经济效益、负荷的波动及... “碳达峰、碳中和”目标的提出要求进一步推进分布式电源接入配电网,针对分布式光伏并网引起的不确定性问题,研究了分布式光伏及储能的优化配置,采用系统聚类筛选光伏的典型出力场景用于储能规划,综合考虑场景的经济效益、负荷的波动及削峰填谷率等,建立光伏及储能优化配置的混合整型非线性规划模型。采用自适应粒子群算法进行求解,分析不同负荷、不同电价时段对储能容量配置及系统运行的影响。算例结果表明,引入储能系统后可有效平抑光伏出力的不确定性,优化负荷曲线,同时提高系统的整体运行性能,验证了模型的可行性与求解方法的有效性。 展开更多
关键词 碳中和 分布式光伏 储能系统 系统聚类 改进粒子群算法 容量配置 分布式电源 配电网
下载PDF
一种基于密度的分布式聚类算法 被引量:10
18
作者 郑苗苗 吉根林 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第5期536-543,共8页
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低... 对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好. 展开更多
关键词 聚类 分布式聚类 基于密度的聚类算法(DBSCAN) 分布式聚类算法(DBDC)
下载PDF
分布式数据库系统中数据分布模型的研究与建立(英文) 被引量:8
19
作者 刘广钟 刘方鑫 施小龙 《小型微型计算机系统》 CSCD 北大核心 2001年第1期7-10,共4页
本文分析了分布式数据库系统中 ,数据分段与分布等问题 ,提出了动态调整数据分布的算法 ,并给出了详细的论述 .
关键词 分布式数据库系统 数据分布模型 算法 数据分段
下载PDF
基于ISE算法的分布式ETL任务调度策略研究 被引量:12
20
作者 王卓昊 杨冬菊 徐晨阳 《计算机科学》 CSCD 北大核心 2019年第12期1-7,共7页
随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,... 随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度。在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调度优先级。在任务调度分配阶段,调度器根据各个执行器节点的性能及负载情况来约束执行器节点的选择,并设计贪心平衡(Greedy Balance,GB)算法来进行ETL任务执行请求的分发,使执行器节点的负载相对均衡。在任务执行阶段,通过高响应比优先(Highest Response Ratio Next,HRRN)算法确定执行器节点队列下任务的执行优先级。实验结果表明,分布式ETL任务调度框架及相应的一体化调度执行(Integrated Scheduling Execution,ISE)算法能够有效提高集群资源的利用率,缩短任务调度的执行时间。 展开更多
关键词 任务调度 负载均衡 动态分配 分布式集群 ETL 数据集成
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部