期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
深度置信网络的Spark并行化在微博情感分类中的应用研究 被引量:5
1
作者 张翔 石力 +1 位作者 尚勃 董丽丽 《计算机应用与软件》 北大核心 2018年第2期48-53,共6页
中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情... 中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情感分类模型;通过Spark集群对深度置信神经网络进行并行化处理。实验结果表明,基于深度置信网络的微博情感分类模型在Spark平台下并行化,训练时间大幅缩短,情感分类的准确率比传统的浅层学习方法高5%。 展开更多
关键词 中文微博 情感分析 深度置信 网络spark并行化
下载PDF
Smith-Waterman算法优化改进与Spark并行化研究 被引量:2
2
作者 李雷孝 刘燕凤 高静 《内蒙古农业大学学报(自然科学版)》 CAS 北大核心 2019年第5期76-85,共10页
Smith-Waterman算法是1种精确度最高、广泛应用于文本搜索的生物学序列比对算法。在对Smith-Waterman算法深入研究的基础上,从减少计算任务量和降低计算复杂度两个方面对算法进行优化改进,将优化改进算法基于Spark平台进行算法并行化设... Smith-Waterman算法是1种精确度最高、广泛应用于文本搜索的生物学序列比对算法。在对Smith-Waterman算法深入研究的基础上,从减少计算任务量和降低计算复杂度两个方面对算法进行优化改进,将优化改进算法基于Spark平台进行算法并行化设计,并通过准确性测试、算法运行速度测试、算法速度比较测试、算法可扩展性测试等实验分析优化改进算法和并行化算法的性能。实验结果表明:优化改进和并行化后的算法在保证准确性的前提下,极大地提高了算法运行速度和可扩展性。 展开更多
关键词 基因序列比对 SMITH-WATERMAN算法 优化改进 spark并行化
原文传递
Spark并行化改进的SDKB-DBSCAN聚类算法
3
作者 史爱武 尹杰 范平 《现代计算机》 2021年第14期14-20,37,共8页
DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark... DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark Density Division Kernel Density Estimation Boundary Stategy-Density-based Spatial Clustering of Applications with Noise)改进算法,设计Spark缓存机制结合不规则动态分区和边界合并以及核密度估计并行化。实验表明,改进算法一般适用不同形状类簇和较大规模数据聚类,在准确率和计算速率上有一定提升。 展开更多
关键词 DBSCAN算法 spark并行化 动态分区 核密度估计 缓存机制
下载PDF
基于Spark的近地表速度模型快速层析反演 被引量:5
4
作者 陈金焕 《石油物探》 CSCD 北大核心 2022年第1期146-155,共10页
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近... 近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。 展开更多
关键词 近地表层析反演 迭代计算 spark并行 弹性分布式数据集 规约基本单元
下载PDF
利用数据变换与并行运算的闭频繁项集挖掘方法 被引量:12
5
作者 党红恩 赵尔平 +1 位作者 刘炜 雒伟群 《湘潭大学自然科学学报》 CAS 2018年第1期119-122,共4页
针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成... 针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费. 展开更多
关键词 闭频繁项集 大数据挖掘 质数对数变换 spark并行计算框架
下载PDF
基于Spark计算框架的路网核密度估计并行算法 被引量:7
6
作者 郭宇达 朱欣焰 +1 位作者 呙维 佘冰 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2020年第2期289-295,共7页
路网核密度估计是路网约束下针对事件点的聚类分析方法,常用于研究交通事故、城市犯罪、车辆轨迹等事件的空间分布模式。传统单机串行的路网核密度估计算法在小数据量条件下的运行效率较高,但随着数据量的增加,算法性能显著下降,无法满... 路网核密度估计是路网约束下针对事件点的聚类分析方法,常用于研究交通事故、城市犯罪、车辆轨迹等事件的空间分布模式。传统单机串行的路网核密度估计算法在小数据量条件下的运行效率较高,但随着数据量的增加,算法性能显著下降,无法满足实际应用需求。针对路网核密度估计中的道路网分割和核密度计算,设计并实现了基于Spark计算框架的高效并行算法。以交通事故为例,通过4组实验进行对比分析。结果表明,基于Spark计算框架的路网核密度估计并行算法具有较高的运算效率,并具备良好的可拓展性。 展开更多
关键词 路网约束 核密度分析 spark并行计算 空间聚类 事故分析
原文传递
基于Spark大数据计算模型的多种群并行进化遗传算法 被引量:2
7
作者 任刚 吴长茂 +3 位作者 魏勇 刘小杰 郜广兰 王鲜芳 《河南工学院学报》 CAS 2021年第3期26-32,共7页
由于经典SPGA缺乏多种群并行进化能力,当问题规模较大时,计算效率偏低。为此,深入研究Spark大数据计算模型并行机制与多种群并行进化机制的潜在关系,将多种群并行进化机制引入经典SPGA,形成一种新的SPGA——MPE-SPGA;将提出的算法应用于... 由于经典SPGA缺乏多种群并行进化能力,当问题规模较大时,计算效率偏低。为此,深入研究Spark大数据计算模型并行机制与多种群并行进化机制的潜在关系,将多种群并行进化机制引入经典SPGA,形成一种新的SPGA——MPE-SPGA;将提出的算法应用于TSP,选取EIL51、CH130和TSP225三种数据集,分别代表小型、中型和大型数据集。实验结果表明,提出的MPE-SPGA在小型数据集上计算时间比原算法减少3%,计算性能有小幅提升;在中型和大型数据集上,计算时间分别减少了22%和31%,性能提升显著。 展开更多
关键词 spark计算模型 并行遗传算法 多种群并行进化 旅行商问题 大数据
下载PDF
串行式混合类型航道船舶交通组织优化 被引量:1
8
作者 王志强 张新宇 +1 位作者 李倍莹 王婧贇 《计算机应用与软件》 北大核心 2023年第2期26-32,39,共8页
随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类... 随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类子航道间通航模式切换、港池连接水域船舶交通冲突消解等为约束的串行式简单混合类型航道船舶交通组织优化模型。基于Spark并行计算框架,结合NSGA-II算法遗传操作天然并行性特点,提出一种Spark分布式多目标遗传算法,将全部种群分散在多节点上并行执行算法的遗传操作。实验表明,提出的算法具有较快的收敛速度和较好的稳定性,模型求解出的优化方案合理、有效。 展开更多
关键词 混合类型航道 船舶交通组织优化 分布式多目标遗传算法 spark并行计算框架
下载PDF
基于大数据的设备能耗异常分析模型研究
9
作者 张俊丽 《自动化与仪器仪表》 2023年第6期31-34,39,共5页
为进一步分析设备能耗异常问题,以及面向海量的能耗数据,在提取能耗特征数据基础上,提出改进注意力机制结合Bi-LSTM的能耗异常分类模型,然后将分类模型部署到Spark并行框架中,以提高其海量数据的能力。结果表明,在引入能耗特征的分类模... 为进一步分析设备能耗异常问题,以及面向海量的能耗数据,在提取能耗特征数据基础上,提出改进注意力机制结合Bi-LSTM的能耗异常分类模型,然后将分类模型部署到Spark并行框架中,以提高其海量数据的能力。结果表明,在引入能耗特征的分类模型上,其准确率为95.11%,高于只以原始数据作为数据的分类模型;引入注意力机制的Bi-LSTM对能耗的分类准确率明显高于Bi-LSTM,准确率达97.76%。同时通过Spark并行框架运行,可实时监测能耗异常问题。由此通过以上构建,得出本研究构建的分析模型及平台可行,可在企业设备能耗监测中应用。 展开更多
关键词 能耗异常 分类模型 Bi-LSTM spark并行框架
原文传递
大规模数据集Spark并行优化谱聚类
10
作者 吕洪林 尹青山 《测绘通报》 CSCD 北大核心 2019年第12期96-100,共5页
针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题,基于当前批处理和图计算兼顾的Spark并行技术,提出了大规模数据集谱聚类的并行优化改进算法,算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算,通过并行位... 针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题,基于当前批处理和图计算兼顾的Spark并行技术,提出了大规模数据集谱聚类的并行优化改进算法,算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算,通过并行位置变换、标量乘法替换及距离缩放优化算法的资源占用,通过近似特征向量替代进一步优化算法的计算量。试验结果验证了算法近特征向量的有效性及在大规模数据集下良好聚类性能和扩展性。 展开更多
关键词 大规模集谱聚类 近似特征向量 spark并行框架 K-means距离计算 优化
下载PDF
复杂属性条件下基于Spark的clique社区搜索算法
11
作者 佘鑫 何震瀛 《计算机工程》 CAS CSCD 北大核心 2021年第12期54-61,70,共9页
现有的社区搜索算法难以在网络中找到满足给定复杂属性条件的社区。同时,随着网络规模的不断扩大,单机串行的社区搜索算法也已无法有效地处理大规模的网络数据。针对复杂属性条件下的clique社区搜索问题,提出一种基于Spark的搜索算法。... 现有的社区搜索算法难以在网络中找到满足给定复杂属性条件的社区。同时,随着网络规模的不断扩大,单机串行的社区搜索算法也已无法有效地处理大规模的网络数据。针对复杂属性条件下的clique社区搜索问题,提出一种基于Spark的搜索算法。在Spark并行计算框架的基础上,结合图的结构特征和内容属性,根据由布尔表达式定义的复杂属性条件采取不同的搜索策略,搜索时利用属性的搜索成本和扩展成本进行局部优化,从而加快搜索过程。实验结果表明,与结构优先或属性优先的社区搜索算法相比,该算法在不同属性条件、网络规模和节点数目的情况下均能保证搜索准确性并提高搜索效率。 展开更多
关键词 社区搜索 复杂属性条件 布尔表达式 spark并行计算框架 clique结构
下载PDF
基于车牌识别流数据的伴随车辆发现算法 被引量:4
12
作者 王路辉 王桂玲 《计算机工程》 CAS CSCD 北大核心 2017年第8期193-199,共7页
针对伴随车辆发现及其实时性问题,基于随时间变化的车牌识别流数据,提出一种采用并行频繁项集发现(PFID)技术的伴随车辆组实时发现算法。该算法根据频繁项挖掘Eclat算法的思想,并利用分布式流数据处理框架Spark Streaming生成最大伴随... 针对伴随车辆发现及其实时性问题,基于随时间变化的车牌识别流数据,提出一种采用并行频繁项集发现(PFID)技术的伴随车辆组实时发现算法。该算法根据频繁项挖掘Eclat算法的思想,并利用分布式流数据处理框架Spark Streaming生成最大伴随车辆组。实验结果表明,与排列组合算法及FP-Growth算法相比,PFID算法消耗内存更少,响应时间更短,在秒级响应时间内能找到伴随车辆组,达到及时预警目的。 展开更多
关键词 智能交通系统 车牌自动识别流数据 伴随车辆组 spark Streaming并行框架 DStream模型 Eclat算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部