期刊文献+
共找到82篇文章
< 1 2 5 >
每页显示 20 50 100
基于GPU并行的重力、重力梯度三维正演快速计算及反演策略 被引量:45
1
作者 陈召曦 孟小红 +1 位作者 郭良辉 刘国峰 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2012年第12期4069-4077,共9页
利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物... 利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物性模型进行组合近似,利用解析方法计算出所有物性模型在计算点的异常值并累加求和,得到整个模型体在某一计算点引起的重力(或重力梯度)值.针对精细的复杂模型体产生的问题,采用GPU并行计算技术,主要包括线程有效索引与优化的并行归约技术进行高效计算.在显卡型号为NVIDIAQuadro 2000相对于单线程CPU程序,重力和重力梯度Uxx、Uxy正演计算可以分别达到60与50倍的加速.本文还讨论了GPU并行计算在两种反演方法中的策略,为快速三维反演技术提供了借鉴. 展开更多
关键词 GPU CUDA 正演计算 重力 重力梯度 加速比
下载PDF
分布存储系统上一种新的并行调度算法 被引量:4
2
作者 卢光辉 孙世新 《计算机研究与发展》 EI CSCD 北大核心 2001年第2期223-227,共5页
在一般的分布存储系统上各个处理器可能不同且资源共享 ,导致了并行任务在各个处理器上的执行时间具有很大的随机性 ,主要根据系统及并行任务特性等引进特征参数 ,采用计算与通信重叠等方法设计出了一种新的并行调度算法 ,即使在多用户... 在一般的分布存储系统上各个处理器可能不同且资源共享 ,导致了并行任务在各个处理器上的执行时间具有很大的随机性 ,主要根据系统及并行任务特性等引进特征参数 ,采用计算与通信重叠等方法设计出了一种新的并行调度算法 ,即使在多用户环境下应用此算法不仅能达到极高的负载平衡 ,充分利用系统资源而且能有效地提高并行效率及加速比 .实验结果表明 。 展开更多
关键词 负载平衡 加速比 并行调度算法 分布存储系统
下载PDF
CPU-GPU并行矩阵乘法的实现与性能分析 被引量:11
3
作者 程豪 张云泉 +1 位作者 张先轶 李玉成 《计算机工程》 CAS CSCD 北大核心 2010年第13期24-26,29,共4页
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过... 实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。 展开更多
关键词 混合并行 GPU技术 DGEMM程序 加速比
下载PDF
PC Cluster技术的国内外现状与发展趋势 被引量:7
4
作者 张军华 雷凌 仝兆岐 《石油物探》 EI CSCD 2003年第4期557-561,共5页
PCCluster技术是目前地球物理界非常关注的热点问题 ,国内外许多地震资料处理、解释中心都在致力于此项技术的研究和开发工作 ,并已经在叠前深度偏移、全三维可视化解释等方面得到初步应用。通过大量的文献调研和前一阶段项目研究工作... PCCluster技术是目前地球物理界非常关注的热点问题 ,国内外许多地震资料处理、解释中心都在致力于此项技术的研究和开发工作 ,并已经在叠前深度偏移、全三维可视化解释等方面得到初步应用。通过大量的文献调研和前一阶段项目研究工作的总结 ,对PCCluster的硬件特点、计算性能、软件环境等技术特征进行了扼要的阐述 ,对此项技术的国内外发展现状和地球物理领域开展PCCluster研究的必要性等问题作了较系统的总结 ,并重点结合自行开发的微机集群 ,对PCCluster技术的硬件环境、并行编译系统和应用效率作了较详细的探讨。最后阐述了PCCluster技术目前存在的问题和今后将面临的挑战。 展开更多
关键词 油田 地震勘探 地震资料处理 PCCluster技术 微机集群
下载PDF
基于CTR模式的GPU并行AES算法的研究与实现 被引量:8
5
作者 费雄伟 李肯立 阳王东 《小型微型计算机系统》 CSCD 北大核心 2015年第3期529-533,共5页
为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平... 为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平台理论分析了CTR模式的并行AES算法和串行AES算法的时间复杂度,得到综合的加速比为31.59,然后在Nvidia Geforce GTX 460平台上实验运行,结果显示CTR模式的AES-256的GPU并行算法相对串行CTR模式的AES算法,实验加速比跟理论加速比基本吻合.在此基础上,对CTR模式的AES-256进行了优化.实验结果显示,优化的CTR模式的AES-256并行算法在加速比上随着明文的增大提升的比例渐渐减少并趋于稳定.优化的CTR模式的AES算法加密数据量小的明文时,其优化效果更为明显,故能有效地提升SSL(Secure Socket Layer,其明文区间为35KB-150KB)的加密性能. 展开更多
关键词 计数器模式 GPU并行 时间复杂度 加速比 统一计算架构
下载PDF
一种基于阵列配置加速比模型的无损压缩算法 被引量:8
6
作者 徐金甫 刘露 +2 位作者 李伟 王周闯 杨宇航 《电子与信息学报》 EI CSCD 北大核心 2018年第6期1492-1498,共7页
针对现有压缩算法通过增加复杂度来降低压缩率,获得信息高效传输的问题。该文提出阵列配置加速比模型,证明低压缩率不一定能提高传输效率,并找到影响信息传输效率的因子,即解压模块吞吐率和数据块压缩率。将影响因子与配置信息特征结合... 针对现有压缩算法通过增加复杂度来降低压缩率,获得信息高效传输的问题。该文提出阵列配置加速比模型,证明低压缩率不一定能提高传输效率,并找到影响信息传输效率的因子,即解压模块吞吐率和数据块压缩率。将影响因子与配置信息特征结合,设计了一种新的无损压缩算法,并硬件实现了解压模块,吞吐率可达到16.1 Gbps。采用AES,A5-1和SM4对无损压缩算法进行测试,然后与主流无损压缩算法LZW,Huffman,LPAQ1和Arithmetic对比。结果表明,整体压缩率相当,但该文压缩算法产生的数据块压缩率经过优化,不仅能满足加速需求,且具有高吞吐率的解压性能;该文无损压缩算法获得的配置加速比,比硬件吞吐率理想情况下的LPAQl,Arithmetic,Huffman,LZW算法分别高8%,9%,10%,22%左右。 展开更多
关键词 阵列 配置加速比 无损压缩 吞吐率 压缩率
下载PDF
基于多GPU数值框架的流域地表径流过程数值模拟
7
作者 冯新政 张大伟 +1 位作者 徐海卿 鞠琴 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期48-55,共8页
与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体... 与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体积法离散完整二维浅水方程组建立模型,通过消息传递接口(message passing interface,MPI)与统一计算设备架构(compute unified device architecture,CUDA)相结合的技术实现了基于多图形处理器(graphics processing unit,GPU)的高性能加速计算,采用理想算例和真实流域算例验证模型具有较好的数值计算精度,其中,理想算例中洪峰的相对误差为0.011%,真实流域算例中洪峰的相对误差为2.98%。选取宝盖寺流域为研究对象,分析不同单元分辨率下模型的加速效果,结果表明:在5、2、1 m分辨率下,使用8张GPU卡计算获得的加速比分别为1.58、3.92、5.77,单元分辨率越高,即单元数越多,多GPU卡的加速效果越明显。基于多GPU的水动力模型加速潜力巨大,可为数字孪生流域建设提供有力技术支撑。 展开更多
关键词 水动力模型 地表径流 多GPU Godunov格式 加速比
下载PDF
线云隐私攻击算法的并行加速研究
8
作者 郭宸良 阎少宏 宗晨琪 《计算机工程与科学》 CSCD 北大核心 2024年第4期615-625,共11页
线云定位方法能保护场景隐私,但也存在被隐私攻击算法破解的风险。该攻击算法能从线云恢复近似点云,但其计算效率较低。针对该问题,提出了一种并行优化算法,并对其运行时间和加速比进行了分析。具体来说,分别采用SPMD模式和流水线模式... 线云定位方法能保护场景隐私,但也存在被隐私攻击算法破解的风险。该攻击算法能从线云恢复近似点云,但其计算效率较低。针对该问题,提出了一种并行优化算法,并对其运行时间和加速比进行了分析。具体来说,分别采用SPMD模式和流水线模式实现了CPU多核并行和GPGPU并行。然后,进一步结合数据并行模式实现了异构计算,以达到最高的并行度。实验结果表明,并行优化算法加速比最大为15.11,最小为8.20;相比原算法,并行优化算法的还原点云相对误差控制在原误差的0.4%以内,保证了算法的精度。该研究对线云隐私攻击算法以及其他密度估计问题、不同场景下的线云隐私保护算法等有重要意义和参考价值。 展开更多
关键词 线云隐私安全 异构计算 并行化处理 隐私攻击算法 加速比
下载PDF
存储系统的集中式Cache替换算法 被引量:5
9
作者 罗益辉 谢长生 张成峰 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第11期41-43,共3页
为了最大限度地优化存储系统的I/O性能,通过对存储系统性能的分析,提出一种Cache替换算法———最小访问时间算法(LAT).该算法为Cache中数据对象定义一个排队函数,该函数不仅与对象的Cache命中率有关,还与对象的设备访问速度有关.按照... 为了最大限度地优化存储系统的I/O性能,通过对存储系统性能的分析,提出一种Cache替换算法———最小访问时间算法(LAT).该算法为Cache中数据对象定义一个排队函数,该函数不仅与对象的Cache命中率有关,还与对象的设备访问速度有关.按照此函数,Cache替换访问次数少、设备访问时间短的对象,从而使得存储系统的平均I/O时间最短.实验结果表明,随着设备访问速度差的增加,LAT算法的平均I/O性能远远优于LRU和LFU. 展开更多
关键词 存储系统 Cache替换算法 加速比 数据对象
下载PDF
基于Hadoop平台下SVM的图像识别技术 被引量:5
10
作者 白灵 《现代电子技术》 北大核心 2016年第16期98-101,共4页
针对海量图像的识别技术进行研究,使用SVM算法作为图像识别模型,考虑到随着图像训练样本数据量逐步增大,训练样本呈现指数上升这一问题,在此对基于Hadoop云平台的并行运算SVM方法进行研究,缩短训练时间,加快图像识别效率。使用Corel图... 针对海量图像的识别技术进行研究,使用SVM算法作为图像识别模型,考虑到随着图像训练样本数据量逐步增大,训练样本呈现指数上升这一问题,在此对基于Hadoop云平台的并行运算SVM方法进行研究,缩短训练时间,加快图像识别效率。使用Corel图像库中图像进行实验研究,结果表明,常规单机SVM图像识别系统以及基于Hadoop平台SVM的图像识别系统的识别准确率相差不大。当Hadoop平台中拥有超过2个节点时,加速比明显上升,训练时间下降,Hadoop平台中使用SVM进行图像识别的效率优势体现出来。 展开更多
关键词 HADOOP平台 图像识别 SVM 云计算 加速比
下载PDF
微地形引起的输电线路舞动案例分析 被引量:1
11
作者 董新胜 蔡敏博 +2 位作者 董仲凯 王跃 刘新民 《电工电气》 2023年第9期30-33,37,共5页
输电线路舞动主要由气象、地理、线路结构等因素等造成,其中微地形对风速有重要影响,进而影响到导地线的覆冰及舞动。对处于微地形的某输电线路舞动案例进行了山地风场仿真分析,结果表明附近微地形山丘对该输电线路的风速水平加速比达到... 输电线路舞动主要由气象、地理、线路结构等因素等造成,其中微地形对风速有重要影响,进而影响到导地线的覆冰及舞动。对处于微地形的某输电线路舞动案例进行了山地风场仿真分析,结果表明附近微地形山丘对该输电线路的风速水平加速比达到了1.1,现场勘验发现N5—N6、N6—N7舞动幅值有明显差别,通过对影响舞动的因素分析,表明是由两段档距的大小差异造成的。提出了加装相间间隔棒、增塔缩档的防范措施。 展开更多
关键词 输电线路舞动 微地形 风速 加速比
下载PDF
激波与火焰面相互作用数值模拟的GPU加速 被引量:5
12
作者 蒋华 董刚 陈霄 《计算物理》 CSCD 北大核心 2016年第1期23-29,共7页
为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传... 为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时(1.6×104),GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量(4.2×106),GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径. 展开更多
关键词 激波 火焰界面 GPU 异构系统 加速比
下载PDF
基于向量化的BESO方法灵敏度过滤快速算法 被引量:1
13
作者 包世鹏 宋旭明 唐冕 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第5期1810-1820,共11页
在使用双向渐进式拓扑优化算法(BESO)时,优化结果中常会出现棋盘格和网格依赖的现象。单元灵敏度过滤器是解决此类问题的有效方法,但随着结构规模扩大单元数量增多,计算单元权重因子耗时将十分可观,其原因是计算单元的权重因子数据需进... 在使用双向渐进式拓扑优化算法(BESO)时,优化结果中常会出现棋盘格和网格依赖的现象。单元灵敏度过滤器是解决此类问题的有效方法,但随着结构规模扩大单元数量增多,计算单元权重因子耗时将十分可观,其原因是计算单元的权重因子数据需进行多次循环嵌套,逐一计算单元中心距,串行算法使得计算效率低下。通过结合深度学习训练模型中将数据集进行向量化预处理的思想,对灵敏度过滤计算所需数据进行向量化预处理,并推导了基于向量化的单元灵敏度过滤算法,将逐一的标量运算改进为可并行的矩阵运算。对向量化算法中可能出现的储存空间占用过大的问题,使用稀疏矩阵对储存空间进行优化,提出进一步改进的Sparse算法。通过ABAQUS二次开发实现了改进后的BESO拓扑优化流程,分别使用二维和三维悬臂梁算例进行计算时长验证,结果表明向量化的灵敏度过滤算法的加速比相对于双循环算法最高可达6,Sparse算法的加速比可达8,改进后的算法极大提升了单元权重因子和灵敏度过滤的计算速度。在计算权重因子时,Sparse算法的耗时略高于向量化算法,但在优化总耗时方面,Sparse算法优于向量化算法;当结构规模大单元数过多时,向量化算法可能限于硬件的内存容量无法计算,而Sparse算法则能够正常计算。 展开更多
关键词 向量化 拓扑优化 灵敏度过滤 稀疏矩阵 加速比
下载PDF
一种求解结构动力响应的并行解法 被引量:4
14
作者 余天堂 姜弘道 《河海大学学报(自然科学版)》 CAS CSCD 1999年第3期75-78,共4页
利用直接积分法结合子结构技术和网络并行计算的特点,提出一种求解结构动力响应的网络并行解法.该方法在并行形成各子结构的劲度矩阵、质量矩阵、阻尼矩阵及荷载列阵后,并行进行各子结构的静凝聚,然后采用并行子结构预条件共轭梯度... 利用直接积分法结合子结构技术和网络并行计算的特点,提出一种求解结构动力响应的网络并行解法.该方法在并行形成各子结构的劲度矩阵、质量矩阵、阻尼矩阵及荷载列阵后,并行进行各子结构的静凝聚,然后采用并行子结构预条件共轭梯度法迭代求解结点位移,从而确定结构的动响应.算例表明,随着子结构内点数和时间积分步数的增加,能获得较高的加速比. 展开更多
关键词 动力响应 子结构 网络并行计算 加速比
下载PDF
云计算平台的医院后勤信息管理系统设计 被引量:5
15
作者 张璐 《电子设计工程》 2021年第12期19-22,28,共5页
为了提升医院后勤信息管理效率,设计基于云平台的医院后勤信息管理系统。采用云计算设置了医院后勤信息管理系统架构,并详细设计了动力中心管理模块,通过该模块对医院各种设备进行管理,采用云计算的分布式处理技术对数据管理模块产生的... 为了提升医院后勤信息管理效率,设计基于云平台的医院后勤信息管理系统。采用云计算设置了医院后勤信息管理系统架构,并详细设计了动力中心管理模块,通过该模块对医院各种设备进行管理,采用云计算的分布式处理技术对数据管理模块产生的海量医院后勤管理信息进行分类,进行了具体的仿真测试。测试结果表明,文中系统可以有效对医院后勤信息进行管理,而且管理效率得到了大幅度提升,能够节省医院后勤管理成本,具有较高的实际应用价值。 展开更多
关键词 云计算 信息管理 设备报修 数据聚类 加速比 节省开支
下载PDF
多山地形风场流动数值模拟 被引量:5
16
作者 闫姝 曾崇济 +1 位作者 王晓东 毛凌志 《热力发电》 CAS 北大核心 2020年第6期77-83,共7页
随着风能的不断开发,风电场从平坦地形开始转向复杂地形。复杂地形下的风电场内部流动对风电机组的布机具有决定性的影响。本文针对多种典型复杂地形,包括不同高宽比的孤立山丘地形和带不同深度山谷的双山地形,采用三维数值模拟研究了... 随着风能的不断开发,风电场从平坦地形开始转向复杂地形。复杂地形下的风电场内部流动对风电机组的布机具有决定性的影响。本文针对多种典型复杂地形,包括不同高宽比的孤立山丘地形和带不同深度山谷的双山地形,采用三维数值模拟研究了复杂地形下的绕流场分布,分析了流动形成机理和合理的布机位置。模拟结果显示:山丘的高宽比对山丘顶部的加速比和山丘下游速度恢复有很大影响,山丘地形下的布机需要综合考虑山丘高度和山丘下游的速度恢复距离;连续山丘顶部的加速比减弱,且背风面易形成较大的分离流动;连续山丘之间的山谷有利于减弱连续山丘背风面的流动分离,距离较近的双山之间存在相互影响,山顶的加速效比均比孤立山丘的加速比小;双山之间的山谷较浅时,有利于山顶的加速效果的恢复,但山谷较深时,会增加后山下游的速度恢复距离。 展开更多
关键词 复杂地形 速度廓线 加速比 流动分离 孤立山丘地形 连续山丘地形 数值模拟
下载PDF
等量弧段划分并行缓冲区算法的优化 被引量:4
17
作者 王托弟 赵灵军 +2 位作者 王力哲 陈腊娇 曹倩倩 《遥感信息》 CSCD 北大核心 2016年第4期147-152,共6页
针对矢量缓冲区算法空间关系判断复杂,处理较大数据集时效率低下的问题,提出了基于等量弧段划分的缓冲区并行算法。算法在传统几何实体个数划分法的基础上,以弧段为最小统计单元,将几何要素以近似等量弧段个数划分到各计算节点,在保持... 针对矢量缓冲区算法空间关系判断复杂,处理较大数据集时效率低下的问题,提出了基于等量弧段划分的缓冲区并行算法。算法在传统几何实体个数划分法的基础上,以弧段为最小统计单元,将几何要素以近似等量弧段个数划分到各计算节点,在保持几何实体完整的基础上保障了负载均衡,并使用信息传递接口并行编程模型,通过在集群上部署开源GIS最大软件地理资源分析系统(Geographic Resources Analysis Support System,GRASS)对并行算法进行了验证及性能测试。测试结果表明:基于弧段划分的缓冲区并行算法较传统实体个数划分并行法,在加速比与并行效率方面有良好的优化效果,且整体上可获得较好的并行执行效率。该文提出的弧段划分策略对其他空间矢量分析算法的并行化研究也有一定的借鉴意义。 展开更多
关键词 缓冲区算法 弧段划分 并行 负载均衡 加速比 并行效率
下载PDF
一种串行/并行两用的区域标记算法 被引量:4
18
作者 胡涛 郭宝平 +1 位作者 郭轩 杨欧 《计算机工程》 CAS CSCD 北大核心 2010年第9期17-19,22,共4页
通过设计一种游程与目标体间接关联的数据结构实现游程标记冲突的实时解决,提出一种基于游程的顺序扫描式区域标记算法,只需一次扫描分析即可获取游程区域表达,复杂度低,编码实现方便,易于扩展应用于并行计算系统中进行并行标记。实验... 通过设计一种游程与目标体间接关联的数据结构实现游程标记冲突的实时解决,提出一种基于游程的顺序扫描式区域标记算法,只需一次扫描分析即可获取游程区域表达,复杂度低,编码实现方便,易于扩展应用于并行计算系统中进行并行标记。实验结果表明,该算法与已有算法相比,拥有更高效的串行标记性能,在进行并行标记时具有近似线性的加速比。 展开更多
关键词 区域标记 游程 目标体索引 目标体双重索引 并行标记 加速比
下载PDF
基于异构平台的并行最大最小蚁群算法 被引量:4
19
作者 黄震华 赵振岐 +1 位作者 林培裕 梅建华 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1949-1955,共7页
最大最小蚂蚁系统(Max-min Ant System,MMAS)是一种性能优良的启发式算法,常用于解决组合优化问题.当解决的目标问题规模较大、迭代轮次较多时,最大最小蚁群算法存在运行时间长的缺点.试验以开源串行包ACOTSP为基准,利用GPU多线程并发... 最大最小蚂蚁系统(Max-min Ant System,MMAS)是一种性能优良的启发式算法,常用于解决组合优化问题.当解决的目标问题规模较大、迭代轮次较多时,最大最小蚁群算法存在运行时间长的缺点.试验以开源串行包ACOTSP为基准,利用GPU多线程并发的优势,采用并行蚂蚁策略将MMAS在CPU-GPU协同异构计算平台上并发实现.算法在GPU上运行时的影响因素,如数据传输、内存层次、库函数调用等,也得到有效分析,并作出针对性优化.试验最终取得了高达13倍的加速,表明并行MMAS策略具有高效性和实用性. 展开更多
关键词 并行计算 异构平台 最大最小蚁群系统 加速比
下载PDF
基于CUDA的并行AES算法的实现和加速效率探索 被引量:4
20
作者 费雄伟 李肯立 +1 位作者 阳王东 杜家宜 《计算机科学》 CSCD 北大核心 2015年第1期59-62,74,共5页
网络应用服务(尤其是电子银行和电子商务)需要数据加密提供安全通信.很多应用服务器面临着执行大量计算稠密的加密挑战.CUDA(统一计算架构)是在GPU进行并行和通用计算的平台,能够利用现有显卡资源,以低成本的方式提升加密性能.在Nvi... 网络应用服务(尤其是电子银行和电子商务)需要数据加密提供安全通信.很多应用服务器面临着执行大量计算稠密的加密挑战.CUDA(统一计算架构)是在GPU进行并行和通用计算的平台,能够利用现有显卡资源,以低成本的方式提升加密性能.在Nvidia GeForce G210显卡上实现CUDA的AES(高级加密标准)并行算法并且在AMD Athlon 7850上实现串行AES算法.实现的AES并行算法避免了同一线程块的线程同步和通信,提升了GPU的加速性能,加速比要比Manavski的AES-128并行算法提升2.66~3.34倍.在大数据量(至32MB)加密环境下探索AES并行算法的性能模型,并首次从加速效率角度分析加速性能.该并行AES算法在16核的GPU上能最高达到15.83倍的加速比和99.898%的加速效率. 展开更多
关键词 统一计算架构 高级加密标准 并行 加速比 加速效率
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部