期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
CUDA相邻归约与其避免线程分化算法的研究
1
作者 卫易东 《信息与电脑》 2023年第18期55-57,61,共4页
在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发... 在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。 展开更多
关键词 边缘计算 统一计算架构(cuda) 优化算法 相邻归约 避免线程分化 矩阵加法 计算效率
下载PDF
基于CUDA平台的时域有限差分算法研究 被引量:4
2
作者 沈琛 王璐 +1 位作者 胡玉娟 吴先良 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第5期644-647,共4页
文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在... 文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。 展开更多
关键词 计算机图形处理器(GPU) 统一计算架构(cuda) 时域有限差分(FDTD)算法
下载PDF
面向CPU-GPU架构的源到源自动映射方法 被引量:2
3
作者 朱正东 刘袁 +3 位作者 魏洪昌 颜康 王寅峰 董小社 《计算机工程与应用》 CSCD 北大核心 2015年第21期41-47,共7页
针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端... 针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。 展开更多
关键词 通用计算图形处理器(GPGPU) 统一计算架构(cuda) 自动映射 源到源编译
下载PDF
基于CUDA的声辐射力弹性成像算法研究 被引量:2
4
作者 曾博 雷友诚 +5 位作者 王丛知 邱维宝 冯歌 曾成志 杨戈 郑海荣 《计算机工程与应用》 CSCD 北大核心 2015年第18期249-254,265,共7页
声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射... 声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。 展开更多
关键词 二维声辐射力弹性成像 统一计算架构(cuda) 图形处理器(GPU) 并行算法
下载PDF
基于GPU的植物生长模拟 被引量:2
5
作者 刘骥 朱庆生 +2 位作者 黄晓凤 曾令秋 李松阳 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第10期1803-1809,共7页
为了提高复杂植物生长模拟的性能,结合虚拟器官网络和图形处理器(GPU)技术提出植物生长模拟方法.该方法采用虚拟器官网络作为植物生长模型,用于描述植物器官的生理属性和形态属性、植物器官间的关系、环境对植物器官的影响以及植物器官... 为了提高复杂植物生长模拟的性能,结合虚拟器官网络和图形处理器(GPU)技术提出植物生长模拟方法.该方法采用虚拟器官网络作为植物生长模型,用于描述植物器官的生理属性和形态属性、植物器官间的关系、环境对植物器官的影响以及植物器官的生长规则.利用GPU架构的优势,以并行计算的方式实现植物生长演化和植物形态展现,从而提高植物生长模拟的计算速度.实验结果证明,采用该方法不仅能够模拟植物的生长,而且相对基于CPU的串行植物生长演化和形态展现有性能上的优势. 展开更多
关键词 植物生长模拟 图形处理器(GPU) 统一计算架构(cuda)
下载PDF
面向CPU-GPU源到源编译系统的渐近拟合优化方法 被引量:1
6
作者 魏洪昌 朱正东 +1 位作者 董小社 宁洁 《计算机工程与应用》 CSCD 北大核心 2016年第21期30-35,共6页
针对CPU-GPU异构并行系统应用开发移植后优化不充分问题,提出了一种渐近拟合优化与源到源编译相结合的方法,该方法能够对插入了制导语句的C语言程序转换为CUDA语言后的程序进行多次剖分,根据源程序特性和硬件信息自动完成源到源编译与优... 针对CPU-GPU异构并行系统应用开发移植后优化不充分问题,提出了一种渐近拟合优化与源到源编译相结合的方法,该方法能够对插入了制导语句的C语言程序转换为CUDA语言后的程序进行多次剖分,根据源程序特性和硬件信息自动完成源到源编译与优化,并基于该方法实现了原型系统。通过在不同环境中的该原型系统在功能和性能方面进行的测试表明,由系统生成的CUDA目标程序与C源程序在功能上一致,性能上却有了大幅度提高,通过与CUDA基准测试程序相比表明,该目标程序在性能上明显优于其他源到源编译转换生成的程序。 展开更多
关键词 源到源编译 统一计算架构(cuda) 剖分 渐近拟合优化
下载PDF
基于可变窗口视差优化的并行立体匹配 被引量:1
7
作者 许亮 田峥 王震 《计算机工程与应用》 CSCD 北大核心 2015年第15期193-197,205,共6页
针对现有局部立体匹配算法在计算精度和执行效率之间的权衡问题,提出一种基于可变窗口视差优化的并行立体匹配方法。为弥补ESAW(Exponential Step Adaptive Weight)代价聚合方法所造成的精度损失,在视差优化阶段,为每个误差点建立一个... 针对现有局部立体匹配算法在计算精度和执行效率之间的权衡问题,提出一种基于可变窗口视差优化的并行立体匹配方法。为弥补ESAW(Exponential Step Adaptive Weight)代价聚合方法所造成的精度损失,在视差优化阶段,为每个误差点建立一个基于颜色相似度和欧式距离的可变窗口,并将误差点分为遮挡和误匹配两类,针对不同的类型采用不同的优化策略;利用CUDA(Compute Unified Device Architecture)技术将算法在图形处理器上进行并行优化和验证。实验结果表明,与现有Middlebury测试平台中列出的并行立体匹配算法相比,具有更好的计算精度。 展开更多
关键词 并行立体匹配 基于自适应权重的指数级分段聚合方法(ESAW) 视差优化 可变窗口 统一计算架构(cuda)
下载PDF
快速寻找非线性反馈移位寄存器的编程算法
8
作者 叶炜晨 陈克非 《计算机科学与探索》 CSCD 2014年第1期28-39,共12页
在流密码中,非线性反馈移位寄存器(non-linear feedback shift register,NLFSR)是一种常用的安全性较高的伪随机序列生成器。目前仍然没有一种普遍有效的数学算法,能够根据给定的序列或者序列周期,直接推导出NLFSR。提出了一种快速寻找N... 在流密码中,非线性反馈移位寄存器(non-linear feedback shift register,NLFSR)是一种常用的安全性较高的伪随机序列生成器。目前仍然没有一种普遍有效的数学算法,能够根据给定的序列或者序列周期,直接推导出NLFSR。提出了一种快速寻找NLFSR的编程算法。该算法基于统一计算架构(compute unified device architecture,CUDA)和并行计算来实现,计算速度快,尤其适用于处理高次数的复杂NLFSR。并且该算法可以快速大规模地计算出NLFSR,为未来研究寻找NLFSR的数学算法提供了大量的实验数据。 展开更多
关键词 并行计算 伪随机序列 统一计算架构(cuda) 非线性反馈移位寄存器(NLFSR)
下载PDF
体素可视外壳并行优化建模方法
9
作者 张淑军 吴威 《中国图象图形学报》 CSCD 北大核心 2011年第4期686-692,共7页
基于体的可视外壳重建不需要复杂的几何计算,易于实现,但其精度和效率仍不理想。提出一种基于统一计算架构(CUDA)和行进立方体(MC)的体素可视外壳并行优化建模方法,将体素相交判断和等值面抽取过程并行分解,利用CUDA的内核多线程机制加... 基于体的可视外壳重建不需要复杂的几何计算,易于实现,但其精度和效率仍不理想。提出一种基于统一计算架构(CUDA)和行进立方体(MC)的体素可视外壳并行优化建模方法,将体素相交判断和等值面抽取过程并行分解,利用CUDA的内核多线程机制加速建模;在MC网格化阶段,提取准确交点并消除冗余边计算;利用像素着色器实现混合权重的纹理映射,提高模型精度。在多摄像机采集装置D reamW orld上的实验结果表明,本文方法能够对多个动态物体进行实时准确的3维建模。 展开更多
关键词 可视外壳 实时建模 统一计算架构(cuda) 行进立方体 体素
原文传递
第一性原理计算软件包在GPU集群上的加速
10
作者 赵慰 赵永华 +1 位作者 刘晓辉 何力新 《计算机科学与探索》 CSCD 2014年第8期897-905,共9页
第一性原理计算软件在密度泛函理论的发展中起着重要作用。相比平面波方法,局域轨道法更适合处理大规模多体问题。随着问题规模的不断增大和计算机计算能力的提升,软件的并行加速成为一个重要课题,MPI(message passing interface)结合GP... 第一性原理计算软件在密度泛函理论的发展中起着重要作用。相比平面波方法,局域轨道法更适合处理大规模多体问题。随着问题规模的不断增大和计算机计算能力的提升,软件的并行加速成为一个重要课题,MPI(message passing interface)结合GPU(graphic processing unit)实现的异构并行是一个新的解决方案。基于局域轨道法的第一性原理计算软件MESIA(massive electronic simulation based on systematically improvable atomic bases)经过MPI+OpenMP+CUDA三级并行,单GPU取得了约15倍的加速比,同时表现出了良好的可扩展性。测试结果同时验证了使用GPU计算可以保证计算精度。 展开更多
关键词 统一计算架构(cuda) 格点积分 第一性原理 局域轨道法
下载PDF
动态网格的DSMC方法在GPU上的并行
11
作者 文敏华 林新华 Simon Chong Wee See 《计算机科学与探索》 CSCD 2013年第5期472-479,共8页
直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应... 直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应的碰撞网格,能有效解决前一个缺点;针对后一个缺点,使用统一计算架构(compute unified device architecture,CUDA)编写并行程序,将基于动态网格的DSMC方法移植到图形处理器(graphic processing unit,GPU)上以减少计算时间。在并行实现中,GPU负责绝大部分的计算,而CPU只负责初始化、结果输出等少量工作。使用一个二维超音速横掠平板问题作为算例,验证了并行程序的正确性。对于不同规模的算例,在NVIDIA Fermi C2050之上均获得了10倍以上的加速比;对于相同算例,NVIDIA最新发布的Kepler K20上的速度约为FermiC2050上的1.3~1.6倍。 展开更多
关键词 统一计算架构(cuda) 图形处理器(GPU) 直接模拟蒙特卡罗方法(DSMC) 动态网格DSMC 并行模拟
下载PDF
基于GPU的AC模式匹配改进算法 被引量:1
12
作者 汪宏 王鹏 《计算机工程与应用》 CSCD 北大核心 2015年第18期7-12,共6页
字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进... 字符串匹配算法的应用非常广泛,在信息检索、信息安全等领域都起着关键的作用。近年来,由于GPU通用计算的高速发展,且GPU具有很强的并行计算能力和很高的存储器访问带宽,利用GPU来加速字符串匹配算法吸引了越来越多的关注。提出的改进的AC模式匹配算法,在对前人工作的基础上,进一步消除了output表的存储,将纹理存储器中的查表操作转换为数值比较操作,与改进前算法相比,速度提高了80%以上;进一步的,引入了多个可变参数,提高AC算法的有效数据匹配率,并优化线程块的大小,优化后的算法与采用一种特殊匹配方式的高效的PFAC算法相比,速度提高了9%以上。 展开更多
关键词 图形处理器(GPU)计算 模式匹配 AHO-CORASICK算法 统一计算架构(cuda)编程模型
下载PDF
面向CPU+GPU异构计算的SIFT特征匹配并行算法 被引量:11
13
作者 肖汉 郭运宏 周清雷 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第11期1732-1737,共6页
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给... 依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 展开更多
关键词 遥感影像 特征匹配 图形处理器(GPU) 统一计算设备架构(cuda) 尺度不变特征变换(SIFT)
下载PDF
基于CUDA的双三次B样条缩放方法 被引量:8
14
作者 桂叶晨 冯前进 +1 位作者 刘磊 陈武凡 《计算机工程与应用》 CSCD 北大核心 2009年第1期183-185,194,共4页
Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计... Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。 展开更多
关键词 双三次B样条 统一计算设备架构(cuda) 图形处理器(GPU) 图像缩放 重采样
下载PDF
基于GPU的并行ICP点云配准算法研究 被引量:3
15
作者 王嘉琛 叶周润 +3 位作者 欧鑫 袁斌 吴言安 张树峰 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第11期1501-1505,共5页
针对传统串行精配准算法在海量点云数据配准时计算效率低的问题,文章利用图形处理器(graphics processing unit,GPU)的多线程计算能力将传统算法并行化,基于GPU实现并行化的统一计算设备架构迭代最近点(compute unified device architec... 针对传统串行精配准算法在海量点云数据配准时计算效率低的问题,文章利用图形处理器(graphics processing unit,GPU)的多线程计算能力将传统算法并行化,基于GPU实现并行化的统一计算设备架构迭代最近点(compute unified device architecture iterative closest point,CUDAICP)算法。首先采用粗配准方法对源点云进行旋转平移,得到源点云的初始位置,再将其与目标点云输入CUDAICP算法进行精配准;对房间点云、带有楼梯的房间点云2种场景点云数据进行配准实验。结果表明:在粗配准中,采样一致性初始配准(sample consensus initial alignment,SAC-IA)算法在不同场景下具有较好的效果;在精配准中,CUDAICP算法与传统迭代最近点(iterative closest point,ICP)算法相比,在保证精度的同时,速度提升最高可达8.2倍。 展开更多
关键词 粗配准 统一计算设备架构(cuda) 迭代最近点(ICP)算法 精配准 点云配准
下载PDF
面向GPU的地形遮蔽探测并行算法
16
作者 孙卡 俞俗强 《计算机工程与应用》 CSCD 北大核心 2024年第15期66-76,共11页
地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算... 地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算法,解决了仿真计算速度慢的问题。在CPU端将雷达探测区域内离散采样点的高程数据矩阵化,进而提升高程值在并行化计算中的读取速度。针对雷达仿真计算参数对线程分配方式进行优化,采用循环对比方式对地形遮蔽角的计算进行并行加速。采用设备端线程同步和数据交替传输技术,确保计算结果一致性和最大化利用GPU端计算资源。采用多模式并行化计算模式,使用多线程并行化计算和单线程串行化计算来支撑GPU端计算资源不足时的退化计算,从而保证计算的高可用。实验结果表明,相较于i7-12700H CPU在仿真粒度为3 600条探测波束下的地形遮蔽串行计算和多线程并行计算,在3060 Laptop GPU下分别获取了48倍和17倍加速,为仿真实时性提供了有效的工程解决方案。 展开更多
关键词 并行计算 统一计算设备架构(cuda) 高程矩阵 地球曲率 地形遮蔽算法
下载PDF
面向GPU的直方图统计图像增强并行算法 被引量:5
17
作者 肖汉 孙陆鹏 +1 位作者 李彩林 周清雷 《计算机科学与探索》 CSCD 北大核心 2022年第10期2273-2285,共13页
直方图统计在图像增强和目标检测等领域有着重要的应用。然而,随着图像规模不断增大、实时性要求越来越高,直方图统计局部增强算法的处理过程较慢,达不到预期满意的速度。针对这一不足,在图形处理器(GPU)平台上实现了直方图统计图像增... 直方图统计在图像增强和目标检测等领域有着重要的应用。然而,随着图像规模不断增大、实时性要求越来越高,直方图统计局部增强算法的处理过程较慢,达不到预期满意的速度。针对这一不足,在图形处理器(GPU)平台上实现了直方图统计图像增强算法的并行处理,提升了处理大幅面数字图像的处理速度。首先,通过充分利用统一计算设备架构(CUDA)活动线程块和活动线程来并行处理不同的子图像块和像素点,提升了数据访问的效率。然后,采用内核配置参数优化和数据并行计算技术,实现了直方图统计图像增强算法在GPU平台上的并行化。最后,采用主机端和设备端间高效的数据传输模式,进一步缩短了系统在异构计算平台上的执行时间。研究表明,对于像幅大小不同的图像,图像直方图统计并行算法的处理速度相比CPU串行算法均有两个数量级的提高,处理一幅像幅大小为3241×3685的图像需要787.11 ms,并行算法的处理速度提高了261.35倍,为实现实时大规模图像处理奠定了良好基础。 展开更多
关键词 直方图统计 局部增强 局部均值 图形处理器(GPU) 统一计算设备架构(cuda) 并行算法
下载PDF
基于拟蒙特卡罗方法的供水管网抗震可靠性分析并行化研究 被引量:5
18
作者 龙立 郑山锁 +3 位作者 周炎 贺金川 孟宏立 蔡永龙 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第2期241-247,共7页
为了提高基于蒙特卡罗(Monte Carlo)方法的供水管网抗震可靠性分析效率,以低偏差Sobol点列替代伪随机数序列对供水管网节点和管段破坏概率进行抽样,结合宽度优先搜索算法,提出基于拟Monte Carlo方法和统一计算设备架构(CUDA)的供水管网... 为了提高基于蒙特卡罗(Monte Carlo)方法的供水管网抗震可靠性分析效率,以低偏差Sobol点列替代伪随机数序列对供水管网节点和管段破坏概率进行抽样,结合宽度优先搜索算法,提出基于拟Monte Carlo方法和统一计算设备架构(CUDA)的供水管网抗震可靠性分析并行算法,并从内存、执行配置和指令等方面优化并行算法.以某城市供水管网系统为例,对比串行和并行计算方法的精度及效率,分析Sobol点列和伪随机数序列对管网可靠性分析的影响.结果表明,并行和串行方法计算结果的误差最大为0.52%,并行方法最高加速比为串行算法的96倍,在保证结果精度的同时大幅度提高计算效率.基于Sobol点列进行1000次并行模拟及基于伪随机数序列进行5000次并行模拟,2种模拟结果与基于模糊数学法的解析值的最大误差分别为0.2%、0.4%,表明基于拟Monte Carlo的并行方法具有更高的精确度,更快的收敛速度. 展开更多
关键词 供水管网 统一计算设备架构(cuda) 宽度优先搜索 并行计算 网络可靠性分析 拟Monte CARLO方法
下载PDF
面向多尺度拓扑优化的渐进均匀化GPU并行算法研究
19
作者 夏兆辉 刘健力 +4 位作者 高百川 聂涛 余琛 陈龙 余金桂 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2023年第6期722-735,共14页
针对多尺度结构拓扑设计计算效率低等问题,提出了一种基于水平集渐进均匀化的多尺度拓扑优化并行算法。基于通用图形处理器(graphics processing unit,GPU),通过水平集初始化、大型稀疏刚度矩阵方程求解以及本构矩阵并行计算,可大幅提... 针对多尺度结构拓扑设计计算效率低等问题,提出了一种基于水平集渐进均匀化的多尺度拓扑优化并行算法。基于通用图形处理器(graphics processing unit,GPU),通过水平集初始化、大型稀疏刚度矩阵方程求解以及本构矩阵并行计算,可大幅提升渐进均匀化算法的效率。实验结果表明,当三维晶胞单元网格细化至分辨率为10万时,多尺度结构拓扑优化GPU并行算法较CPU串行算法快数十倍。 展开更多
关键词 多尺度拓扑优化 渐进均匀化 统一计算设备架构(cuda) GPU并行计算
下载PDF
GPU上实现的向量点积的性能分析 被引量:4
20
作者 郭雷 刘进锋 《计算机工程与应用》 CSCD 2012年第2期201-202,226,共3页
CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。
关键词 统一设备计算架构(cuda) 图形处理器(GPU) 向量点积
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部