期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于光线投射的电磁态势实时可视化 被引量:5
1
作者 高颖 陈旭 +1 位作者 周士军 郭淑霞 《兵工学报》 EI CAS CSCD 北大核心 2015年第12期2306-2314,共9页
战场电磁环境态势具有复杂、多维、时变特性,研究战场电磁态势实时可视化技术,对于作战指挥员了解战场态势,作出科学指挥、决策意义重大。目前,表征战场电磁态势的数学模型并不完善,以场强为例,建立了多辐射源空间场强合成的数学模型,... 战场电磁环境态势具有复杂、多维、时变特性,研究战场电磁态势实时可视化技术,对于作战指挥员了解战场态势,作出科学指挥、决策意义重大。目前,表征战场电磁态势的数学模型并不完善,以场强为例,建立了多辐射源空间场强合成的数学模型,为电磁态势三维体数据场的构建提供数据来源;战场态势的复杂性,使得与体数据场相关的数学模型也相对复杂,传统基于中央处理器(CPU)的实现方法无法达到实时解算的要求,鉴于此,提出了基于通用计算图形处理器(GPGPU)的体数据场加速生成技术,实验结果表明该技术能够满足实时可视化的需求;设计了一种体绘制传递函数,并利用基于图形处理器(GPU)的光线投射算法,实现了电磁态势实时可视化。 展开更多
关键词 兵器科学与技术 电磁态势 数据场建模 通用计算图形处理器 光线投射算法 体可视化
下载PDF
通用图形处理器线程调度优化方法研究综述 被引量:4
2
作者 何炎祥 张军 +3 位作者 沈凡凡 江南 李清安 刘子骏 《计算机学报》 EI CSCD 北大核心 2016年第9期1733-1749,共17页
随着通用图形处理器(GPGPU)并行计算能力的日益增强,其应用范围越来越广.然而由于不规则计算任务使得通用图形处理器资源难以得到充分利用,其性能并未达到最大化.在论述GPGPU微体系结构的基础上,该文重点讨论了多种针对GPGPU性能提升的... 随着通用图形处理器(GPGPU)并行计算能力的日益增强,其应用范围越来越广.然而由于不规则计算任务使得通用图形处理器资源难以得到充分利用,其性能并未达到最大化.在论述GPGPU微体系结构的基础上,该文重点讨论了多种针对GPGPU性能提升的线程调度优化方法,主要从针对优化分支转移提升线程级并行度、针对访存效率的提升和针对标量指令执行以提升资源利用率三方面的线程调度优化方法进行了分析和比较.另外,由于功耗问题已成为制约GPGPU发展的主要因素之一,该文还分析了影响GPGPU功耗效率的主要原因及目前提高GPGPU功耗效率的主要低功耗技术,并对目前针对GPGPU功耗优化的典型线程调度优化方法进行了分析比较.最后,该文指出了未来线程调度优化方法需要进一步探讨的一些问题. 展开更多
关键词 通用图形处理器 线程调度优化 性能 功耗
下载PDF
基于通用图形处理器的大规模Costas信号脉压处理
3
作者 周斌 叶春茂 +1 位作者 李文雯 宋苗苗 《山东科学》 CAS 2012年第6期47-53,共7页
本文分析了并行Costas信号脉压方法,设计了基于"通用图形处理单元(GPGPU)"的处理模型,并基于"铺路爪"雷达参数实现了Costas信号的方案。该方案在8片Nvidia tesla C1060的异构系统上对5418个通道脉压处理耗时514.3ms... 本文分析了并行Costas信号脉压方法,设计了基于"通用图形处理单元(GPGPU)"的处理模型,并基于"铺路爪"雷达参数实现了Costas信号的方案。该方案在8片Nvidia tesla C1060的异构系统上对5418个通道脉压处理耗时514.3ms,比通用CPU处理系统速度提升574倍。研究结果对新一代异构高性能雷达信号处理系统的设计具有很好的参考意义。 展开更多
关键词 高速雷达信号处理 Costas信号 多速度通道处理 通用图形处理单元
下载PDF
采用GPU加速的三维实体模型绘制 被引量:7
4
作者 袁友伟 《电子学报》 EI CAS CSCD 北大核心 2008年第B12期144-146,共3页
利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的具有真实感三维实体模型快速绘制方法.本文利用现代图形加速卡中GPU的可编程管线,实现了快速的网格生成及简化.在保证不改变网格的拓扑结构的前提下,调整网格,使能量... 利用GPU的强大浮点数计算能力和并行处理能力,提出一种完全基于GPU的具有真实感三维实体模型快速绘制方法.本文利用现代图形加速卡中GPU的可编程管线,实现了快速的网格生成及简化.在保证不改变网格的拓扑结构的前提下,调整网格,使能量方程的数值尽量降低,从而大大降低线性曲面中三角形的数量.实验结果表明,该方法能够实现实时的三维实体模型快速绘制,具有重要的应用价值. 展开更多
关键词 基于GPU的通用计算 基于硬件的绘制 能量方程 网格优化
下载PDF
基于GPU通用计算的并行算法和计算框架的实现 被引量:3
5
作者 朱宇兰 《山东农业大学学报(自然科学版)》 CSCD 2016年第3期473-476,480,共5页
GPU通用计算是近几年来迅速发展的一个计算领域,以其强大的并行处理能力为密集数据单指令型计算提供了一个绝佳的解决方案,但受限制于芯片的制造工艺,其运算能力遭遇瓶颈。本文从GPU通用计算的基础——图形API开始,分析GPU并行算法特征... GPU通用计算是近几年来迅速发展的一个计算领域,以其强大的并行处理能力为密集数据单指令型计算提供了一个绝佳的解决方案,但受限制于芯片的制造工艺,其运算能力遭遇瓶颈。本文从GPU通用计算的基础——图形API开始,分析GPU并行算法特征、运算的过程及特点,并抽象出了一套并行计算框架。通过计算密集行案例,演示了框架的使用方法,并与传统GPU通用计算的实现方法比较,证明了本框架具有代码精简、与图形学无关的特点。 展开更多
关键词 GPU通用计算 并行计算 计算框架
下载PDF
通用图形处理器功耗估算模型 被引量:2
6
作者 王吉军 程华 《计算机工程》 CAS CSCD 北大核心 2017年第2期92-97,104,共7页
为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析... 为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析硬件性能计数事件与实时功耗间的关系,最终建立GPGPU功耗估算模型。实验结果表明,与多元线性回归的功耗估算模型相比,该模型具有更高的估算准确性和通用性。 展开更多
关键词 通用图形处理器 硬件性能计数事件 反向传播人工神经网络 交叉验证 功耗估算
下载PDF
基于2阶段同步的GPGPU线程块压缩调度方法 被引量:1
7
作者 张军 何炎祥 +2 位作者 沈凡凡 江南 李清安 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1173-1185,共13页
通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图... 通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图形处理器均通过大量高度并行的线程完成计算任务的高效执行.但是在处理条件分支转移的控制流中,由于通用图形处理器采用串行的方式顺序处理不同的分支路径,使得其并行计算能力受到影响.在分析讨论前人针对分支转移处理低效的线程块压缩重组调度方法的基础上,提出了2阶段同步的线程块压缩重组调度方法 TSTBC(two-stage synchronization based thread block compaction scheduling),通过线程块压缩重组适合性判断逻辑部件,分2个阶段对线程块进行压缩重组有效性分析,进一步减少了无效的线程块压缩重组次数.模拟实验结果表明:该方法较好地提高了线程块的压缩重组有效性,相对于其他同类方法降低了对线程组内部数据局部性的破坏,并使得片上一级数据cache的访问失效率得到有效降低;相对于基准体系结构,系统性能提升了19.27%. 展开更多
关键词 通用图形处理器 线程调度 线程块压缩重组 2阶段同步 分支转移
下载PDF
An Efficient Acceleration of Solving Heat and Mass Transfer Equations with the First Kind Boundary Conditions in Capillary Porous Radially Composite Cylinder Using Programmable Graphics Hardware
8
作者 Hira Narang Fan Wu Abdul Rafae Mohammed 《Journal of Computer and Communications》 2019年第7期267-281,共15页
With the latest advances in computing technology, a huge amount of efforts have gone into simulation of a range of scientific phenomena in engineering fields. One such case is the simulation of heat and mass transfer ... With the latest advances in computing technology, a huge amount of efforts have gone into simulation of a range of scientific phenomena in engineering fields. One such case is the simulation of heat and mass transfer in capillary porous media, which is becoming more and more necessary in analyzing a number of eventualities in science and engineering applications. However, this procedure of numerical solution of heat and mass transfer equations for capillary porous media is very time consuming. Therefore, this paper pursuit is at making use of one of the acceleration methods developed in the graphics community that exploits a graphical processing unit (GPU), which is applied to the numerical solutions of such heat and mass transfer equations. The nVidia Compute Unified Device Architecture (CUDA) programming model offers a correct approach of applying parallel computing to applications with graphical processing unit. This paper suggests a true improvement in the performance while solving the heat and mass transfer equations for capillary porous radially composite cylinder with the first type of boundary conditions. This heat and mass transfer simulation is carried out through the usage of CUDA platform on nVidia Quadro FX 4800 graphics card. Our experimental outcomes exhibit the drastic overall performance enhancement when GPU is used to illustrate heat and mass transfer simulation. GPU can considerably accelerate the performance with a maximum found speedup of more than 5-fold times. Therefore, the GPU is a good strategy to accelerate the heat and mass transfer simulation in porous media. 展开更多
关键词 Numerical Solution Heat and Mass Transfer general purpose graphics processing unit (GPGPU) CUDA
下载PDF
An Efficient Acceleration of Solving Heat and Mass Transfer Equations with the Second Kind Boundary Conditions in Capillary Porous Composite Cylinder Using Programmable Graphics Hardware
9
作者 Hira Narang Fan Wu Abdul Rafae Mohammed 《Journal of Computer and Communications》 2018年第9期24-38,共15页
With the recent developments in computing technology, increased efforts have gone into simulation of various scientific methods and phenomenon in engineering fields. One such case is the simulation of heat and mass tr... With the recent developments in computing technology, increased efforts have gone into simulation of various scientific methods and phenomenon in engineering fields. One such case is the simulation of heat and mass transfer in capillary porous media, which is becoming more and more important in analysing various scenarios in engineering applications. Analysing such heat and mass transfer phenomenon in a given environment requires us to simulate it. This entails simulation of coupled heat mass transfer equations. However, this process of numerical solution of heat and mass transfer equations is very much time consuming. Therefore, this paper aims at utilizing one of the acceleration techniques developed in the graphics community that exploits a graphics processing unit (GPU) which is applied to the numerical solutions of heat and mass transfer equations. The nVidia Compute Unified Device Architecture (CUDA) programming model caters a good method of applying parallel computing to program the graphical processing unit. This paper shows a good improvement in the performance while solving the heat and mass transfer equations for capillary porous composite cylinder with the second kind of boundary conditions numerically running on GPU. This heat and mass transfer simulation is implemented using CUDA platform on nVidia Quadro FX 4800 graphics card. Our experimental results depict the drastic performance improvement when GPU is used to perform heat and mass transfer simulation. GPU can significantly accelerate the performance with a maximum observed speedup of more than 7-fold times. Therefore, the GPU is a good approach to accelerate the heat and mass transfer simulation. 展开更多
关键词 Numerical Solution Heat and Mass Transfer general purpose graphics processing unit (GPGPU) CUDA
下载PDF
A multi-scale architecture for multi-scale simulation and its application to gas-solid flows 被引量:1
10
作者 Bo Li Guofeng Zhou +4 位作者 Wei Ge Limin Wang Xiaowei Wang Li Guo Jinghai Li 《Particuology》 SCIE EI CAS CSCD 2014年第4期160-169,共10页
A multi-scale hardware and software architecture implementing the EMMS (energy-minimization multi-scale) paradigm is proven to be effective in the simulation of a two-dimensional gas-solid suspension. General purpos... A multi-scale hardware and software architecture implementing the EMMS (energy-minimization multi-scale) paradigm is proven to be effective in the simulation of a two-dimensional gas-solid suspension. General purpose CPUs are employed for macro-scale control and optimization, and many integrated cores (MlCs) operating in multiple-instruction multiple-data mode are used for a molecular dynamics simulation of the solid particles at the meso-scale. Many cores operating in single-instruction multiple- data mode, such as general purpose graphics processing units (GPGPUs), are employed for direct numerical simulation of the fluid flow at the micro-scale using the lattice Boltzmann method. This architecture is also expected to be efficient for the multi-scale simulation of other comolex systems. 展开更多
关键词 general purpose graphics processing unit(GPGPU)Many integrated core (MIC)Meso-science Multiple-instruction multiple-dataSingle-instruction multiple-dataVirtual process engineering
原文传递
Exploiting Parallelism in the Simulation of General Purpose Graphics Processing Unit Program
11
作者 赵夏 马胜 +1 位作者 陈微 王志英 《Journal of Shanghai Jiaotong university(Science)》 EI 2016年第3期280-288,共9页
The simulation is an important means of performance evaluation of the computer architecture. Nowadays, the serial simulation of general purpose graphics processing unit(GPGPU) architecture is the main bottleneck for t... The simulation is an important means of performance evaluation of the computer architecture. Nowadays, the serial simulation of general purpose graphics processing unit(GPGPU) architecture is the main bottleneck for the simulation speed. To address this issue, we propose the intra-kernel parallelization on a multicore processor and the inter-kernel parallelization on a multiple-machine platform. We apply these two methods to the GPGPU-sim simulator. The intra-kernel parallelization method firstly parallelizes the serial simulation of multiple compute units in one cycle. Then it parallelizes the timing and functional simulation to reduce the performance loss caused by the synchronization between different compute units. The inter-kernel parallelization method divides multiple kernels of a CUDA program into several groups and distributes these groups across multiple simulation hosts to perform the simulation. Experimental results show that the intra-kernel parallelization method achieves a speed-up of up to 12 with a maximum error rate of 0.009 4% on a 32-core machine, and the inter-kernel parallelization method can accelerate the simulation by a factor of up to 3.9 with a maximum error rate of 0.11% on four simulation hosts. The orthogonality between these two methods allows us to combine them together on multiple multi-core hosts to get further performance improvements. 展开更多
关键词 general purpose graphics processing unit(GPGPU) MULTICORE intra-kernel inter-kernel parallel
原文传递
基于GPGPU的准实时测频技术
12
作者 张朝晖 於建生 +1 位作者 薛钰娟 徐勤建 《雷达科学与技术》 2011年第2期183-187,共5页
简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实... 简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实时测量频率和其他脉冲参数的要求,同时对每一脉冲还可给出测频参考误差;并且在典型信噪比下,测频精度远高于模拟测频接收机。该实现与其他实现方案相比,灵活性更好,性价比更高,具有良好的应用前景。 展开更多
关键词 通用图形处理器(GPGPU) 准实时 数字测频 超高速采样
下载PDF
一种基于深度纹理的碰撞检测
13
作者 黄鹏 孟明 《计算机应用与软件》 CSCD 北大核心 2013年第1期270-272,293,共4页
提出一种基于GPU的图像空间碰撞检测方法。利用OpenGL的深度纹理技术和其扩展功能帧缓存对象(FBO)实现将深度值直接渲染至纹理,然后采用通用计算图形处理器(GPGPU)技术对纹理中的数据进行处理实现碰撞检测。仿真实验显示,该方法充分利... 提出一种基于GPU的图像空间碰撞检测方法。利用OpenGL的深度纹理技术和其扩展功能帧缓存对象(FBO)实现将深度值直接渲染至纹理,然后采用通用计算图形处理器(GPGPU)技术对纹理中的数据进行处理实现碰撞检测。仿真实验显示,该方法充分利用了图形硬件GPU的性能,并能够正确地返回碰撞检测结果。 展开更多
关键词 碰撞检测 深度纹理 FBO GPGPU
下载PDF
基于图形处理器的增强现实自然特征注册算法 被引量:5
14
作者 赵新灿 张燕 《南京理工大学学报》 EI CAS CSCD 北大核心 2011年第4期448-452,共5页
传统的基于中央处理器(CPU)的计算架构已无法满足增强现实(AR)三维注册技术实时运行要求。针对该问题,该文提出采用现代多核异构、大规模并行处理功能的通用图形处理器(GPGPU)来加速和优化AR三维注册算法,研究了在GPU上实现类似特征提... 传统的基于中央处理器(CPU)的计算架构已无法满足增强现实(AR)三维注册技术实时运行要求。针对该问题,该文提出采用现代多核异构、大规模并行处理功能的通用图形处理器(GPGPU)来加速和优化AR三维注册算法,研究了在GPU上实现类似特征提取和匹配等AR三维注册核心技术的基础理论、方法和实验。结果表明,通过模块划分和优化后的图像特征提取SIFT算法、随机采样等,能够充分挖掘AR三维注册算法的并行运算潜力,对于640*480像素的图像序列,注册算法能够达到15帧/秒,有效地提高运算实时性。 展开更多
关键词 增强现实 三维注册 通用图形处理器 自然特征
下载PDF
GPGPU和CUDA统一内存研究现状综述
15
作者 庞文豪 王嘉伦 翁楚良 《计算机工程》 CAS CSCD 北大核心 2024年第12期1-15,共15页
在大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU功能细化,逐渐发... 在大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU功能细化,逐渐发展出了成熟的通用图形处理器(GPGPU),目前GPGPU已成为中央处理器(CPU)最重要的协处理器之一。然而,GPU硬件配置在出厂后不容易更改且显存容量有限,在处理大数据集时显存容量不足的缺点对计算性能造成较大的影响。统一计算设备架构(CUDA)6.0推出了统一内存,使GPGPU和CPU可以共享虚拟内存空间,以此来简化异构编程和扩展GPGPU可访问的内存空间。统一内存为GPGPU处理大数据集提供了一项可行的解决方案,在一定程度上缓解了GPU显存容量较小的问题,但是统一内存的使用也带来了一些性能问题,如何在统一内存中做好内存管理成为性能提升的关键。本研究对CUDA统一内存的发展和应用进行综述,包括CUDA统一内存的特性、发展、优势和局限性以及在人工智能、大数据处理系统等领域的应用和未来的发展前景,为未来使用和优化CUDA统一内存的研究工作提供有价值的参考。 展开更多
关键词 通用图形处理器 统一内存 显存超额订阅 数据管理 异构系统
下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
16
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(GPGPU) 主特征向量计算 稀疏矩阵向量乘 线程优化
下载PDF
面向GPU并行编程的线程同步综述
17
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(GPGPU) 并行编程 线程同步 性能优化
下载PDF
使用GPU技术的数据流分位数并行计算方法 被引量:2
18
作者 周勇 王皓 程春田 《计算机应用》 CSCD 北大核心 2010年第2期543-546,共4页
数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构... 数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构(CUDA)的数据流处理模型和基于该模型的数据流分位数并行计算方法。实验证明,该方法在提供不低于纯CPU分位数算法相同精度的条件下,使数据流分位数的实时计算带宽得到了显著的提高。 展开更多
关键词 统一计算设备架构 通用图形处理器 数据流 分位数 并行计算
下载PDF
Fast OBJ file importing and parsing in CUDA 被引量:2
19
作者 Aidan L.Possemiers Ickjai Lee 《Computational Visual Media》 2015年第3期229-238,共10页
Alias – Wavefront OBJ meshes are a common text file type for transferring 3D mesh data between applications made by different vendors.However, as the mesh complexity gets higher and denser, the files become larger an... Alias – Wavefront OBJ meshes are a common text file type for transferring 3D mesh data between applications made by different vendors.However, as the mesh complexity gets higher and denser, the files become larger and slower to import.This paper explores the use of GPUs to accelerate the importing and parsing of OBJ files by studying file read-time, runtime, and load resistance. We propose a new method of reading and parsing that circumvents GPU architecture limitations and improves performance, seeing the new GPU method outperforms CPU methods with a 6×– 8× speedup. When running on a heavily loaded system, the new method only received an 80% performance hit, compared to the160% that the CPU methods received. The loaded GPU speedup compared to unloaded CPU methods was3.5×, and, when compared to loaded CPU methods,8×. These results demonstrate that the time is right for further research into the use of data-parallel GPU acceleration beyond that of computer graphics and high performance computing. 展开更多
关键词 PARSING OBJ vertex buffer object(VBO) general-purpose programming on the graphics processing unit(GPGPU) compute unified device architecture(CUDA)
原文传递
一种针对栅栏同步的GPGPU微架构优化设计
20
作者 贾世伟 张玉明 +1 位作者 田泽 秦翔 《固体电子学研究与进展》 CAS 北大核心 2023年第1期70-77,共8页
为了降低通用图形处理器(GPGPU)中栅栏同步开销对程序性能产生的不良影响,提出了一种GPGPU微架构优化设计。该设计在线程束调度模块中,根据栅栏同步开销决定各线程束的调度顺序,确保高栅栏同步开销的线程束能够优先调度执行。在一级数... 为了降低通用图形处理器(GPGPU)中栅栏同步开销对程序性能产生的不良影响,提出了一种GPGPU微架构优化设计。该设计在线程束调度模块中,根据栅栏同步开销决定各线程束的调度顺序,确保高栅栏同步开销的线程束能够优先调度执行。在一级数据缓存模块中,结合数据缓存缺失率与栅栏同步状态来共同决定各访存请求是否需要执行旁路操作,由此在不损害数据局域性开发的前提下,降低数据缓存阻塞周期对栅栏同步产生的影响。两种子模块优化设计均能够降低栅栏同步开销。实验结果表明,相比基准GPGPU架构与当前现有的栅栏同步优化策略,本设计在栅栏同步密集类程序中分别带来了4.15%、4.13%与2.62%的每周期指令数提升,证明了优化设计的有效性与实用性。 展开更多
关键词 通用图形处理器 栅栏同步 线程束调度 一级数据缓存 缓存旁路 性能
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部