期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
面向DCU的LDS访存向量化优化 被引量:1
1
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
多核共享资源冲突延迟上限优化方法 被引量:3
2
作者 张吉赞 苑雅娟 《计算机科学与探索》 CSCD 北大核心 2017年第8期1224-1234,共11页
嵌入式多核结构的共享资源冲突是硬实时任务最差情况执行时间(worst-case execution time,WCET)估算的难点,而且通过减少共享资源冲突延迟的估算可以减少硬实时任务的WCET估算值,提高硬实时任务的可调度性。针对带有冲突感知总线(interf... 嵌入式多核结构的共享资源冲突是硬实时任务最差情况执行时间(worst-case execution time,WCET)估算的难点,而且通过减少共享资源冲突延迟的估算可以减少硬实时任务的WCET估算值,提高硬实时任务的可调度性。针对带有冲突感知总线(interference-aware bus arbiter,IABA)的嵌入式多核结构,提出了一种基于bank-column缓存划分的访存请求冲突延迟上限优化方法,根据bank冲突次数和冲突延迟上限的关系,该方法通过优化bank到核映射来减少bank冲突发生次数,从而减小冲突延迟上限和WCET估算值。实验结果表明,与现有冲突延迟上限界定方法相比,提出的方法能减少约29%的WCET估算值。 展开更多
关键词 多核结构 硬实时任务 bank冲突 bank-column划分 bank到核映射
下载PDF
基于GPU实现允许k-差别近似串匹配并行算法 被引量:3
3
作者 张锦雄 梁正友 +1 位作者 蔡德霞 韦兴柳 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第2期285-291,共7页
为了在GPU上实现允许k-差别近似串匹配并行算法,并进一步提高在GPU上的算法性能,在综合考虑GPU的存储层次前提下,采取了多种访存优化措施,并提出了避免bank冲突的解决方案。测试结果表明,所用优化措施及方案使算法性能明显提高。
关键词 k-差别近似串匹配 GPU CUDA 访存优化 bank冲突
下载PDF
基于GPU的分类并行算法的研究与实现 被引量:3
4
作者 王坤 《电子设计工程》 2014年第18期39-41,共3页
分析了KNN算法在GPU上实现并行计算的可能性,提出了通过使用CUDA实现KNN算法的方案,在研究了GPU对存储访问的机制后,通过设计合理的数据以及对算法的改进,避免存储体冲突的产生,提高了算法的健壮性。研究结果证明该方法在GPU上的并行运... 分析了KNN算法在GPU上实现并行计算的可能性,提出了通过使用CUDA实现KNN算法的方案,在研究了GPU对存储访问的机制后,通过设计合理的数据以及对算法的改进,避免存储体冲突的产生,提高了算法的健壮性。研究结果证明该方法在GPU上的并行运算速度明显要快于CPU,有着很好的加速比。 展开更多
关键词 KNN算法 图形处理器 存储体冲突 CUDA
下载PDF
利用循环分割和循环展开避免Cache代价 被引量:2
5
作者 刘利 陈彧 +1 位作者 乔林 汤志忠 《软件学报》 EI CSCD 北大核心 2008年第9期2228-2242,共15页
存储系统与处理器之间的速度差距逐渐变大,为此,cache使用了分级机制,但这也带来了额外的存储延迟(cache代价).提出一种利用循环分割和循环展开相结合避免cache代价的PCPLPU(prevent cache penalty by loop partition-unrolling)算法.... 存储系统与处理器之间的速度差距逐渐变大,为此,cache使用了分级机制,但这也带来了额外的存储延迟(cache代价).提出一种利用循环分割和循环展开相结合避免cache代价的PCPLPU(prevent cache penalty by loop partition-unrolling)算法.实验结果表明,PCPLPU算法能够有效避免循环代价,提高程序性能. 展开更多
关键词 循环分割 循环展开 cache代价 bank冲突
下载PDF
Detecting Bank Conflict of GPU Programs Using Symbolic Execution—Case Study
6
作者 Koki Hamaya Satoshi Yamane 《Journal of Software Engineering and Applications》 2017年第2期159-167,共9页
GPU (Graphics Processing Unit) is used in various areas. Therefore, the demand for the verification of GPU programs is increasing. In this paper, we suggest the method to detect bank conflict by using symbolic executi... GPU (Graphics Processing Unit) is used in various areas. Therefore, the demand for the verification of GPU programs is increasing. In this paper, we suggest the method to detect bank conflict by using symbolic execution. Bank conflict is one of the bugs happening in GPU and it leads the performance of programs lower. Bank conflict happens when some processing units in GPU access the same shared memory. Symbolic execution is the method to analysis programs with symbolic values. By using it, we can detect bank conflict on GPU programs which use many threads. We implement a prototype of the detector for bank conflict and evaluate it with some GPU programs. The result states that we can detect bank conflict on the programs with no loop regardless of the number of threads. 展开更多
关键词 GRAPHICS Processing Units GPU bank conflict SYMBOLIC EXECUTION Model CHECKING
下载PDF
基于GPU的K-means并行算法研究与实现
7
作者 原建伟 王坤 李爱国 《陕西理工学院学报(自然科学版)》 2012年第5期44-48,共5页
分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性。研究结果证明该方法在GPU上的并行运算速... 分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性。研究结果证明该方法在GPU上的并行运算速度明显快于CPU,加速比高。 展开更多
关键词 K均值算法 图形处理器 存储体冲突 CUDA
下载PDF
多核共享缓存bank冲突分析及其延迟最小化 被引量:5
8
作者 张吉赞 古志民 《计算机学报》 EI CSCD 北大核心 2016年第9期1883-1899,共17页
在硬实时多核系统中,共享资源冲突的问题为硬实时任务的最差情况下执行时间(WCET)分析带来了新挑战.虽然现有的共享缓存冲突分析技术在storage冲突方面已取得研究进展,但对于bank冲突而言,现有研究仍局限于通过界定bank冲突延迟上限来... 在硬实时多核系统中,共享资源冲突的问题为硬实时任务的最差情况下执行时间(WCET)分析带来了新挑战.虽然现有的共享缓存冲突分析技术在storage冲突方面已取得研究进展,但对于bank冲突而言,现有研究仍局限于通过界定bank冲突延迟上限来分析和处理bank冲突.该文通过优化核-bank映射关系来使硬实时多核系统中的bank冲突延迟最小化,即在对bank冲突延迟进行分析的基础上,首先通过优化核-bank之间的映射关系来消除bank冲突;若无法消除,则需要寻找能使bank冲突延迟最小化的核-bank映射关系解,并为此设计了一种基于多核总线请求时间序列的bank冲突延迟求解算法.最后,文中设计了能够对总线访问延迟进行消重的多核硬实时任务WCET估算方法.实验结果表明:文中所提的优化方法可消除这类bank冲突或使其延迟最小化,文中所提的WCET估算方法与现有估算方法相比可获得更精确的最差情况下执行时间(WCET). 展开更多
关键词 多核系统 硬实时任务 优化 核到bank映射 bank冲突延迟 最差情况下执行时间
下载PDF
GPU编程模型中存储体冲突的研究 被引量:2
9
作者 原建伟 李爱国 李文宇 《河北工业科技》 CAS 2013年第1期39-41,46,共4页
GPU并行计算模型中使用共享内存是提高并行计算效率的重要途径,由于进程访问导致的存储体冲突,却会成倍地降低执行效率。经过分析存储体冲突产生的原因,提出了对算法的修改来解决存储体冲突的原则与方法,并通过对聚类算法的实施进行验证。
关键词 图形处理器 共享内存 并发存储访问 存储体冲突 矩阵运算
下载PDF
ISMB:多核系统中利用Bank分区实现共享库隔离
10
作者 杨虎斌 李嘉翔 +4 位作者 陈玉聪 刘刚 张红涛 周睿 周庆国 《计算机技术与发展》 2023年第2期17-23,共7页
动态随机存取存储器DRAM一直以来以其低功耗、高性价比和良好的扩展性等优点作为计算机内存的最佳选择。为了提高内存的访问速度,DRAM中的每个Bank都有一个行缓冲区,它可以有效地提升局部性良好的应用程序的性能。然而在多核系统中,DRA... 动态随机存取存储器DRAM一直以来以其低功耗、高性价比和良好的扩展性等优点作为计算机内存的最佳选择。为了提高内存的访问速度,DRAM中的每个Bank都有一个行缓冲区,它可以有效地提升局部性良好的应用程序的性能。然而在多核系统中,DRAM被系统中的所有Core共享,因此对内存的并发访问会导致Bank行缓冲区冲突问题的产生,从而导致内存访问延迟的增大。共享库作为一种共享资源,使Bank行缓冲区冲突问题更加严重。虽然目前有一些基于DRAM Bank分区技术的解决方案可以有效缓解由进程访问私有内存导致的Bank行缓冲区冲突问题,但是这些解决方案无法解决访问共享库引起的Bank行缓冲区冲突问题。该文提出了一种在多核系统中利用Bank分区实现共享库隔离的方案(ISMB)。ISMB使运行在同一个Core上的进程只能访问属于该Core的共享库的副本,因此ISMB消除了共享库导致的Bank行缓冲区冲突问题。对比实验结果表明,ISMB能够有效地提升系统隔离性能,在使用ISMB的情况下,SPEC CPU2006基准测试程序的减速率最大可降低26.3%。 展开更多
关键词 共享库 bank分区 隔离 动态随机存取存储器 bank行缓冲区冲突
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部