期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
1
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 BLAS 1级 BLAS 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
下载PDF
NVIDIA Tegra K1异构计算平台访存优化研究 被引量:3
2
作者 梁军 李威 +1 位作者 肖琳 徐歆恺 《计算机工程》 CAS CSCD 北大核心 2016年第12期44-49,共6页
在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和... 在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上的实现和访存性能优化进行研究。实验结果表明,采用优化方法后的矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上取得了较大的访存性能提升,并且具有较好的实时性。 展开更多
关键词 GPU优化 访存带宽 数据本地化 向量化 合并访问 拉普拉斯滤波算法
下载PDF
雷达系统高速大容量Flash存储器平台管理的设计和应用 被引量:2
3
作者 马崇鹤 赵凤军 冯杰 《电子器件》 CAS 北大核心 2016年第6期1407-1415,共9页
针对雷达系统对记录设备通信带宽、容量及性能不断增长的需求,提出了一种基于Flash固态存储器设计的模块化平台管理架构。在分析地址管理和状态管理的基础上,通过设计一种缓存策略和有效流水记录方式实现高访存带宽,对比坏块处理信息形... 针对雷达系统对记录设备通信带宽、容量及性能不断增长的需求,提出了一种基于Flash固态存储器设计的模块化平台管理架构。在分析地址管理和状态管理的基础上,通过设计一种缓存策略和有效流水记录方式实现高访存带宽,对比坏块处理信息形式选择合理处理方式,根据系统文件特点提出两种损耗均衡方法,并实现了单板256 Gbyte、访存带宽600 Mbyte/s的记录器产品。实验证明,设计实现的模块化平台管理架构对Flash存储器管理的有效性和可靠性有很大提升。 展开更多
关键词 Flash固态存储器 平台管理 访存带宽 坏块处理 损耗均衡
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部