期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
高性能稀疏矩阵向量乘的程序设计综述
1
作者 杜臻 谭光明 孙凝晖 《高技术通讯》 CAS 北大核心 2024年第8期807-823,共17页
稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域... 稀疏矩阵向量乘(SpMV)广泛应用于科学计算、图计算、数据分析等领域,是自现代计算机诞生以来经久不衰且挑战依旧的研究热点。本文系统回顾了20世纪70年代以来稀疏矩阵向量乘程序设计的发展脉络和各阶段的代表性工作;分析比较了这一领域4条技术路线,即人工程序设计、自动调优器、稀疏编译器和自动程序设计器,在当今的流行方法;并在此基础上对高性能稀疏矩阵向量乘程序设计的研究趋势做出预测,力图给学习者和研究者带来有益的知识与启示。 展开更多
关键词 稀疏矩阵向量乘(spmv) 稀疏矩阵格式 自动调优 稀疏编译器 高性能计算 并行算法
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式
2
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
下载PDF
SpMV计算的ARM和FPGA异构加速器设计
3
作者 朱明达 薛济擎 艾纯瑶 《电讯技术》 北大核心 2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格... 针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。 展开更多
关键词 稀疏矩阵向量乘(spmv) 异构加速器 硬件加速
下载PDF
基于GPU的稀疏矩阵存储格式优化研究 被引量:5
4
作者 杨世伟 蒋国平 +1 位作者 宋玉蓉 涂潇 《计算机工程》 CAS CSCD 北大核心 2019年第9期23-31,39,共10页
稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提... 稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提高SpMV在GPU平台上的并行性,并设计基于快速分段求和算法的GPU内核函数,保证计算结果的确定性及其在不同GPU平台上的再现性。实验结果表明,BRCP存储格式具有较高的计算效率,相比BRC存储格式可减少并行环境中的SpMV计算误差,并提高PageRank排序的准确率。 展开更多
关键词 稀疏矩阵向量乘 计算统一设备架构 图形处理器 存储格式 浮点运算
下载PDF
面向稀疏矩阵向量乘的DMA设计与验证
5
作者 曹亚松 刘胜 《计算机与数字工程》 2019年第11期2686-2690,共5页
稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操... 稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操作,降低了系统计算性能。基于X-DSP项目,在DMA中设计一条面向SpMV的专用数据通道实现不规则访存的功能,提高HPCG算法运算速度。设计代码的验证与综合结果表明预期的功能实现正确,且满足项目对时序、面积和功耗的要求。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 直接内存存取(DMA) 压缩稀疏行(CSR)
下载PDF
基于FPGA的稀疏矩阵向量乘的设计研究 被引量:9
6
作者 张禾 陈客松 《计算机应用研究》 CSCD 北大核心 2014年第6期1756-1759,共4页
作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。... 作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计。通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比。 展开更多
关键词 稀疏矩阵向量乘 现场可编程逻辑门阵列 可重构计算 并行算法
下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化
7
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
下载PDF
基于深度学习的稀疏矩阵向量乘运算性能预测模型 被引量:1
8
作者 曹中潇 冯仰德 +5 位作者 王珏 闵维潇 姚铁锤 高岳 王丽华 高付海 《计算机工程》 CAS CSCD 北大核心 2022年第2期86-91,共6页
稀疏矩阵向量乘(SpMV)是求解稀疏线性方程组的计算核心,被广泛应用在经济学模型、信号处理等科学计算和工程应用中,对于SpMV及其调优技术的研究有助于提升解决相关领域问题的运算效率。传统SpMV自动调优方法基于硬件平台的体系结构参数... 稀疏矩阵向量乘(SpMV)是求解稀疏线性方程组的计算核心,被广泛应用在经济学模型、信号处理等科学计算和工程应用中,对于SpMV及其调优技术的研究有助于提升解决相关领域问题的运算效率。传统SpMV自动调优方法基于硬件平台的体系结构参数设置来提升SpMV性能,但巨大的参数设置量导致搜索空间变大且自动调优耗时大幅增加。采用深度学习技术,基于卷积神经网络,构建由双通道稀疏矩阵特征融合以及稀疏矩阵特征与体系结构特征融合组成的SpMV运算性能预测模型,实现快速自动调优。为提高SpMV运算时间的预测精度,选取特征数据并利用箱形图统计SpMV时间信息,同时在佛罗里达稀疏矩阵数据集上进行实验设计与验证,结果表明,该模型的SpMV运算时间预测准确率达到80%以上,并且具有较强的泛化能力。 展开更多
关键词 稀疏矩阵向量乘 自动调优 深度学习 卷积神经网络 特征融合
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部