期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
一种简洁高效的加速卷积神经网络的方法 被引量:16
1
作者 刘进锋 《科学技术与工程》 北大核心 2014年第33期240-244,共5页
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成... 卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。 展开更多
关键词 卷积神经网络 卷积展开 矩阵乘法 CUDA blas
下载PDF
基于龙芯2F体系结构的BLAS库优化 被引量:13
2
作者 顾乃杰 李凯 +1 位作者 陈国良 吴超 《中国科学技术大学学报》 CAS CSCD 北大核心 2008年第7期854-859,共6页
在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测... 在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测试表明,高性能BLAS在750 MHz的龙芯2F处理器(双精度浮点峰值3 Gflops)上HPL实测峰值达到1.47 GHz,比原始BLAS提高了6倍以上,比ATLAS提高了45%. 展开更多
关键词 blas 龙芯2F KD-50-Ⅰ 数据预取 指令调度
下载PDF
多核龙芯3A上二级BLAS库的优化 被引量:8
3
作者 李毅 何颂颂 李恺 《计算机系统应用》 2011年第1期163-167,共5页
针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右... 针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助。 展开更多
关键词 龙芯3A blas 优化 Gemv GER 访存 多线程
下载PDF
面向龙芯3A体系结构的BLAS库优化 被引量:8
4
作者 何颂颂 顾乃杰 +1 位作者 朱海涛 刘燕君 《小型微型计算机系统》 CSCD 北大核心 2012年第3期571-575,共5页
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替... 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多. 展开更多
关键词 矩阵乘法 blas 任务划分 LINPACK
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化
5
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 blas 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
高性能BLAS在类Beowulf机群系统上的实现 被引量:4
6
作者 吴少刚 许解峰 +1 位作者 杨耀忠 任钢 《小型微型计算机系统》 CSCD 北大核心 2001年第8期897-900,共4页
Beowulf计划关于“基于 COTS技术以满足特殊计算需要”的思想使得机群计算成为高性能计算的一个重要流派 .本文针对类 Beowulf机群的 Intel微处理器特点 ,讨论了 BL AS的优化技术 ,在以软件 DSM系统作为并行编程环境的类
关键词 机群系统 blas 软件DSM 计算机系统 类Beowulf机群系统 体系结构
下载PDF
基于 Pentium Pro 的高性能 BLAS 的设计与实现 被引量:4
7
作者 李忠泽 陈瑾 +1 位作者 龙翔 李未 《北京航空航天大学学报》 EI CAS CSCD 北大核心 1998年第4期455-457,共3页
支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对PentiumPro的体系结构特点,提出了一些优化方法使得BLAS在PentiumPro上计算性能达到最佳.测试表明,在200MH... 支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对PentiumPro的体系结构特点,提出了一些优化方法使得BLAS在PentiumPro上计算性能达到最佳.测试表明,在200MHz的PentiumPro上BLAS3的速度可达112Mflops. 展开更多
关键词 寄存器 基本线性代数 子程序 blas 循环展开
下载PDF
基于申威众核处理器的1、2级BLAS函数优化研究 被引量:5
8
作者 孙家栋 孙乔 +1 位作者 邓攀 杨超 《计算机系统应用》 2017年第11期101-108,共8页
BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1... BLAS(Basic Linear Algebra Subprograms)是一个以向量和矩阵为操作对象的基础函数库.该库中函数分为3个级别,各个级别分别提供了向量-向量(1级)、向量-矩阵(2级)、矩阵-矩阵(3级)之间的基本运算.本文研究如何在申威众核处理器上BLAS-1、2级函数的并行实现,并充分利用平台特性对它们进行深度的性能调优,归纳总结程序在申威平台上的并行实现与优化技巧.申威26010 CPU采用了异构众核架构,众多计算核心提供的大规模并行处理能力,使单块芯片具有3 TFLOPS的双精度浮点计算性能.实验结果显示BLAS-1、2级函数相对于Goto BLAS参考实现版的平均加速比分别高达11.x和6.x,对于每一优化手段,均有明显的性能加速. 展开更多
关键词 blas 异构众核 任务并行 simd向量化
下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
9
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 blas 1级 blas 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
下载PDF
文本解读与历史研究——以古藏文中的词语chu Gang、lta zhig、rje blas为例
10
作者 南吉加 《青海民族大学学报(藏文版)》 2023年第1期84-100,共17页
古藏文中的chu Gang、lta zhig、rje blas等三个词语,屡次出现在吐蕃时期的石碑文、敦煌文、简牍文等中,在后期的部分《甘珠尔》《丹珠尔》文献中,也以变异或拆解的形式出现多次。通过古藏文学者对此类词语的解读和辨认,解答了chu Gang... 古藏文中的chu Gang、lta zhig、rje blas等三个词语,屡次出现在吐蕃时期的石碑文、敦煌文、简牍文等中,在后期的部分《甘珠尔》《丹珠尔》文献中,也以变异或拆解的形式出现多次。通过古藏文学者对此类词语的解读和辨认,解答了chu Gang、lta zhig、rje blas等三个词语的部分含义。但随着文字考古研究的不断深入,古藏文的文化及阐释语境有了更大的拓展,也给研究古藏文的学者们提供了更全面的阐释空间。比如:古藏文chu Gang一词,在吐蕃时期仅用来表达君臣之间的忠信关系,至后宏时期其意义逐渐延伸,可以指称婚姻里的忠诚与信任,因此不能将其单纯地理解为英勇忠良之意;而lta zhi一词的语义不断虚化,逐渐具有了介词和虚词的功能,其所指也因语句搭配而发生变化,一味地将其解释为“他”或“他本人”是不准确的;通过词语考究和语素分析发现,rje dlas一词中的“rje”指的是君王,而“dlas”(藏文dlas后来作slas)则指帐中亲信,因此,rje dlas一词可以用来表达忠诚侍奉君王的一种责任和义务,rje dlas一词的这一含义也被后来的历史叙事所继承,部分教法史在叙述“六大决议法”(bkav gros chen mo)时,常以“保护赞普,不遗余力地侍奉”(rjevi sku vtsho zhing zho sha blar dbul)来扩解rje dlas一词。 展开更多
关键词 古藏文 解读 chu Gang lta zhig rje blas
下载PDF
面向龙芯3B1500体系结构的DGEMM函数优化 被引量:3
11
作者 刘刚 张恒 +1 位作者 毛睿 陆克中 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现... 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. 展开更多
关键词 龙芯3B1500处理器 blas DGEMM 矩阵乘法 数据预取
下载PDF
BLAS的加速方法与实现技术 被引量:4
12
作者 李玉成 朱鹏 《数值计算与计算机应用》 CSCD 北大核心 1998年第3期227-240,共14页
In this paper, we introduce the methods and techniques on how to improve the.efficiency of BLAS on Hitachi SR2201, and with some exapmles we evaluate and analyzethe Speed up version BLAS.
关键词 并行算法 blas 并行计算机
原文传递
改进的基于深度卷积网的图像匹配算法 被引量:2
13
作者 雷鸣 刘传才 《计算机系统应用》 2017年第1期168-174,共7页
鉴于图像匹配中单一特征难以获得理想效果的问题,提出一种改进的基于深度卷积网的图像匹配算法.首先对卷积层作展开,利用BLAS(Basic Linear Algebra Subprograms)高效地计算矩阵乘法,从而提高了算法运行速度;然后通过基于POEM(Pattern o... 鉴于图像匹配中单一特征难以获得理想效果的问题,提出一种改进的基于深度卷积网的图像匹配算法.首先对卷积层作展开,利用BLAS(Basic Linear Algebra Subprograms)高效地计算矩阵乘法,从而提高了算法运行速度;然后通过基于POEM(Pattern of Oriented Edge Magnitudes)特征的匹配点筛选方法,去除部分误匹配点,增强了基础矩阵的鲁棒性.实际图像的实验验证了改进算法的准确性和实时性,对于重复纹理及旋转图像的匹配效果显著. 展开更多
关键词 图像匹配 梯度信息 深度卷积网络 blas POEM特征
下载PDF
一种基于遗传算法的BLAS库优化方法 被引量:2
14
作者 孙成国 兰静 姜浩 《计算机工程与科学》 CSCD 北大核心 2018年第5期798-804,共7页
基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个... 基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个体)所对应的稠密矩阵乘法的性能值作为该个体的适应度,通过不断迭代地进行选择、交叉、变异操作,找到最优的分块参数组合,使得稠密矩阵运算的性能值最优。数值实验表明,基于遗传算法求解得出最优分块参数下的GEMM性能值优于默认分块参数下的性能值,达到了优化的目的。 展开更多
关键词 blas GEMM 遗传算法 自动调优
下载PDF
异构HPL算法中CPU端高性能BLAS库优化 被引量:2
15
作者 蔡雨 孙成国 +3 位作者 杜朝晖 刘子行 康梦博 李双双 《软件学报》 EI CSCD 北大核心 2021年第8期2289-2306,共18页
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整... 异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了异构环境下优化的BLIS算法库HBLIS.与MKL相比,HPL整体性能提高了11.8%. 展开更多
关键词 blas 遗传算法auto-tuning 向量化指令 数据预取 多线程并行
下载PDF
基于FPGA的BLAS加速系统的设计与研究 被引量:2
16
作者 许焱 杨滨 《微计算机信息》 2009年第20期137-139,共3页
采用FPGA来加速应用软件的关键算法执行,是一种有效的提高计算机系统运算速度的方法。通过把高性能计算算法中固有的并行运算部分硬件化来实现应用加速。本文主要讨论使用FPGA来实现BLAS数学库的加速,对其中最耗时的dgemm算法做了加速,... 采用FPGA来加速应用软件的关键算法执行,是一种有效的提高计算机系统运算速度的方法。通过把高性能计算算法中固有的并行运算部分硬件化来实现应用加速。本文主要讨论使用FPGA来实现BLAS数学库的加速,对其中最耗时的dgemm算法做了加速,并且设计了基于FPGA的加速系统。 展开更多
关键词 blas HPL 加速 数学库
下载PDF
LAPACK线性方程求解函数在龙芯3A上的并行化 被引量:1
17
作者 刘斌斌 顾乃杰 +1 位作者 任开新 张杰 《小型微型计算机系统》 CSCD 北大核心 2014年第5期1085-1089,共5页
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多... 针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04. 展开更多
关键词 LAPACK blas 龙芯3A 多核
下载PDF
基于申威1621处理器的BLAS一级函数优化 被引量:1
18
作者 李浩然 王磊 《计算机系统应用》 2021年第7期246-252,共7页
BLAS(Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准,该库函数分为三个级别,每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算.本文研究了在申威1621处理器上BLAS一级函数... BLAS(Basic Linear Algebra Subprograms)是一个基本线性代数操作的数学函数标准,该库函数分为三个级别,每个级别提供了向量与向量(1级)、向量与矩阵(2级)、向量与向量(三级)之间的基本运算.本文研究了在申威1621处理器上BLAS一级函数的优化方案,以函数AXPY为例,充分利用平台的架构特点对其进行性能调优,设计了自动的线程分配方案.实验结果显示优化过后的BLAS一级函数AXPY相对于GotoBLAS参考实现版本的单核和多核加速比分别高达4.36和9.50,对于每种优化方式均得到了一定的性能提升. 展开更多
关键词 申威1621 blas 并行 线程分配 SIMD向量化
下载PDF
基于龙芯3A2000处理器的高性能Goto BLAS库的实现 被引量:1
19
作者 张华亮 黄启印 吴少校 《高技术通讯》 CAS CSCD 北大核心 2016年第10期825-832,共8页
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方... 用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。 展开更多
关键词 Goto blas 性能优化 LINPACK 矩阵运算 数据预取
下载PDF
矩阵乘协处理器上BLAS level-3运算的设计
20
作者 贾迅 钱磊 +2 位作者 原昊 张昆 吴东 《计算机工程与科学》 CSCD 北大核心 2020年第11期1913-1921,共9页
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩... BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。 展开更多
关键词 线性阵列 矩阵乘 协处理器 blas level-3
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部