期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于NEON并行计算架构的矩阵乘法加速技术
1
作者
祁俊雄
程岳
+3 位作者
刘作龙
韩伟
潘妍
李晨卉
《航空计算技术》
2024年第3期48-52,共5页
当今计算机的信号处理需求与日俱增。随着ARM体系结构的迅速发展,基于ARM架构的国产处理器迅速崛起,研究针对ARM平台的通用信号处理加速技术具有重要意义。通过分析ARMv8架构以及NEON并行计算技术,以FT-2000/4(ARMv8架构)为实验平台,研...
当今计算机的信号处理需求与日俱增。随着ARM体系结构的迅速发展,基于ARM架构的国产处理器迅速崛起,研究针对ARM平台的通用信号处理加速技术具有重要意义。通过分析ARMv8架构以及NEON并行计算技术,以FT-2000/4(ARMv8架构)为实验平台,研究典型DSP函数库在ARMv8架构上的优化加速。以矩阵运算为例,提出了基于NEON的通用矩阵乘法算法。实验结果表明所提算法在ARM架构上有显著的加速效果。为搭建针对ARM架构的全面且高效的通用信号处理库提供了技术支持。
展开更多
关键词
通用信号处理
ARMv8
FT-2000/4
NEON
矩阵乘法
下载PDF
职称材料
面向飞腾处理器平台的快速卷积算法优化
2
作者
赵亚飞
杨耀功
+1 位作者
王永刚
魏继增
《上海理工大学学报》
CAS
CSCD
北大核心
2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中...
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。
展开更多
关键词
深度学习
快速卷积算法
并行计算
通用矩阵乘法
下载PDF
职称材料
基于“承影”GPGPU的张量处理器设计
3
作者
师雨洁
杨轲翔
+1 位作者
刘旭东
何虎
《微电子学与计算机》
2024年第5期109-116,共8页
针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于...
针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于三维乘法树结构的张量处理器设计,将其部署在Xilinx VCU128开发板上。在VCU128开发板上,张量处理器的工作频率为222 MHz。同时,开发了指数运算单元,辅助完成神经网络运算。在VCU128开发板上的工作频率为159 MHz。最后,利用编写汇编程序的方法,验证张量处理器的功能正确性。引入张量处理器后,预期运行时间明显减少。
展开更多
关键词
通用图形处理器
张量处理器
卷积
通用矩阵乘
指数运算
下载PDF
职称材料
基于RISC-V的神经网络加速器硬件实现
被引量:
1
4
作者
鞠虎
高营
+1 位作者
田青
周颖
《电子与封装》
2023年第2期68-73,共6页
针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基...
针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基于可变张量加速器(VTA)架构,完成深度神经网络加速器指令集设计;通过高级可扩展接口(AXI)连接处理器与VTA,并采用共享内存的方式进行数据传输;基于深度学习编译栈实现卷积运算和神经网络部署。试验结果表明,所设计的架构可灵活实现多种主流的深度神经网络推理任务,乘法累加单元(MAC)数目可以达到1024,量化长度为有符号8位整数(INT8),编译栈支持主流神经网络编译,实现了修正后的ZFNet和ResNet20神经网络图像分类演示,在现场可编程逻辑门阵列(FPGA)电路上整体准确率分别达到78.95%和84.81%。
展开更多
关键词
RISC-V
神经网络
可变张量加速器
通用矩阵乘
深度学习编译器
下载PDF
职称材料
GOTOBLAS一般矩阵乘法高效实现机制的研究
被引量:
8
5
作者
蒋孟奇
张云泉
+1 位作者
宋刚
李玉成
《计算机工程》
CAS
CSCD
北大核心
2008年第7期84-86,103,共4页
对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没...
对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。
展开更多
关键词
GOTOBLAS库
一般矩阵乘法
存储层次
分块算法
计算模型
下载PDF
职称材料
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
被引量:
4
6
作者
汤洋
赵达非
+1 位作者
黄智濒
戴志涛
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2019年第3期106-113,共8页
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率....
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率.通过解决负载均衡和内存延迟问题,RBSparse算法可以显著减少计算的总时间.比较了RBSparse和BHSparse算法,RBSparse算法是最快的SpGEMM算法,RBSparse算法的性能平均是BHSparse算法的3. 1倍,在最佳情况下可达到14. 49倍.
展开更多
关键词
稀疏矩阵-矩阵乘法
图形处理器
性能优化
散列表
共享内存
原文传递
面向GPU计算平台的神经网络卷积性能优化
被引量:
4
7
作者
李茂文
曲国远
+1 位作者
魏大洲
贾海鹏
《计算机研究与发展》
EI
CSCD
北大核心
2022年第6期1181-1191,共11页
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限....
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication,GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.
展开更多
关键词
通用矩阵乘
Winograd算法
卷积神经网络
性能优化
GPU
下载PDF
职称材料
面向GPU的通用矩阵乘法计算的容错研究
8
作者
包冲
张善从
《微电子学与计算机》
2021年第1期22-26,32,共6页
矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容...
矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容错方法,提出了带容错的,用于通用矩阵乘法计算的方法,并以CUDA库函数的方式实现.论文讨论了算法的原理,用一种高效的方法实现了容错计算,并提出了一个低开销、高准确率的阈值计算方法用于在线的快速纠错和检错.在两款嵌入式GPU平台上对带容错功能的GEMM库函数进行了评估,其纠错和检错能力与预期一致,并且在大部分情况下,额外性能开销能够控制在50%以内,证明了该GEMM函数可以在较低的性能开销情况下,能够很好的实现GEMM计算的检错和纠错,在某些结果-关键的高性能计算中,具有一定的实用价值.
展开更多
关键词
通用矩阵乘法
基于算法的容错
静默数据损坏
浮点运算
校验和
检错与纠错
下载PDF
职称材料
题名
基于NEON并行计算架构的矩阵乘法加速技术
1
作者
祁俊雄
程岳
刘作龙
韩伟
潘妍
李晨卉
机构
航空工业西安航空计算技术研究所
出处
《航空计算技术》
2024年第3期48-52,共5页
基金
航空科学基金项目资助(2022Z071031001)。
文摘
当今计算机的信号处理需求与日俱增。随着ARM体系结构的迅速发展,基于ARM架构的国产处理器迅速崛起,研究针对ARM平台的通用信号处理加速技术具有重要意义。通过分析ARMv8架构以及NEON并行计算技术,以FT-2000/4(ARMv8架构)为实验平台,研究典型DSP函数库在ARMv8架构上的优化加速。以矩阵运算为例,提出了基于NEON的通用矩阵乘法算法。实验结果表明所提算法在ARM架构上有显著的加速效果。为搭建针对ARM架构的全面且高效的通用信号处理库提供了技术支持。
关键词
通用信号处理
ARMv8
FT-2000/4
NEON
矩阵乘法
Keywords
general
signal
processing
ARMv8
FT-2000/4
NEON
matrix
multiplication
分类号
V247.1 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
面向飞腾处理器平台的快速卷积算法优化
2
作者
赵亚飞
杨耀功
王永刚
魏继增
机构
天津大学智能与计算学部
飞腾信息技术有限公司
出处
《上海理工大学学报》
CAS
CSCD
北大核心
2024年第6期610-619,共10页
基金
国家自然科学基金资助项目(61402321)
天津市自然科学基金资助项目(23JCYBJC01770)
2024年第一批天津市制造业高质量发展专项资金资助项目(24ZGNGX00020)。
文摘
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。
关键词
深度学习
快速卷积算法
并行计算
通用矩阵乘法
Keywords
deep
learning
fast
convolution
algorithm
parallel
computing
general
matrix
multiplication
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于“承影”GPGPU的张量处理器设计
3
作者
师雨洁
杨轲翔
刘旭东
何虎
机构
清华大学集成电路学院
出处
《微电子学与计算机》
2024年第5期109-116,共8页
文摘
针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于三维乘法树结构的张量处理器设计,将其部署在Xilinx VCU128开发板上。在VCU128开发板上,张量处理器的工作频率为222 MHz。同时,开发了指数运算单元,辅助完成神经网络运算。在VCU128开发板上的工作频率为159 MHz。最后,利用编写汇编程序的方法,验证张量处理器的功能正确性。引入张量处理器后,预期运行时间明显减少。
关键词
通用图形处理器
张量处理器
卷积
通用矩阵乘
指数运算
Keywords
GPGPU
tensor
core
convolution
general
matrix
multiplication
exponential
operation
分类号
TN47 [电子电信—微电子学与固体电子学]
下载PDF
职称材料
题名
基于RISC-V的神经网络加速器硬件实现
被引量:
1
4
作者
鞠虎
高营
田青
周颖
机构
中国电子科技集团公司第五十八研究所
出处
《电子与封装》
2023年第2期68-73,共6页
基金
江苏省产业前瞻与关键核心技术研发项目(BE2021003)。
文摘
针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(SoC)架构。采用开源项目搭建So C架构;基于可变张量加速器(VTA)架构,完成深度神经网络加速器指令集设计;通过高级可扩展接口(AXI)连接处理器与VTA,并采用共享内存的方式进行数据传输;基于深度学习编译栈实现卷积运算和神经网络部署。试验结果表明,所设计的架构可灵活实现多种主流的深度神经网络推理任务,乘法累加单元(MAC)数目可以达到1024,量化长度为有符号8位整数(INT8),编译栈支持主流神经网络编译,实现了修正后的ZFNet和ResNet20神经网络图像分类演示,在现场可编程逻辑门阵列(FPGA)电路上整体准确率分别达到78.95%和84.81%。
关键词
RISC-V
神经网络
可变张量加速器
通用矩阵乘
深度学习编译器
Keywords
RISC-V
neural
network
variable
tensor
accelerator
general
matrix
multiplication
deep
learning
compiler
分类号
TN495 [电子电信—微电子学与固体电子学]
下载PDF
职称材料
题名
GOTOBLAS一般矩阵乘法高效实现机制的研究
被引量:
8
5
作者
蒋孟奇
张云泉
宋刚
李玉成
机构
中国科学院软件研究所并行计算实验室
中国科学院研究生院
中国科学院计算机科学国家重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第7期84-86,103,共4页
基金
国家自然科学基金资助项目(60303020)
国家自然科学基金资助重点项目(60533020)
+1 种基金
国家“973”计划基金资助项目(2005CB321702)
国家“863”计划基金资助项目(2006AA01A102,2006AA01A125)
文摘
对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。
关键词
GOTOBLAS库
一般矩阵乘法
存储层次
分块算法
计算模型
Keywords
GOTOBLAS
general
matrix
-
matrix
multiplication
hierarchical
memory
blocking
algorithm
computational
models
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
被引量:
4
6
作者
汤洋
赵达非
黄智濒
戴志涛
机构
北京邮电大学理学院
北京邮电大学智能通信软件与多媒体北京市重点实验室
北京邮电大学计算机学院
出处
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2019年第3期106-113,共8页
基金
中央高校基本科研业务费专项资金项目(2017RC42)
IBM SUR项目(IA2016010)
+1 种基金
提升政府治理能力大数据应用技术国家工程实验室重点支持项目
中国博士后科学基金面上项目(2014M550662)
文摘
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSparse.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,可达到最大效率.通过解决负载均衡和内存延迟问题,RBSparse算法可以显著减少计算的总时间.比较了RBSparse和BHSparse算法,RBSparse算法是最快的SpGEMM算法,RBSparse算法的性能平均是BHSparse算法的3. 1倍,在最佳情况下可达到14. 49倍.
关键词
稀疏矩阵-矩阵乘法
图形处理器
性能优化
散列表
共享内存
Keywords
general
sparse
matrix
-
matrix
multiplication
graphics
processing
unit
performance
optimization
Hash
table
shared
memory
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
原文传递
题名
面向GPU计算平台的神经网络卷积性能优化
被引量:
4
7
作者
李茂文
曲国远
魏大洲
贾海鹏
机构
中国科学院计算技术研究所
中国航空无线电电子研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2022年第6期1181-1191,共11页
基金
国家重点研发计划项目(2107YFB0202105,2016YFB0200803,2017YFB0202302)
国家自然科学基金项目(61972376)
北京市自然科学基金项目(L182053)。
文摘
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication,GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.
关键词
通用矩阵乘
Winograd算法
卷积神经网络
性能优化
GPU
Keywords
general
matrix
multiplication
(GEMM)
Winograd
algorithm
convolutional
neural
network
performance
optimization
GPU
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向GPU的通用矩阵乘法计算的容错研究
8
作者
包冲
张善从
机构
中国科学院大学
中国科学院空间应用工程与技术中心
出处
《微电子学与计算机》
2021年第1期22-26,32,共6页
基金
载人航天工程预研项目(18128060301)。
文摘
矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容错方法,提出了带容错的,用于通用矩阵乘法计算的方法,并以CUDA库函数的方式实现.论文讨论了算法的原理,用一种高效的方法实现了容错计算,并提出了一个低开销、高准确率的阈值计算方法用于在线的快速纠错和检错.在两款嵌入式GPU平台上对带容错功能的GEMM库函数进行了评估,其纠错和检错能力与预期一致,并且在大部分情况下,额外性能开销能够控制在50%以内,证明了该GEMM函数可以在较低的性能开销情况下,能够很好的实现GEMM计算的检错和纠错,在某些结果-关键的高性能计算中,具有一定的实用价值.
关键词
通用矩阵乘法
基于算法的容错
静默数据损坏
浮点运算
校验和
检错与纠错
Keywords
general
matrix
multiplication
(GEMM)
Algorithm
Based
Fault
Tolerant(ABFT)
Silent
Data
Corruption(SDC)
Floating
Point
Calculation
Checksum
Error
Detection
and
Correction
分类号
TN911-34 [电子电信—通信与信息系统]
TP312 [电子电信—信息与通信工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于NEON并行计算架构的矩阵乘法加速技术
祁俊雄
程岳
刘作龙
韩伟
潘妍
李晨卉
《航空计算技术》
2024
0
下载PDF
职称材料
2
面向飞腾处理器平台的快速卷积算法优化
赵亚飞
杨耀功
王永刚
魏继增
《上海理工大学学报》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
3
基于“承影”GPGPU的张量处理器设计
师雨洁
杨轲翔
刘旭东
何虎
《微电子学与计算机》
2024
0
下载PDF
职称材料
4
基于RISC-V的神经网络加速器硬件实现
鞠虎
高营
田青
周颖
《电子与封装》
2023
1
下载PDF
职称材料
5
GOTOBLAS一般矩阵乘法高效实现机制的研究
蒋孟奇
张云泉
宋刚
李玉成
《计算机工程》
CAS
CSCD
北大核心
2008
8
下载PDF
职称材料
6
高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法
汤洋
赵达非
黄智濒
戴志涛
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2019
4
原文传递
7
面向GPU计算平台的神经网络卷积性能优化
李茂文
曲国远
魏大洲
贾海鹏
《计算机研究与发展》
EI
CSCD
北大核心
2022
4
下载PDF
职称材料
8
面向GPU的通用矩阵乘法计算的容错研究
包冲
张善从
《微电子学与计算机》
2021
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部