期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于RISC-V的卷积神经网络专用指令集处理器
被引量:
3
1
作者
廖汉松
吴朝晖
李斌
《计算机工程》
CAS
CSCD
北大核心
2021年第7期196-204,共9页
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,...
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。
展开更多
关键词
RISC-V指令集
卷积神经网络
领域专用架构
专用指令集处理器
硬件加速
下载PDF
职称材料
面向多发射架构ASIP的定制功能单元的自动生成
2
作者
谭洪贺
何虎
孙义和
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第3期334-339,共6页
现有定制功能单元生成算法既没有考虑发射架构的配置情况,也没有考虑关键路径的改变,因此在面对多发射架构处理器时,其性能提高效果有限。该文基于有向无环图,通过分析对比特定配置下备选节点对应用的多方面影响,使用逐点生长的方法,提...
现有定制功能单元生成算法既没有考虑发射架构的配置情况,也没有考虑关键路径的改变,因此在面对多发射架构处理器时,其性能提高效果有限。该文基于有向无环图,通过分析对比特定配置下备选节点对应用的多方面影响,使用逐点生长的方法,提出了一种新的面向多发射架构特定应用指令集处理器(ASIP)的定制功能单元自动生成算法。结合3种不同架构配置的实验结果显示,该算法获得的最优加速比分别达到2.3、4.5和6.9,较不考虑多发射架构的传统算法大大提高了处理器的运算性能。
展开更多
关键词
特定应用指令集处理器(ASIP)
多发射架构
定制功能单元(CFU)
指令集扩展(ISE)
原文传递
题名
基于RISC-V的卷积神经网络专用指令集处理器
被引量:
3
1
作者
廖汉松
吴朝晖
李斌
机构
华南理工大学微电子学院
人工智能与数字经济广东省实验室(广州)
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第7期196-204,共9页
基金
广东省重点领域研发计划项目(2018B010142001)。
文摘
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。
关键词
RISC-V指令集
卷积神经网络
领域专用架构
专用指令集处理器
硬件加速
Keywords
RISC-V
instruction set
Convolutional
Neural
Network(CNN)
Domain
Specific
Architecture(DSA)
special
instruction set
processor
hardware
acceleration
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向多发射架构ASIP的定制功能单元的自动生成
2
作者
谭洪贺
何虎
孙义和
机构
清华大学微电子学研究所
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第3期334-339,共6页
基金
清华大学基础研究基金项目
文摘
现有定制功能单元生成算法既没有考虑发射架构的配置情况,也没有考虑关键路径的改变,因此在面对多发射架构处理器时,其性能提高效果有限。该文基于有向无环图,通过分析对比特定配置下备选节点对应用的多方面影响,使用逐点生长的方法,提出了一种新的面向多发射架构特定应用指令集处理器(ASIP)的定制功能单元自动生成算法。结合3种不同架构配置的实验结果显示,该算法获得的最优加速比分别达到2.3、4.5和6.9,较不考虑多发射架构的传统算法大大提高了处理器的运算性能。
关键词
特定应用指令集处理器(ASIP)
多发射架构
定制功能单元(CFU)
指令集扩展(ISE)
Keywords
application-
special
instruction set
processor
(ASIP)
multi-issue
architecture
customized
function
unit(CFU)
instruction set
extension(ISE)
分类号
TP368 [自动化与计算机技术—计算机系统结构]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于RISC-V的卷积神经网络专用指令集处理器
廖汉松
吴朝晖
李斌
《计算机工程》
CAS
CSCD
北大核心
2021
3
下载PDF
职称材料
2
面向多发射架构ASIP的定制功能单元的自动生成
谭洪贺
何虎
孙义和
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部