期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于脉动阵列的层融合注意力模型加速器结构
1
作者 刘晓航 姜晶菲 许金伟 《计算机工程与科学》 CSCD 北大核心 2023年第5期802-809,共8页
注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬... 注意力机制最近在深度神经网络中表现出优越的性能,但其计算包含复杂的数据流,内存开销和计算量大,需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法,将模型中的巨大矩阵分成硬件亲和的计算块,使块矩阵的计算匹配加速器脉动阵列;提出基于双步softmax函数分解计算的层融合计算方法,有效减少了注意力模型计算对内存的访问。采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构。基于XILINX FPGA器件和HLS工具进行了性能评估。相同设置下,与CPU相比延迟加速了4.9倍,与GPU相比能效提升了1.24倍。 展开更多
关键词 脉动阵列 注意力机制 层融合 加速器结构 矩阵分块 柔性最大值传输函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部