-
题名面向E量级超算的并行循环压缩浮点乘加校验结构
- 1
-
-
作者
高剑刚
刘骁
郑方
唐勇
-
机构
国家并行计算机工程技术中心
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第6期1103-1120,共18页
-
文摘
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%.
-
关键词
浮点融合乘加
可用性
浮点校验
模加器
并行循环压缩
-
Keywords
floating-point fused multiply-add
availability
residue check
modular adder
parallel cyclic compression
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-