期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
使用融合乘加加速快速傅里叶变换计算的向量化方法 被引量:3
1
作者 刘仲 陈海燕 向宏卫 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第2期72-78,共7页
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作... 融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。 展开更多
关键词 快速傅里叶变换 融合乘加 向量化 向量处理器
下载PDF
分离通路浮点乘加器设计与实现 被引量:1
2
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第8期28-33,共6页
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克... 针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um2。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25%,平均提高1.61%,证明SPFMA可进一步提高浮点性能。 展开更多
关键词 浮点加法 浮点乘法 融合乘加 分离通路 浮点性能 运算延迟
下载PDF
可重构浮点混合/连续乘-加器的设计与实现 被引量:1
3
作者 洪琪 何敏 +1 位作者 范继聪 袁粲 《计算机工程》 CAS CSCD 2014年第7期272-276,共5页
浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多... 浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多种浮点数据操作。该乘-加器采用8级流水线,可以实现单周期的浮点乘累加,大幅提高数据处理吞吐量,同时支持三操作数加和两操作数和的累加。在Modelsim SE6.6f中对该设计进行仿真验证,结果表明其能够在Xilinx Virtex-6 FPGA上实现,资源消耗2 631个LUT,频率可达250 MHz,结果证明该浮点混合/连续乘-加器具有较大的使用价值。 展开更多
关键词 浮点 连续乘-加 混合乘-加 三操作数加 可重构 流水线
下载PDF
基于SIMD部件的四倍精度浮点乘加器设计
4
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第12期15-18,51,共5页
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减... 如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。 展开更多
关键词 浮点 SIMD部件 乘加 四倍精度 高精度
下载PDF
一种快速SIMD浮点乘加器的设计与实现 被引量:5
5
作者 吴铁彬 刘衡竹 +2 位作者 杨惠 张剑锋 侯申 《计算机工程与科学》 CSCD 北大核心 2012年第1期69-73,共5页
本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz... 本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz。结果表明,相比文献[3]中经典的低延迟乘加结构,在相同综合条件下性能提升了17.89%,面积增加了6.61%,功耗降低了25.08%。 展开更多
关键词 浮点乘法 浮点乘累加 SIMD 双单精度
下载PDF
面向E量级超算的并行循环压缩浮点乘加校验结构
6
作者 高剑刚 刘骁 +1 位作者 郑方 唐勇 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1103-1120,共18页
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制... E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%. 展开更多
关键词 浮点融合乘加 可用性 浮点校验 模加器 并行循环压缩
下载PDF
浮点乘加部件延迟对浮点性能影响的研究
7
作者 何军 田增 +1 位作者 郭勇 陈诚 《计算机工程》 CAS CSCD 2013年第7期311-313,317,共4页
浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器... 浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器平台,对SPEC CPU2000浮点测试课题进行评估。实验结果表明,该延迟优化有利于提高浮点性能,最大提高5.25%,平均提高1.61%。 展开更多
关键词 浮点加法 浮点乘法 融合乘加 硬件仿真 浮点性能 运算延迟
下载PDF
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
8
作者 黄立波 王志英 +1 位作者 沈立 马胜 《计算机工程与科学》 CSCD 北大核心 2012年第9期71-76,共6页
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提... SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。 展开更多
关键词 浮点乘加 单指令多数据 四精度
下载PDF
一种改进的浮点乘加器结构的延时分析
9
作者 靳战鹏 沈绪榜 田芳芳 《计算机应用研究》 CSCD 北大核心 2006年第6期85-87,120,共4页
针对一种改进的浮点乘加器结构,对关键路径的延时进行定量的估算,并将其与传统乘加器结构的延时进行比较。
关键词 浮点乘加器 关键路径 前导零 延时
下载PDF
高性能多通道浮点乘加器
10
作者 罗旻 沈绪榜 高德远 《计算机工程与应用》 CSCD 北大核心 2006年第12期12-15,26,共5页
随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B... 随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B×C乘积的位置,将整个处理过程分为四条数据通路,采用不同的数据处理通路,避免了不必要的处理延时。通过对比得出:多通道浮点乘加器无论在速度以及功耗上,都具有一定的优势。 展开更多
关键词 浮点乘加器 多通道 低功耗 数字信号处理
下载PDF
浮点乘加部件中有符号数前导0预测算法
11
作者 邹文聪 唐祯安 +2 位作者 王开宇 巢明 葛良伟 《中国集成电路》 2011年第2期31-35,共5页
前导0预测电路(LZA)作为浮点乘加部件关键模块之一,使得浮点乘加部件关键路径的延时大大减小。然而传统的前导0预测算法都是针对无符号数提出的,需要符号检测电路才能进行规格化移位。针对这一缺陷,本文提出了一种有符号数的LZA算法,避... 前导0预测电路(LZA)作为浮点乘加部件关键模块之一,使得浮点乘加部件关键路径的延时大大减小。然而传统的前导0预测算法都是针对无符号数提出的,需要符号检测电路才能进行规格化移位。针对这一缺陷,本文提出了一种有符号数的LZA算法,避免了符号检测电路所带来的关键路径的延时,更符合浮点乘加部件的设计需求。本文提出的算法已通过仿真验证,比传统算法的延时降低了11.8%。 展开更多
关键词 浮点乘加 前导0预测 有符号数 规格化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部