期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
一种64位浮点乘加器的设计与实现 被引量:3
1
作者 靳战鹏 白永强 沈绪榜 《计算机工程与应用》 CSCD 北大核心 2006年第18期95-98,共4页
乘加操作是许多科学与工程应用中的基本操作,特别是在图形加速器和DSP等应用领域,浮点乘加器有着广泛的应用。论文针对PowerPC603e微处理器系统,基于SMIC0.25μm1P5MCMOS工艺,采用正向全定制的电路及版图设计方法,设计实现了一个综合使... 乘加操作是许多科学与工程应用中的基本操作,特别是在图形加速器和DSP等应用领域,浮点乘加器有着广泛的应用。论文针对PowerPC603e微处理器系统,基于SMIC0.25μm1P5MCMOS工艺,采用正向全定制的电路及版图设计方法,设计实现了一个综合使用改进Booth算法、平衡的4-2压缩器构成的Wallace树形结构、先行进位加法器的支持IEEE-754标准的64bit浮点乘加器。 展开更多
关键词 改进Booth2算法 浮点乘加器 WALLACE树 全定制
下载PDF
全流水线结构双精度浮点乘加单元的设计 被引量:2
2
作者 蔡敏 闵言灿 《微电子学与计算机》 CSCD 北大核心 2010年第1期53-56,60,共5页
提出了一种支持非规格化数的全流水线结构双精度浮点乘加单元(Multiply-Add-Fused Unit,MAF,A×C+B).该乘加单元并行处理了主加法和舍入操作,解决了进位保存形式的乘法结果带来的一位误差,改进了规格化移位以便于流水线的划分.整个... 提出了一种支持非规格化数的全流水线结构双精度浮点乘加单元(Multiply-Add-Fused Unit,MAF,A×C+B).该乘加单元并行处理了主加法和舍入操作,解决了进位保存形式的乘法结果带来的一位误差,改进了规格化移位以便于流水线的划分.整个乘加单元划分为三级流水线,在0.13μm CMOS标准单元库中,综合结果支持333 MHz的时钟频率. 展开更多
关键词 乘加单元 流水线 非规格化数
下载PDF
一种高性能四倍精度浮点乘加器的设计与实现 被引量:1
3
作者 何军 黄永勤 朱英 《计算机工程》 CAS CSCD 2014年第2期294-299,共6页
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全... 高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。 展开更多
关键词 浮点运算 乘加 四倍精度 高精度 参数化
下载PDF
浮点乘加部件的自动化形式验证 被引量:1
4
作者 陈博文 郭琦 沈海华 《计算机研究与发展》 EI CSCD 北大核心 2010年第S1期262-267,共6页
浮点运算部件的功能验证是处理器设计验证中重要的一环.相对于传统的模拟仿真方法,形式化方法具有验证完备且时间短的优点.给出了一种浮点乘加部件的形式化验证方法.该方法基于BDD和*PHDD,将设计分为3部分多种情况分别验证.其优点在于... 浮点运算部件的功能验证是处理器设计验证中重要的一环.相对于传统的模拟仿真方法,形式化方法具有验证完备且时间短的优点.给出了一种浮点乘加部件的形式化验证方法.该方法基于BDD和*PHDD,将设计分为3部分多种情况分别验证.其优点在于自动化程度高、划分粒度粗、可广泛适用于工业级设计.该方法已应用于龙芯3A浮点乘加部件的验证,验证结果显示出该方法具有良好的时空复杂度. 展开更多
关键词 形式化验证 运算电路 乘加部件 BDD *PHDD
下载PDF
浮点乘加部件中三操作数前导1预测算法的设计 被引量:8
5
作者 梅小露 《微电子学与计算机》 CSCD 北大核心 2005年第12期16-20,共5页
提出了一种应用于高效浮点乘加部件的三操作数前导1预测算法。高效浮点乘加部件需要实现三个操作数的前导1预测(LOP)电路,传统的LOP算法不能直接处理三个操作数,通过间接方法实现又会增加关键路径延时并增大电路面积。三操作数LOP算法... 提出了一种应用于高效浮点乘加部件的三操作数前导1预测算法。高效浮点乘加部件需要实现三个操作数的前导1预测(LOP)电路,传统的LOP算法不能直接处理三个操作数,通过间接方法实现又会增加关键路径延时并增大电路面积。三操作数LOP算法是针对传统LOP算法的这一局限提出的,可以有效缩短前导1预测电路的延时并减少面积,从而缩短整个乘加部件的延时。文章以龙芯2号通用CPU中浮点乘加部件的106位前导1预测电路为例,分别采用传统LOP算法和三操作数LOP算法实现了电路,实验结果表明,三操作数LOP算法比传统算法延时能降低约16.67%,总面积减少约19.63%。 展开更多
关键词 前导1预测 三操作数 乘加部件
下载PDF
一种快速SIMD浮点乘加器的设计与实现 被引量:5
6
作者 吴铁彬 刘衡竹 +2 位作者 杨惠 张剑锋 侯申 《计算机工程与科学》 CSCD 北大核心 2012年第1期69-73,共5页
本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz... 本文设计和实现了5级全流水SIMD浮点乘加器,支持双精度和双单精度浮点乘法、乘累加(减)操作,用Modelsim和NC Verilog测试和验证了RTL代码实现,基于65nm工艺采用Synopsys公司的Design Complier工具综合硬件实现,运行频率可达714.286MHz。结果表明,相比文献[3]中经典的低延迟乘加结构,在相同综合条件下性能提升了17.89%,面积增加了6.61%,功耗降低了25.08%。 展开更多
关键词 浮点乘法 浮点乘累加 SIMD 双单精度
下载PDF
过采样转换器中数字滤波器设计 被引量:3
7
作者 许波 林争辉 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第6期800-802,共3页
利用半带滤波器中冲激响应的对称性 ,引进新算法实现乘加运算块内的操作 ,改变内存存储和寻址方式 ,设计了低功耗、高速率的抽取和内插数字滤波器的集成电路 .实验结果表明 ,它大大改善了滤波器的功耗、速率等性能 ,减少了卷积运算中的... 利用半带滤波器中冲激响应的对称性 ,引进新算法实现乘加运算块内的操作 ,改变内存存储和寻址方式 ,设计了低功耗、高速率的抽取和内插数字滤波器的集成电路 .实验结果表明 ,它大大改善了滤波器的功耗、速率等性能 ,减少了卷积运算中的移位次数和加法器数目 。 展开更多
关键词 数字滤波器 乘加运算块 过采样转换器 设计
下载PDF
一种128位高精度浮点乘加部件的研究与实现 被引量:4
8
作者 张峰 黎铁军 徐炜遐 《计算机工程与科学》 CSCD 北大核心 2009年第2期93-96,103,共5页
高性能高精度的浮点数值处理一直是科学计算追求的目标。为此,本文研究并实现了一种128位浮点乘加融合计算单元。在乘法模块中,使用分块乘法,复用57位乘法模块,减小了数据宽度。采用三输入前导1预期技术,简化了预编码,缩短了预测电路的... 高性能高精度的浮点数值处理一直是科学计算追求的目标。为此,本文研究并实现了一种128位浮点乘加融合计算单元。在乘法模块中,使用分块乘法,复用57位乘法模块,减小了数据宽度。采用三输入前导1预期技术,简化了预编码,缩短了预测电路的延时并减小面积。该模块单元使用Verilog语言实现,用Design Compiler进行逻辑综合,在simc0.13μm工艺下频率达202MHz,关键路径延时为4.93μs,面积约为191000门。 展开更多
关键词 乘加融合 三输入前导1预测 浮点部件
下载PDF
面向E量级超算的并行循环压缩浮点乘加校验结构
9
作者 高剑刚 刘骁 +1 位作者 郑方 唐勇 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1103-1120,共18页
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制... E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%. 展开更多
关键词 浮点融合乘加 可用性 浮点校验 模加器 并行循环压缩
下载PDF
基于FPGA的红外图像非均匀性校正技术 被引量:3
10
作者 周建勇 尹玉梅 +1 位作者 唐遵烈 蒋志伟 《半导体光电》 EI CAS CSCD 北大核心 2007年第2期273-274,278,共3页
提出一种以内嵌软核的FPGA为核心的红外图像非均匀性校正系统,该系统能实现红外焦平面的实时非均匀性校正以及疵点补偿。其主要优点有:用FPGA实现乘加运算,速度非常快,能很好地解决实时处理问题;降低了硬件电路设计的难度,使得非均匀性... 提出一种以内嵌软核的FPGA为核心的红外图像非均匀性校正系统,该系统能实现红外焦平面的实时非均匀性校正以及疵点补偿。其主要优点有:用FPGA实现乘加运算,速度非常快,能很好地解决实时处理问题;降低了硬件电路设计的难度,使得非均匀性校正与疵点补偿的整个系统中各个功能之间的配合更简单化。 展开更多
关键词 红外图像 非均匀性校正 FPGA 嵌入CPU 疵点补偿 乘加运算
下载PDF
使用融合乘加加速快速傅里叶变换计算的向量化方法 被引量:3
11
作者 刘仲 陈海燕 向宏卫 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第2期72-78,共7页
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作... 融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。 展开更多
关键词 快速傅里叶变换 融合乘加 向量化 向量处理器
下载PDF
分离通路浮点乘加器设计与实现 被引量:1
12
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第8期28-33,共6页
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克... 针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um2。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25%,平均提高1.61%,证明SPFMA可进一步提高浮点性能。 展开更多
关键词 浮点加法 浮点乘法 融合乘加 分离通路 浮点性能 运算延迟
下载PDF
可重构浮点混合/连续乘-加器的设计与实现 被引量:1
13
作者 洪琪 何敏 +1 位作者 范继聪 袁粲 《计算机工程》 CAS CSCD 2014年第7期272-276,共5页
浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多... 浮点连续乘-加、混合乘-加和三操作数加等浮点算术运算在科学计算领域中应用越来越频繁,为设计一款支持浮点连续乘-加、混合乘-加和三操作数加的多功能浮点运算单元,提出一种可重构浮点混合/连续乘-加器,通过对控制位的配置可以实现多种浮点数据操作。该乘-加器采用8级流水线,可以实现单周期的浮点乘累加,大幅提高数据处理吞吐量,同时支持三操作数加和两操作数和的累加。在Modelsim SE6.6f中对该设计进行仿真验证,结果表明其能够在Xilinx Virtex-6 FPGA上实现,资源消耗2 631个LUT,频率可达250 MHz,结果证明该浮点混合/连续乘-加器具有较大的使用价值。 展开更多
关键词 浮点 连续乘-加 混合乘-加 三操作数加 可重构 流水线
下载PDF
浮点及整数混合运算器的设计与实现 被引量:2
14
作者 何星宏 阴亚芳 戴程 《微电子学与计算机》 CSCD 北大核心 2018年第2期52-55,60,共5页
针对现行普遍的浮点运算器耗费面积较大,功能实现结构松散的问题,设计实现一款浮点及整数混合运算器(Mixture-Arithmetic Logic Unit,M-ALU).该运算器基于基4算法华莱士树型结构,并尝试一种新的阶码对齐方法,合并整数运算与浮点运算处... 针对现行普遍的浮点运算器耗费面积较大,功能实现结构松散的问题,设计实现一款浮点及整数混合运算器(Mixture-Arithmetic Logic Unit,M-ALU).该运算器基于基4算法华莱士树型结构,并尝试一种新的阶码对齐方法,合并整数运算与浮点运算处理逻辑.在三级流水线结构下可准确完成单精度浮点数,扩展精度浮点数以及整数基本运算.采用基于synopsys提供的Design Compler综合工具在SMIC 65nm工艺库下完成综合,达到500MHz主频. 展开更多
关键词 IEEE754 SYSTEMVERILOG 乘加运算 整数 浮点
下载PDF
浮点乘加部件延迟对浮点性能影响的研究
15
作者 何军 田增 +1 位作者 郭勇 陈诚 《计算机工程》 CAS CSCD 2013年第7期311-313,317,共4页
浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器... 浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器平台,对SPEC CPU2000浮点测试课题进行评估。实验结果表明,该延迟优化有利于提高浮点性能,最大提高5.25%,平均提高1.61%。 展开更多
关键词 浮点加法 浮点乘法 融合乘加 硬件仿真 浮点性能 运算延迟
下载PDF
基于SIMD部件的四倍精度浮点乘加器设计
16
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第12期15-18,51,共5页
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减... 如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。 展开更多
关键词 浮点 SIMD部件 乘加 四倍精度 高精度
下载PDF
浮点乘加部件中有符号数前导0预测算法
17
作者 邹文聪 唐祯安 +2 位作者 王开宇 巢明 葛良伟 《中国集成电路》 2011年第2期31-35,共5页
前导0预测电路(LZA)作为浮点乘加部件关键模块之一,使得浮点乘加部件关键路径的延时大大减小。然而传统的前导0预测算法都是针对无符号数提出的,需要符号检测电路才能进行规格化移位。针对这一缺陷,本文提出了一种有符号数的LZA算法,避... 前导0预测电路(LZA)作为浮点乘加部件关键模块之一,使得浮点乘加部件关键路径的延时大大减小。然而传统的前导0预测算法都是针对无符号数提出的,需要符号检测电路才能进行规格化移位。针对这一缺陷,本文提出了一种有符号数的LZA算法,避免了符号检测电路所带来的关键路径的延时,更符合浮点乘加部件的设计需求。本文提出的算法已通过仿真验证,比传统算法的延时降低了11.8%。 展开更多
关键词 浮点乘加 前导0预测 有符号数 规格化
下载PDF
IDEA算法在JAVA下的编程实现
18
作者 朱军 《计算机光盘软件与应用》 2011年第8期164-165,共2页
IDEA是一种较好的分组密码算法,用软硬件都比较容易实现,被广泛应用于各种商业软件中。文章着重介绍了IDEA算法的原理和在JAVA语言中的实现技术,并给出部分关键源代码。
关键词 IDEA MA乘加模块 JAVA
下载PDF
基于AltiVec技术的浮点乘加单元的设计
19
作者 赵明亮 樊晓桠 +1 位作者 黄小平 姚涛 《计算机测量与控制》 CSCD 北大核心 2010年第1期153-156,共4页
Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规... Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规格化处理;设计采用了一种半并行的结构,与传统的全并行结构相比可以节省一半的硬件面积;时钟频率为266 MHz时,java模式下5拍可以完成,非java模式下4拍可以完成。 展开更多
关键词 AltiVec 浮点乘加器 java模式 预规格化
下载PDF
一种改进的浮点乘加器结构的延时分析
20
作者 靳战鹏 沈绪榜 田芳芳 《计算机应用研究》 CSCD 北大核心 2006年第6期85-87,120,共4页
针对一种改进的浮点乘加器结构,对关键路径的延时进行定量的估算,并将其与传统乘加器结构的延时进行比较。
关键词 浮点乘加器 关键路径 前导零 延时
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部