期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
1
作者 黄立波 王志英 +1 位作者 沈立 马胜 《计算机工程与科学》 CSCD 北大核心 2012年第9期71-76,共6页
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提... SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。 展开更多
关键词 浮点 单指令多数据 四精度
下载PDF
一种关于浮点乘加的测试方法
2
作者 王俊 文延华 漆锋滨 《计算机工程与应用》 CSCD 北大核心 2006年第5期85-87,116,共4页
目前浮点乘加部件的算法研究和实现已成为高性能微处理器研究的热点之一,对其进行测试也显得尤为重要和必要。论文介绍了一种浮点乘加的测试方法,并从特殊值和随机数两个角度进行测试。
关键词 浮点 中间 随机数值
下载PDF
浮点乘加部件中有符号数前导0预测算法
3
作者 邹文聪 唐祯安 +2 位作者 王开宇 巢明 葛良伟 《中国集成电路》 2011年第2期31-35,共5页
前导0预测电路(LZA)作为浮点乘加部件关键模块之一,使得浮点乘加部件关键路径的延时大大减小。然而传统的前导0预测算法都是针对无符号数提出的,需要符号检测电路才能进行规格化移位。针对这一缺陷,本文提出了一种有符号数的LZA算法,避... 前导0预测电路(LZA)作为浮点乘加部件关键模块之一,使得浮点乘加部件关键路径的延时大大减小。然而传统的前导0预测算法都是针对无符号数提出的,需要符号检测电路才能进行规格化移位。针对这一缺陷,本文提出了一种有符号数的LZA算法,避免了符号检测电路所带来的关键路径的延时,更符合浮点乘加部件的设计需求。本文提出的算法已通过仿真验证,比传统算法的延时降低了11.8%。 展开更多
关键词 浮点 前导0预测 有符号数 规格化
下载PDF
一种128位高性能全流水浮点乘加部件 被引量:4
4
作者 黎铁军 李秋亮 徐炜遐 《国防科技大学学报》 EI CAS CSCD 北大核心 2010年第2期56-60,共5页
高精度的浮点乘加融合(FMA)部件一直是高性能微处理器设计追求的目标。提出了一种128位精度全流水FMA体系结构,采用10级平衡流水线,重点对超宽位的乘法器、加法器、前导零预测和规格化进行了流水优化。设计综合的结果表明,基于SMIC0.13... 高精度的浮点乘加融合(FMA)部件一直是高性能微处理器设计追求的目标。提出了一种128位精度全流水FMA体系结构,采用10级平衡流水线,重点对超宽位的乘法器、加法器、前导零预测和规格化进行了流水优化。设计综合的结果表明,基于SMIC0.13μm工艺,该结构频率可以达到465MHz,比现有128位FMA性能提高了130%;在TSMC65nm工艺下,该结构的频率可达到1.075GHz,基本满足高性能计算的要求。 展开更多
关键词 浮点融合 前导零预测 高性能微处理器
下载PDF
一种64位浮点乘加器的设计与实现 被引量:3
5
作者 靳战鹏 白永强 沈绪榜 《计算机工程与应用》 CSCD 北大核心 2006年第18期95-98,共4页
乘加操作是许多科学与工程应用中的基本操作,特别是在图形加速器和DSP等应用领域,浮点乘加器有着广泛的应用。论文针对PowerPC603e微处理器系统,基于SMIC0.25μm1P5MCMOS工艺,采用正向全定制的电路及版图设计方法,设计实现了一个综合使... 乘加操作是许多科学与工程应用中的基本操作,特别是在图形加速器和DSP等应用领域,浮点乘加器有着广泛的应用。论文针对PowerPC603e微处理器系统,基于SMIC0.25μm1P5MCMOS工艺,采用正向全定制的电路及版图设计方法,设计实现了一个综合使用改进Booth算法、平衡的4-2压缩器构成的Wallace树形结构、先行进位加法器的支持IEEE-754标准的64bit浮点乘加器。 展开更多
关键词 改进Booth2算法 浮点 WALLACE树 全定制
下载PDF
一种改进的浮点乘加器结构的延时分析
6
作者 靳战鹏 沈绪榜 田芳芳 《计算机应用研究》 CSCD 北大核心 2006年第6期85-87,120,共4页
针对一种改进的浮点乘加器结构,对关键路径的延时进行定量的估算,并将其与传统乘加器结构的延时进行比较。
关键词 浮点 关键路径 前导零 延时
下载PDF
基于AltiVec技术的浮点乘加单元的设计
7
作者 赵明亮 樊晓桠 +1 位作者 黄小平 姚涛 《计算机测量与控制》 CSCD 北大核心 2010年第1期153-156,共4页
Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规... Alti Vec技术是为提高PowerPC的向量处理能力而对PowerPC指令集体系结构的扩展;浮点乘加单元是向量处理单元的主要构成部分,设计一种基于Alti Vec技术的向量浮点乘加单元;在基本浮点乘加器的基础上,提出了java模式下对非规格化数的预规格化处理;设计采用了一种半并行的结构,与传统的全并行结构相比可以节省一半的硬件面积;时钟频率为266 MHz时,java模式下5拍可以完成,非java模式下4拍可以完成。 展开更多
关键词 AltiVec 浮点 java模式 预规格化
下载PDF
面向人工智能的浮点乘加器设计
8
作者 陈正博 吴铁彬 +1 位作者 郑方 丁亚军 《计算机技术与发展》 2019年第8期96-101,共6页
近年来,面向人工智能领域的芯片快速发展,低精度和混合精度的乘加运算能力是人工智能芯片计算能力的核心指标,同时乘加部件也是人工智能芯片功率的主要消费者。面向人工智能领域应用需求,研究高性能、低能耗、低开销的浮点乘加器,对人... 近年来,面向人工智能领域的芯片快速发展,低精度和混合精度的乘加运算能力是人工智能芯片计算能力的核心指标,同时乘加部件也是人工智能芯片功率的主要消费者。面向人工智能领域应用需求,研究高性能、低能耗、低开销的浮点乘加器,对人工智能芯片的研发具有重要意义。文中设计了一种面向AI的浮点乘加器,支持单精度、半精度、单半混合精度的浮点乘加运算,也支持32位、16位和8位的整数乘法运算。该部件采用跨精度复用的设计思想,提出乘法器复用、移位器复用、前导零预测器复用等关键技术,在保证各类操作功能和性能的基础上,有效减少了芯片面积和功耗。文中完成了该部件的正确性测试和物理综合。实验结果表明,该部件能满足正确性要求,在28nm工艺条件下,对比无复用设计至少减少50.09%的面积和47.91%的功耗,综合运行频率达到2GHz。 展开更多
关键词 人工智能 浮点 单精度 半精度 单半混合精度
下载PDF
高性能多通道浮点乘加器
9
作者 罗旻 沈绪榜 高德远 《计算机工程与应用》 CSCD 北大核心 2006年第12期12-15,26,共5页
随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B... 随着面向数字信号处理以及其他相关领域的专用微处理技术的发展,浮点乘加运算变得日益重要。该操作将乘法和加法相融合,节省了整个运算的执行延时。基于多通路的思想,文章提出了一种改进的多通道浮点乘加器结构。根据对阶时A相对于B×C乘积的位置,将整个处理过程分为四条数据通路,采用不同的数据处理通路,避免了不必要的处理延时。通过对比得出:多通道浮点乘加器无论在速度以及功耗上,都具有一定的优势。 展开更多
关键词 浮点 多通道 低功耗 数字信号处理
下载PDF
面向E量级超算的并行循环压缩浮点乘加校验结构
10
作者 高剑刚 刘骁 +1 位作者 郑方 唐勇 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1103-1120,共18页
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制... E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%. 展开更多
关键词 浮点融合 可用性 浮点校验 并行循环压缩
下载PDF
电力系统对称分量法的实现研究 被引量:1
11
作者 刘健 李思颖 《华北理工大学学报(自然科学版)》 CAS 2018年第3期94-99,共6页
电力系统运行的稳定性和安全性事关重大,三相不平衡是能够影响电力系统安全的重要问题。对称分量法是研究三相不平衡问题的基本方法。本文论述了一种基于FPGA实现对称分量运算的方案,通过分析运算公式引出方案的设计思想,并描述了以浮... 电力系统运行的稳定性和安全性事关重大,三相不平衡是能够影响电力系统安全的重要问题。对称分量法是研究三相不平衡问题的基本方法。本文论述了一种基于FPGA实现对称分量运算的方案,通过分析运算公式引出方案的设计思想,并描述了以浮点复数乘加器为核心的具体实现方法。给出浮点复数乘加器的运行机制后,论述了浮点型乘法器和加法器的结构和执行过程。本方案已通过Altera公司的Cyclone Ⅱ芯片实现。可以快速、精确地实现算法,且实时性强,具有可扩展性。 展开更多
关键词 对称分量法 FPGA 浮点复数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部