期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于FPGA乘法器的FIR滤波器系统设计 被引量:6
1
作者 张婧霞 沈三民 翟成瑞 《电视技术》 北大核心 2012年第3期40-42,73,共4页
针对传统的FIR滤波器的缺点,介绍了一种基于FPGA乘法器的FIR滤波器设计方法,该滤波器利用FPGA自带的18位乘法器MULT18×18SIO进行乘法计算,利用寄存器对相乘结果进行累加,实现了FIR滤波功能。该滤波器具有占用极少的资源、提高滤波... 针对传统的FIR滤波器的缺点,介绍了一种基于FPGA乘法器的FIR滤波器设计方法,该滤波器利用FPGA自带的18位乘法器MULT18×18SIO进行乘法计算,利用寄存器对相乘结果进行累加,实现了FIR滤波功能。该滤波器具有占用极少的资源、提高滤波速度和高速灵活性等优点。 展开更多
关键词 FIR滤波器 FPGA 乘法器MULT18×18SIO 乘累加
下载PDF
高速FIR滤波器设计与FPGA实现 被引量:4
2
作者 鲁迎春 李祥 汪壮兵 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第12期1705-1707,共3页
文章主要研究了基于传统的乘累加(MAC)结构的FIR滤波器设计的2种方法,在此基础上研究了一种新的基于分布式算法(DA)的FIR滤波器设计的硬件结构,分析了DA算法结构较MAC结构的优点。最后设计了一个8阶8 bits的基于DA结构的FIR低通滤波器,... 文章主要研究了基于传统的乘累加(MAC)结构的FIR滤波器设计的2种方法,在此基础上研究了一种新的基于分布式算法(DA)的FIR滤波器设计的硬件结构,分析了DA算法结构较MAC结构的优点。最后设计了一个8阶8 bits的基于DA结构的FIR低通滤波器,并在Altera FPGA上进行硬件实现。 展开更多
关键词 有限长度脉冲响应数字滤波器 现场可编程逻辑门阵列 乘法累加器 分布式算法
下载PDF
基于高性能浮点乘累加器的浮点协处理器设计 被引量:1
3
作者 邹翠 谢憬 谢鑫君 《信息技术》 2014年第7期121-124,共4页
复杂运算中经常需要处理取值范围大、精度高的浮点型数据,一般的低端嵌入式内核中没有浮点硬件单元,采用软件模拟浮点运算往往不能满足实时性要求。现研究基于高性能浮点乘累加的通用浮点协处理器设计与实现,重点研究提升浮点运算能力... 复杂运算中经常需要处理取值范围大、精度高的浮点型数据,一般的低端嵌入式内核中没有浮点硬件单元,采用软件模拟浮点运算往往不能满足实时性要求。现研究基于高性能浮点乘累加的通用浮点协处理器设计与实现,重点研究提升浮点运算能力、减少硬件开销等关键技术。实验结果显示向量浮点协处理器运算周期减少40%以上。 展开更多
关键词 浮点运算 浮点乘累加(FPMAC) 批量运算 浮点协处理器
下载PDF
M-DSP中高性能浮点乘加器的设计与实现 被引量:1
4
作者 车文博 刘衡竹 田甜 《计算机应用》 CSCD 北大核心 2016年第8期2213-2218,共6页
针对高性能M型数字信号处理器(M-DSP)对浮点运算的性能、面积和功耗要求,研究分析了M-DSP总体结构和浮点运算的指令特点,设计和实现了一种高性能低功耗的浮点乘累加器(FMAC)。该乘加器采用单、双精度通路分离的主体结构,分为六级流水站... 针对高性能M型数字信号处理器(M-DSP)对浮点运算的性能、面积和功耗要求,研究分析了M-DSP总体结构和浮点运算的指令特点,设计和实现了一种高性能低功耗的浮点乘累加器(FMAC)。该乘加器采用单、双精度通路分离的主体结构,分为六级流水站执行,对乘法器、对阶移位等关键模块进行了复用设计,支持双精度和单精度浮点乘法、乘累加、乘累减、单精度点积和复数运算。对所设计的乘加器进行了全面的验证,基于45 nm工艺采用Synopsys公司的Design Compiler工具综合所设计的代码,综合结果表明运行频率可达1 GHz,单元面积36 856μm2;与FT-XDSP中的乘加器相比,面积节省了12.95%,关键路径长度减少了2.17%。 展开更多
关键词 浮点乘法 浮点乘累加器 浮点点积 布斯算法 IEEE754
下载PDF
基于RNS算法的高阶FIR滤波器设计 被引量:1
5
作者 王巍 李双巧 +4 位作者 徐媛媛 杨正琳 袁军 王冠宇 何雍春 《微电子学》 CSCD 北大核心 2017年第6期788-792,共5页
以{2~n-1,2~n,2~n+1,2^(n-1)-1,2^(n+1)-1}为余数基,在余数系统(RNS)的基础上设计了一种128抽头有限脉冲响应(FIR)滤波器。针对大位宽输入,利用基于华莱士(Wallace)树结构的纯组合逻辑电路,实现了二进制到余数的转换。相较于一般抽头中... 以{2~n-1,2~n,2~n+1,2^(n-1)-1,2^(n+1)-1}为余数基,在余数系统(RNS)的基础上设计了一种128抽头有限脉冲响应(FIR)滤波器。针对大位宽输入,利用基于华莱士(Wallace)树结构的纯组合逻辑电路,实现了二进制到余数的转换。相较于一般抽头中乘法器级联加法器的结构,设计的乘累加(MAC)单元将加法运算合并到部分积求和中,减少了一级模加法器,使得电路延时进一步减少。此外,通过对进位保留加法器(CSA)的中间结果取模,避免了加法运算引起的位宽增加,从而降低了整个运算的复杂度。电路在FPGA上设计实现。实验结果表明,该滤波器的延时为3.55ns,功耗为2 585mW,消耗的硬件资源明显降低。 展开更多
关键词 FIR滤波器 余数系统 前向转换 乘累加单元
下载PDF
浮点乘累加处理单元的FPGA实现 被引量:5
6
作者 金席 高小鹏 龙翔 《计算机与数字工程》 2006年第10期165-168,179,共5页
稀疏矩阵向量乘(Sparse M atrix-VectorMu ltip ly,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。在基于FPGA实现的SMVM系统中,其底层基本处理单元(Processing E lem ent,PE)的主要功能,是对单精度... 稀疏矩阵向量乘(Sparse M atrix-VectorMu ltip ly,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。在基于FPGA实现的SMVM系统中,其底层基本处理单元(Processing E lem ent,PE)的主要功能,是对单精度浮点输入进行乘累加运算。本文针对SMVM算法的特点,提出浮点乘累加PE的设计方案,并在V irtex4LX60上加以实现,工作频率达到123.6MHz。 展开更多
关键词 乘累加 浮点 稀疏矩阵向量乘 FPGA
下载PDF
一种实时雷达脉冲信号检测算法及其性能分析 被引量:2
7
作者 王芳 王旭东 潘明海 《现代电子技术》 2012年第7期5-8,共4页
提出了一种新的实时雷达脉冲信号检测算法,该算法首先将数据分为两路,对一路进行单点滑动、取共轭,然后与另一路信号相乘,再累加、取模,最后与门限比较,得到检测结果。算法具有递推和流水结构,硬件实现时只需一个复数乘法器、一个复数... 提出了一种新的实时雷达脉冲信号检测算法,该算法首先将数据分为两路,对一路进行单点滑动、取共轭,然后与另一路信号相乘,再累加、取模,最后与门限比较,得到检测结果。算法具有递推和流水结构,硬件实现时只需一个复数乘法器、一个复数加法器、一个复数减法器和一个复数取模运算器。在此采用一阶扰动分析,推导了算法起始点检测误差的解析式,给出了算法性能边界,仿真结果验证了理论推导的正确性。与其他信号检测算法相比,该算法结构规整,易于硬件应用,可实现实时检测。 展开更多
关键词 雷达脉冲 信号检测 单点滑动 乘法累加
下载PDF
A Configurable Circuit for Cross-Correlation in Real-Time Image Matching
8
作者 Quan Zhou Liang Yang Hui Cao 《Journal of Computer Science & Technology》 SCIE EI CSCD 2017年第6期1305-1318,共14页
Cross-correlation (CC) is the most time-consuming in the implementation of image matching algorithms based on the correlation method. Therefore, how to calculate CC fast is crucial to real-time image matching. This ... Cross-correlation (CC) is the most time-consuming in the implementation of image matching algorithms based on the correlation method. Therefore, how to calculate CC fast is crucial to real-time image matching. This work reveals that the single cascading multiply-accumulate (CAMAC) and concurrent multiply-accumulate (COMAC) architectures which have been widely used in the past, actually, do not necessarily bring about a satisfactory time performance for CC. To obtain better time performance and higher resource efficiency, this paper proposes a configurable circuit involving the advantages of CAMAC and COMAC for a large amount of multiply-accumulate (MAC) operations of CC in exhaustive search. The proposed circuit works in an array manner and can better adapt to changing size image matching in real-time processing. Experimental results demonstrate that this novel circuit which involves the two structures can complete vast MAC calculations at a very high speed. Compared with existing related work, it improves the computation density further and is more flexible to use. 展开更多
关键词 CROSS-CORRELATION image matching multiply-accumulate speed-up ratio template matching
原文传递
系统中浮点乘累加PE的设计与实现
9
作者 金席 高小鹏 龙翔 《计算机工程与应用》 CSCD 北大核心 2006年第35期107-109,共3页
稀疏矩阵向量乘(Sparse Matrix-Vector Multiply,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。稀疏矩阵中非零元素的稀疏性,使得在微处理器上实现该类运算时,存在Cache缺失率高等问题,导致性能并不... 稀疏矩阵向量乘(Sparse Matrix-Vector Multiply,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。稀疏矩阵中非零元素的稀疏性,使得在微处理器上实现该类运算时,存在Cache缺失率高等问题,导致性能并不理想。针对该问题提出了基于FPGA实现SMVM运算系统的新思路,对系统功能进行了软硬件划分,并完成了系统中硬件浮点乘累加处理单元(ProcessingElement,PE)的设计与实现。目标器件为Virtex4LX60,工作频率达到123.6MHz。 展开更多
关键词 乘累加 浮点 稀疏矩阵向量乘 FPGA
下载PDF
FPGA中适用于低位宽乘累加的DSP块 被引量:1
10
作者 樊迪 王健 来金梅 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期575-584,共10页
Xilinx和Intel生产的许多先进现场可编程门阵列(Field Programmable Gate Array,FPGA)中,通常采用具有较高的固定位宽乘法器的数字信号处理(Digital Signal Processing,DSP)模块,它们往往不能高效支持低位宽乘累加(Multiply Accumulate,... Xilinx和Intel生产的许多先进现场可编程门阵列(Field Programmable Gate Array,FPGA)中,通常采用具有较高的固定位宽乘法器的数字信号处理(Digital Signal Processing,DSP)模块,它们往往不能高效支持低位宽乘累加(Multiply Accumulate,MAC)运算.为解决这一问题,本文提出一种支持低位宽乘累加的新DSP块,在实现Xilinx DSP48E1功能的基础上,通过数据移位、乘法器拆分与后置加法器单指令流多数据流(Single Instruction Multiple Data,SIMD)功能的配合,可以并行实现2个8-bit乘累加或2对共享乘数的4-bit乘累加,同时留出足够的保护位防止溢出.其中,乘法器拆分可减少部分积压缩时间,而新功能提高了DSP块利用率,从而使计算多个低位宽乘累加时所需DSP块数目变少,总使用面积减少.实验结果表明:与实现DSP48E1功能的基础DSP相比,新DSP计算速度提升了9%,当实现2倍数目的8-bit乘累加和实现4倍数目的共享乘数的4-bit乘累加时,DSP块使用总面积均减少40.8%,而单个DSP块面积增加18%.与其他文献中支持低位宽乘累加的DSP块相比,新DSP块对于4-bit乘累加的支持进一步增强,且改进方法更适应Xilinx DSP块的功能特点. 展开更多
关键词 现场可编程门阵列 数字信号处理 乘累加 低位宽
下载PDF
Optimization design of 24bit parallel MAC unit with saturation
11
作者 张萌 贾俊波 《Journal of Southeast University(English Edition)》 EI CAS 2006年第4期475-478,共4页
An efficient design method for a 24 × 24 bit +48 bit parallel saturating multiply-accumulate (MAC) unit is described. The augend in the MAC is merged as a partial product into Wallace tree array. The optimized... An efficient design method for a 24 × 24 bit +48 bit parallel saturating multiply-accumulate (MAC) unit is described. The augend in the MAC is merged as a partial product into Wallace tree array. The optimized saturation detection logic is proposed. The 679. 2 μm × 132. 5μm area size has been achieved in 0. 18 μm 1.8 V 1P6M CMOS technology by the full-custom circuit layout design. The simulation results show that the design way has significantly less area (about 23.52% reduction) and less delay than those of the common saturating MAC based on standard cell library. 展开更多
关键词 multiply-accumulate Booth encoding Wallace tree saturation detection layout design
下载PDF
乘累加运算器的高性能解决方案 被引量:1
12
作者 周昔平 高德远 樊晓桠 《微电子学与计算机》 CSCD 北大核心 2002年第11期21-24,64,共5页
在设计数字信号处理器时我们经常要设计高性能的乘累加运算器。文章详细分析了乘累加运算器的结构,提出了其高性能设计方案并采用标准单元进行了实现,同时提出了DCT运算单元的高性能解决方案。
关键词 乘累加运算器 高性能 压缩单元 DCT 数字信号处理器
下载PDF
一种支持SIMD指令的流水化可拆分乘加器结构 被引量:2
13
作者 李东晓 《计算机工程》 CAS CSCD 北大核心 2006年第7期264-266,共3页
乘加器是媒体数字信号处理器的关键运算部件。该文结合32位数字信号处理器芯片MD32开发(“863”计划)实践,提出了一种流水化可拆分的乘加器硬件实现结构,通过对乘法操作的流水处理实现了200MHz工作频率下的单周期吞吐量指标,通过构造可... 乘加器是媒体数字信号处理器的关键运算部件。该文结合32位数字信号处理器芯片MD32开发(“863”计划)实践,提出了一种流水化可拆分的乘加器硬件实现结构,通过对乘法操作的流水处理实现了200MHz工作频率下的单周期吞吐量指标,通过构造可拆分的数据通道实现了对SIMD乘法指令的支持,支持4个通道16位媒体数据的并行乘法,大大提升了处理器的媒体处理性能。文中对所提出的乘加器体系结构,给出了理论依据和实验结果,通过MD32的流片实现得到了物理验证。 展开更多
关键词 乘加器 SIMD 流水化 可拆分
下载PDF
基于FPGA的电力电子系统电磁暂态实时仿真通用解算器 被引量:3
14
作者 周斌 汪光森 +2 位作者 李卫超 王志伟 揭贵生 《电工技术学报》 EI CSCD 北大核心 2023年第14期3862-3874,共13页
电力电子系统较高的开关频率给传统以CPU为计算核心的电磁暂态(EMT)实时仿真带来了挑战。为了实现小步长实时仿真,该文提出并实现一款基于FPGA的EMT实时仿真解算器。该解算器的通用化框架分为离线和在线两部分,离线程序能够自动获取仿... 电力电子系统较高的开关频率给传统以CPU为计算核心的电磁暂态(EMT)实时仿真带来了挑战。为了实现小步长实时仿真,该文提出并实现一款基于FPGA的EMT实时仿真解算器。该解算器的通用化框架分为离线和在线两部分,离线程序能够自动获取仿真模型的参数并生成计算数据,在线程序能够自动配置计算资源与控制逻辑。为了提高仿真速度,还提出一种低延迟的单周期浮点累加方法,用于构建解算器的基本计算单元。基于Xilinx Virtex7 xc7vx485t型FPGA芯片的评估与分析结果表明:相比某商业FPGA实时仿真解算器,该文解算器的仿真速度提高了一倍,仿真规模增加了29.69%~79.17%。最后,还通过两种电力电子变换器的实时仿真测试,验证了它的实际性能。所提解算器能够达到400 MHz的运行速度、100 ns级的仿真步长并保持较高的仿真精度,具有通用性强、自动化程度高、配置灵活等特点。 展开更多
关键词 电力电子系统 FPGA 实时仿真 通用解算器 浮点数乘累加
下载PDF
基于FPGA的MAC FIR滤波器的实现 被引量:2
15
作者 胡少轩 《山西焦煤科技》 2011年第11期44-46,共3页
FIR滤波器在通信、图像处理、模式识别等领域都有着广泛的应用。本文设计了基于乘累加器(Multiply Accumulation,MAC)的有限冲激响应滤波器(Finite Impulse Response Filter),介绍了其优点及详细的设计方法,并给出了基于FPGA的实现流程... FIR滤波器在通信、图像处理、模式识别等领域都有着广泛的应用。本文设计了基于乘累加器(Multiply Accumulation,MAC)的有限冲激响应滤波器(Finite Impulse Response Filter),介绍了其优点及详细的设计方法,并给出了基于FPGA的实现流程,最后进行了基于JTAG的硬件协同仿真验证。仿真与实验结果验证了所提出MAC FIR的正确性与有效性。 展开更多
关键词 FIR MAC FPGA 数字信号处理
下载PDF
基于NOR Flash的存算一体模拟乘加电路设计 被引量:2
16
作者 丁士鹏 黄鲁 《信息技术与网络安全》 2021年第6期69-74,共6页
提出一种基于NOR Flash的存算一体模拟乘加电路以及相应的偏置电路,运用NOR Flash工作于深线性区的I-V特性,实现模拟乘累加运算。通过将同一位线、不同字线的两个浮栅管上电流相减,实现其阈值电压差值与漏源电压的乘法运算。同时将同一... 提出一种基于NOR Flash的存算一体模拟乘加电路以及相应的偏置电路,运用NOR Flash工作于深线性区的I-V特性,实现模拟乘累加运算。通过将同一位线、不同字线的两个浮栅管上电流相减,实现其阈值电压差值与漏源电压的乘法运算。同时将同一字线、不同位线的浮栅管电流相加,实现乘法结果的加法运算。给出电路使NOR Flash位线电流相加、字线电流相减,将运算结果以伪差分的形式输出,仿真结果表明电路可以实现存算一体的模拟乘累加运算。 展开更多
关键词 NOR Flash 存算一体 模拟乘累加电路
下载PDF
基于高精度乘累加的LU分解加速器的设计 被引量:2
17
作者 雷元武 窦勇 +2 位作者 郭松 李鑫 雷国庆 《计算机工程与科学》 CSCD 北大核心 2009年第11期33-36,共4页
本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验... 本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验结果表明,和高精度软件库QD或MPFR相比,4PE结构的LU分解加速器能够取得100倍的加速比,同时取得90多位的计算精度。 展开更多
关键词 舍入误差 LU分解 高精度乘累加
下载PDF
新型的DSP处理器高速低功耗多功能乘累加单元(英文)
18
作者 高健 陈杰 《电子器件》 EI CAS 2006年第1期48-52,57,共6页
介绍了一种采用新型结构的应用于DSP处理器的多功能高速低功耗乘累加单元(MAC)。该设计采用了异步互锁流水线技术,极大的降低了功耗。在整个设计的关键路径即部分积产生和生成部分采用的互补部分积字校正(CPPWC)和三维压缩法(TDM)很好... 介绍了一种采用新型结构的应用于DSP处理器的多功能高速低功耗乘累加单元(MAC)。该设计采用了异步互锁流水线技术,极大的降低了功耗。在整个设计的关键路径即部分积产生和生成部分采用的互补部分积字校正(CPPWC)和三维压缩法(TDM)很好的优化了设计,提高了速度。嵌入该乘累加单元的DSP处理器采用SMIC0.18CMOS工艺进行了流片。经测试,该设计优于采用传统结构的同类设计,其时延为3.34ns,功耗为13.9247mW。 展开更多
关键词 乘累加单元 异步流水线 部分积字校正 三维压缩法
下载PDF
一种高速DSP中延迟优化的乘累加单元的设计与实现(英文)
19
作者 Sheraz Anjum 陈杰 李海军 《电子器件》 CAS 2007年第4期1375-1379,共5页
乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16+4... 乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16+40的无符号和带符号的二进制补码操作.在关键路径延迟上,本文的乘累加单元比其他任何使用相同或不同算数技术实现的乘累加单元都更优.本文的乘累加单元已成功使用于synopsys的工具,并与synopsys的Design Ware库中相同位宽的乘累加单元比较.比较结果表明,本文的乘累加单元比Design Ware库中的任何其他实现都要快,适合于在需要高吞吐率的DSP核中使用.注意:比较是在Design compiler中使用相同属性和开关下进行的. 展开更多
关键词 乘累加单元 改进的波兹编码 部分积 修整向量 Wallace树压缩器 进位保留加法器 进位传播加法器
下载PDF
二进制张量分解法简化神经网络推理计算
20
作者 郝一帆 杜子东 支天 《高技术通讯》 CAS 2022年第7期687-695,共9页
针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的... 针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的计算重复,并保持计算结果不变,即无需重训练。在比特级简化模型计算的IBTF算法与量化、稀疏等数据级简化方法正交,即可以协同使用,从而进一步减少MAC计算量。实验结果表明,在多个主流神经网络中,相较于量化与稀疏后的模型,IBTF进一步使计算量减少了3.32倍,并且IBTF在不同卷积核大小、不同权值位宽及不同稀疏率的卷积运算中都发挥了显著的效果。 展开更多
关键词 神经网络 二进制张量分解(IBTF) 乘积累加运算(MAC)
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部