期刊文献+
共找到179篇文章
< 1 2 9 >
每页显示 20 50 100
基于状态空间模型广义预测控制的并行算法 被引量:5
1
作者 慕德俊 戴冠中 《控制理论与应用》 EI CAS CSCD 北大核心 1995年第5期646-652,共7页
本文首先基于脉动(Systolic)阵列结构,提出了一种实时参数辨识的并行算法,然后推导出基于状态空间模型广义预测控制(GPC)的两种新算法,这两种算法都可以通过阵列结构并行实现.
关键词 广义 预测控制 并行算法 systolic阵列
下载PDF
大数模幂乘运算的VLSI实现 被引量:5
2
作者 陈弘毅 盖伟新 《电子学报》 EI CAS CSCD 北大核心 1999年第2期8-17,共10页
信息加密、数字签名、身份验证等等是信息安全领域的重要内容,只有公钥密码体制才能很好地解决这些问题.大数模幂乘运算是许多公钥密码体制的核心运算,也是运算效率提高的瓶颈.基于Montgomery模乘变换,构造了一种新型的... 信息加密、数字签名、身份验证等等是信息安全领域的重要内容,只有公钥密码体制才能很好地解决这些问题.大数模幂乘运算是许多公钥密码体制的核心运算,也是运算效率提高的瓶颈.基于Montgomery模乘变换,构造了一种新型的脉动阵列架构模乘运算器.结合简单二进制幂运算算法,采用08μmCMOS工艺,成功地设计并制造了256bit模幂乘运算器THM256,电路规模为18677门,芯片面积为1763mm2.芯片能工作在90MHz以上,功耗低于15W.数据模幂乘运算速度能达到117kbps. 展开更多
关键词 RSA 公钥密码体制 模幂乘运算 VLSI
下载PDF
基于输入输出模型广义预测控制的并行算法 被引量:3
3
作者 慕德俊 佟明安 戴冠中 《控制理论与应用》 EI CAS CSCD 北大核心 1997年第1期80-84,共5页
本文提出了脉动(Systolic)算法实现基于输入输出模型的参数辨识及广义预测自校正控制,给出了相应阵列结构并行实现这些算法,时序分析表明该方法可使广义预测自校正控制的实时性得到很大提高.
关键词 systolic算法 参数辨识 广义预测控制 自动控制
下载PDF
基于快速逆QR分解的自适应波束形成方法 被引量:5
4
作者 李荣锋 王永良 万山虎 《系统工程与电子技术》 EI CSCD 北大核心 2002年第9期27-29,77,共4页
在实时自适应阵处理中 ,基于逆QR分解 (IQRD)的方法在求自适应权值时由于避免了三角方程回代运算而受到了很大的重视。但是和基本的QR分解 (QRD)一样 ,IQRD方法也存在着平方根运算。平方根的运算量相当大 ,因此成为并行实时处理的速度... 在实时自适应阵处理中 ,基于逆QR分解 (IQRD)的方法在求自适应权值时由于避免了三角方程回代运算而受到了很大的重视。但是和基本的QR分解 (QRD)一样 ,IQRD方法也存在着平方根运算。平方根的运算量相当大 ,因此成为并行实时处理的速度瓶颈。提出了一种快速的IQRD方法 ,该方法有效地消除了平方根运算 ,从而使基于IQRD的自适应波束形成法便于实时实现 ,更适合于实际应用。 展开更多
关键词 快速逆QR分解 自适应波束 systolic阵列 自适应阵列处理 抗干扰技术
下载PDF
生物信息学双序列比对算法加速器设计与实现 被引量:7
5
作者 张阳 窦勇 夏飞 《计算机科学与探索》 CSCD 2008年第5期519-528,共10页
双序列比对算法是进行生物信息学研究的基础算法。在FPGA上实现大规模脉动式阵列对双序列比对算法进行加速能够大幅度提高比对的效率。然而现有的设计方法在比对序列长度较短的情况下,处理单元利用率很低;在序列的长度较大时,需要占用... 双序列比对算法是进行生物信息学研究的基础算法。在FPGA上实现大规模脉动式阵列对双序列比对算法进行加速能够大幅度提高比对的效率。然而现有的设计方法在比对序列长度较短的情况下,处理单元利用率很低;在序列的长度较大时,需要占用大量的片内存储资源。通过将两条序列同时送入阵列进行比对减少比对时间。将比对数据送入外部存储器,优化比对过程中的数据存储调度,有效降低了对片内存储器的需求。以Smith-Waterman算法为例进行了实现验证,结果表明本设计在性能上优于传统设计。与Pentium42.60GHz通用微处理器计算机相比,使用加速器对长度为65536的序列进行比对可获得1555倍的加速比。 展开更多
关键词 双序列比对 现场可编程门阵列 硬件加速 脉动式阵列 Smith—Waterman算法
下载PDF
一种高性能大数模幂协处理器SEA 被引量:7
6
作者 赵学秘 陆洪毅 +2 位作者 戴葵 童元满 王志英 《计算机研究与发展》 EI CSCD 北大核心 2005年第6期924-929,共6页
大数模幂是许多公钥算法中的主要操作和计算瓶颈.SEA是一种针对大数模幂的高性能协处理器,其主要采用如下3种加速方法:①采用二进制并行模幂算法(PBME)和以基数长度为处理字长的高基数Montgomery算法(RBHRMMM);②将算法映射到脉动阵列... 大数模幂是许多公钥算法中的主要操作和计算瓶颈.SEA是一种针对大数模幂的高性能协处理器,其主要采用如下3种加速方法:①采用二进制并行模幂算法(PBME)和以基数长度为处理字长的高基数Montgomery算法(RBHRMMM);②将算法映射到脉动阵列处理结构,并交替计算平方和乘以掩盖RBHRMMM算法中的相关,同时应用定向技术消除PBME算法中的相关;③基于“先拆分乘法、后将累加压缩”的思想优化关键路径.SEA完成1024b完整大数模幂仅需72738个时钟周期,采用基于标准单元的正向设计流程实现,其面积为4.2×4.2mm2,等效门数为739933.目前,SEA已经在0.18μm1P6MCMOS工艺上流片成功,主频133MHz,峰值功耗为962.26mW,使用SEA后,完成一次1024bRSA签名仅需316.9μs. 展开更多
关键词 模幂协处理器 高基数Montgomery算法 脉动阵列 重定向 乘法器
下载PDF
DTW的ASIC实现算法研究 被引量:4
7
作者 李韬 贺前华 王前 《微电子学》 CAS CSCD 北大核心 2004年第3期281-284,共4页
 通过分析DTW算法,提出了一种适合ASIC实现的心动阵列结构。仿真结果表明,该并行VLSI处理器阵列系统能够在N+M-1个时钟周期内计算出两个模板的匹配加权距离。较之基于通用处理器串行实现的DTW算法需要的3pMN/2个时钟周期,该算法节省了...  通过分析DTW算法,提出了一种适合ASIC实现的心动阵列结构。仿真结果表明,该并行VLSI处理器阵列系统能够在N+M-1个时钟周期内计算出两个模板的匹配加权距离。较之基于通用处理器串行实现的DTW算法需要的3pMN/2个时钟周期,该算法节省了大量的运算时间。 展开更多
关键词 DTW 语音识别 心动阵列 专用集成电路
下载PDF
适于消谐模型求解的矩阵乘法器设计与实现 被引量:4
8
作者 吴淑泉 王前 谢运祥 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第8期1-5,共5页
在求解逆变器消谐PWM模型的迭代运算中 ,需要进行大量的矩阵乘法运算 .为了提高运算速度 ,笔者在论述矩阵运算并行算法的基础上 ,提出了基于二维正方形心动阵列结构的矩阵乘法器 ,并研究了二维方阵结构的矩阵乘法器的FPGA硬件实现方法 ... 在求解逆变器消谐PWM模型的迭代运算中 ,需要进行大量的矩阵乘法运算 .为了提高运算速度 ,笔者在论述矩阵运算并行算法的基础上 ,提出了基于二维正方形心动阵列结构的矩阵乘法器 ,并研究了二维方阵结构的矩阵乘法器的FPGA硬件实现方法 ,比较了单处理机乘法器和二维方阵结构的矩阵乘法器的运算速度及所需器件资源 ,结果表明采用二维正方形心动阵列实现的矩阵乘法器 ,具有高度并行性和流水线性特点 ,可使阵列中负载均匀 ,延时缩短 ,有利集成度提高 。 展开更多
关键词 消谐模型 矩阵乘法 心动阵列
下载PDF
面向VLSI实现的实时自适应滤波算法 被引量:4
9
作者 胡国荣 侯朝焕 孙允恭 《电子学报》 EI CAS CSCD 北大核心 1996年第8期76-82,共7页
本文提出了一种面向VLSI实现的复数域递推最小二乘算法,算法中所有的运算都映射到了一个全由CORDIC单元组成的脉动阵列并行处理结构中,该阵列可直接对数据矩阵进行线性约束的自适应滤波而避免了复杂的滤波器复权系数求解.... 本文提出了一种面向VLSI实现的复数域递推最小二乘算法,算法中所有的运算都映射到了一个全由CORDIC单元组成的脉动阵列并行处理结构中,该阵列可直接对数据矩阵进行线性约束的自适应滤波而避免了复杂的滤波器复权系数求解.本文还介绍了为该算法设计的超大规模专用集成电路芯片,利用该芯片可组成数据采样率为2MHz的可重构的实时自适应滤波器. 展开更多
关键词 数字信号处理 自适应滤波 VLSI
下载PDF
一种基于FBMA算法的整像素运动估计芯片的VLSI设计 被引量:5
10
作者 何卫锋 毛志刚 +1 位作者 吕志强 尹海丰 《计算机研究与发展》 EI CSCD 北大核心 2005年第7期1225-1230,共6页
给出了一种基于全搜索块匹配算法的运动估计电路的改进结构,并完成了VLSI设计.通过采用多端口匹配策略和双时钟方案,使得在提高先前帧搜索区域像素数据重复利用率的同时,将脉动阵列的计算效率提高到74.9%.采用TSMC0.25μm1P5MCMOS工艺,... 给出了一种基于全搜索块匹配算法的运动估计电路的改进结构,并完成了VLSI设计.通过采用多端口匹配策略和双时钟方案,使得在提高先前帧搜索区域像素数据重复利用率的同时,将脉动阵列的计算效率提高到74.9%.采用TSMC0.25μm1P5MCMOS工艺,完成了运动估计芯片的VLSI实现,其芯片面积为3.37mm×3.37mm,最高工作频率为110MHz.综合后仿真表明在89.4MHz的频率下,该电路可以对支持MPEG4ASProfile标准的ITUR601格式视频图像(720×480@30HzNTSC或720×576@25HzPAL)进行基于整像素的实时运动估计. 展开更多
关键词 全搜索块匹配算法 脉动阵列 运动估计 超大规模集成电路
下载PDF
椭圆曲线密码体制的VLSI并行算法研究 被引量:1
11
作者 雷咏梅 赵霖 《微电子学与计算机》 CSCD 北大核心 1999年第5期5-9,共5页
文章分析了有限域上椭圆曲线密码体制的基本操作,针对实现中计算量最大的两个问题乘法和求逆运算,提出了VLSI并行算法,设计了相应的脉动阵列,并指出了它在椭圆曲线密码体制实现中的重要意义。
关键词 ULSI 并行算法 密码体制 设计 椭圆曲线
下载PDF
Smith-Waterman算法在脉动阵列上的实现及分析 被引量:6
12
作者 汪冬 唐志敏 《计算机学报》 EI CSCD 北大核心 2004年第1期12-20,共9页
Smith Waterman算法是一种经典的序列比对算法 ,在双序列比对的情况下具有比较好的性能 ,但是在大规模的序列比对时 ,其性能并不能令人满意 .脉动式阵列和Smith Waterman算法有比较好的吻合性 .该文通过在龙芯 1号处理器上附加一个脉动... Smith Waterman算法是一种经典的序列比对算法 ,在双序列比对的情况下具有比较好的性能 ,但是在大规模的序列比对时 ,其性能并不能令人满意 .脉动式阵列和Smith Waterman算法有比较好的吻合性 .该文通过在龙芯 1号处理器上附加一个脉动式阵列的协处理器 ,构建了硬件模型 .通过模拟器的验证 ,附加了协处理器的龙芯 1号的性能与没有附加协处理器时的性能之比接近于线性 .该文最后根据硬件模型和模拟器的性能数据 。 展开更多
关键词 SMITH-WATERMAN算法 脉动阵列 序列比对算法 计算机 生物信息学
下载PDF
面向脉动阵列神经网络加速器的软错误近似容错设计
13
作者 魏晓辉 王晨洋 +3 位作者 吴旗 郑新阳 于洪梅 岳恒山 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第6期1746-1755,共10页
本文根据神经网络本身的错误弹性和层内过滤器相似性提出了一种近似容错设计,把过滤器划分成不同校验组进行不精确校验,保证严重错误被检出并恢复。通过优化过滤器-计算单元映射使校验流程与脉动阵列数据流契合,相较于传统双模冗余,本... 本文根据神经网络本身的错误弹性和层内过滤器相似性提出了一种近似容错设计,把过滤器划分成不同校验组进行不精确校验,保证严重错误被检出并恢复。通过优化过滤器-计算单元映射使校验流程与脉动阵列数据流契合,相较于传统双模冗余,本文提出的容错设计可以降低73.39%的性能开销。 展开更多
关键词 计算机系统结构 卷积神经网络 脉动阵列 软错误 近似容错
原文传递
基于脉动阵列的矩阵乘法器硬件加速技术研究 被引量:6
14
作者 王阳 陶华敏 +1 位作者 肖山竹 戴华东 《微电子学与计算机》 CSCD 北大核心 2015年第11期120-124,共5页
针对卡尔曼滤波算法中矩阵乘法运算的求解问题,比较不同的硬件加速设计方案,利用9个自行设计的处理单元,设计了一种基于脉动阵列的并行结构浮点矩阵乘法器,其峰值性能可达761.96MFLOPS,在资源一定的情形下提高了算法实现的实时性.结合... 针对卡尔曼滤波算法中矩阵乘法运算的求解问题,比较不同的硬件加速设计方案,利用9个自行设计的处理单元,设计了一种基于脉动阵列的并行结构浮点矩阵乘法器,其峰值性能可达761.96MFLOPS,在资源一定的情形下提高了算法实现的实时性.结合矩阵分块算法,乘法器可对更高维的矩阵进行乘法求解,具有良好的扩展性. 展开更多
关键词 脉动阵列 矩阵乘法 硬件加速 卡尔曼滤波
下载PDF
一种Montgomery模乘算法硬件结构 被引量:4
15
作者 王缔郦 白国强 陈弘毅 《微电子学与计算机》 CSCD 北大核心 2010年第5期1-4,共4页
基于二进制多字Montgomery模乘算法,提出了一种参数可灵活配置的规则的脉动阵列硬件结构,并使用此结构在FPGA上实现了不同位宽的Montgomery模乘算法.该结构成功地在不增加额外电路或运行周期的情况下,将脉动阵列的关键路径限制在运算单... 基于二进制多字Montgomery模乘算法,提出了一种参数可灵活配置的规则的脉动阵列硬件结构,并使用此结构在FPGA上实现了不同位宽的Montgomery模乘算法.该结构成功地在不增加额外电路或运行周期的情况下,将脉动阵列的关键路径限制在运算单元内部的加法器中.硬件实现结果表明,该结构具有更高的电路频率、更少的电路面积消耗及算法运算时间. 展开更多
关键词 RSA Montgomery模乘算法 硬件 脉动阵列
下载PDF
基于FPGA的逆QR分解SMI算法的并行实现方法 被引量:4
16
作者 刘千里 《计算机工程与应用》 CSCD 2012年第26期71-75,161,共6页
在讨论了逆QR分解(逆正交三角分解)SM(I采样矩阵求逆)自适应波束形成算法的基础上,研究了逆QR分解SMI算法的Systolic阵列(脉动阵列)并行实现结构,分析了组成Systolic阵列的各PE(处理单元)单元的基本运算模块的实现,并给出了逆QR分解SMI... 在讨论了逆QR分解(逆正交三角分解)SM(I采样矩阵求逆)自适应波束形成算法的基础上,研究了逆QR分解SMI算法的Systolic阵列(脉动阵列)并行实现结构,分析了组成Systolic阵列的各PE(处理单元)单元的基本运算模块的实现,并给出了逆QR分解SMI算法基于Systolic阵列结构的FPGA(现场可编程门阵列)并行实现方法,提出了系统整体的设计与构架。 展开更多
关键词 正交三角分解 采样矩阵求逆 自适应波束形成 systolic阵列 现场可编程门阵列
下载PDF
基于脉动阵列的自适应光学实时波前处理机设计 被引量:5
17
作者 郑文佳 王春鸿 +2 位作者 姜文汉 李梅 唐端午 《光电工程》 CAS CSCD 北大核心 2008年第5期44-49,共6页
针对自适应光学系统对波前处理机高计算量、高实时性的要求,本文提出了一种基于脉动阵列的自适应光学实时波前处理方法。该方法将脉动阵列的概念引入波前处理机设计,完成了波前斜率计算、复原运算和控制运算向脉动阵列的映射,合理地建... 针对自适应光学系统对波前处理机高计算量、高实时性的要求,本文提出了一种基于脉动阵列的自适应光学实时波前处理方法。该方法将脉动阵列的概念引入波前处理机设计,完成了波前斜率计算、复原运算和控制运算向脉动阵列的映射,合理地建立了数据的深度流水线,同时分析了以FPGA技术实现时系统的计算延时。对于48个子孔径、61单元的自适应光学系统,以一片Xilinx Virtex-ⅡXC2V3000芯片实现了基于脉动阵列的实时波前处理机,实验测得计算延时仅8.6μs,结果表明该方法能极大地提高系统的实时性、集成度、通用性和扩展性。 展开更多
关键词 自适应光学 波前处理机 脉动阵列 FPGA
下载PDF
基于FPGA的说话人识别算法的实现 被引量:4
18
作者 梁涛 张国杰 张效军 《通信技术》 2008年第2期66-69,共4页
文中介绍了一种基于FPGA的DTW说话人识别算法的实现方法,根据算法本身的特点,采用了一种适合于硬件实现的搜索路径约束条件,并利用收缩阵列来处理模板匹配中的运算,从而提高了算法的模板匹配速度和识别效率,在处理性能上优于现在常采用... 文中介绍了一种基于FPGA的DTW说话人识别算法的实现方法,根据算法本身的特点,采用了一种适合于硬件实现的搜索路径约束条件,并利用收缩阵列来处理模板匹配中的运算,从而提高了算法的模板匹配速度和识别效率,在处理性能上优于现在常采用的基于软件的实现方法,适用于电话语音信道的实时大容量的说话人识别系统。 展开更多
关键词 说话人识别 DTW FPGA 收缩阵列
原文传递
面向深度学习的弹载图像处理异构加速现状分析 被引量:5
19
作者 陈栋 田宗浩 《航空兵器》 CSCD 北大核心 2021年第3期10-17,共8页
本文分析了深度学习算法向工程应用转化存在的问题,结合陆军智能弹药的特点和发展趋势,分别从深度学习模型压缩、量化,硬件平台加速设计以及异构加速框架设计等方面进行研究,提出了面向深度学习的弹载图像处理异构加速体系,实现从算法... 本文分析了深度学习算法向工程应用转化存在的问题,结合陆军智能弹药的特点和发展趋势,分别从深度学习模型压缩、量化,硬件平台加速设计以及异构加速框架设计等方面进行研究,提出了面向深度学习的弹载图像处理异构加速体系,实现从算法开发到硬件异构移植的流程化设计。随后,利用DeePhi Tech的异构加速框架DNNDK对Yolo v3模型进行压缩、量化,权重压缩率90%以上,模型参数压缩率80%以上,实现了Yolo v3的轻量化设计。在DPU硬件加速架构的基础上,实现算法向弹载嵌入式平台的移植,其功耗和识别检测效率满足弹载图像处理的要求。 展开更多
关键词 弹载图像 深度学习 FPGA 脉动阵列 Winograd卷积
下载PDF
实对称矩阵特征值分解高速并行算法的FPGA实现 被引量:5
20
作者 王飞 王建业 +1 位作者 张安堂 张陆游 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2008年第6期67-70,74,共5页
针对MUSIC(Multiple Signal Classification,多重信号分类)算法中的信号子空间和噪声子空间分离的硬件实现实时性需要,对矩阵特征值分解的Jacobi算法进行了并行改进,采用脉动阵列结构在FPGA(Field Programmable Gate Array)上高速并行... 针对MUSIC(Multiple Signal Classification,多重信号分类)算法中的信号子空间和噪声子空间分离的硬件实现实时性需要,对矩阵特征值分解的Jacobi算法进行了并行改进,采用脉动阵列结构在FPGA(Field Programmable Gate Array)上高速并行实现了对数据协方差矩阵的特征值分解。采用矢量模式CORDIC算法和旋转模式CORDIC算法实现脉动阵列结构的细胞单元。系统字长选用16 bit定点数,采用硬件描述语言VHDL进行描述,在Altera公司的EP2S60中实现。整个特征值分解模块消耗24 372个FPGA中基本逻辑单元(LE),系统最高工作频率145 MHz,完成一次特征值分解的最低耗时为14.82μs。通过理论分析和实验验证,该实现方法精度高、速度快,大大提高了MUSIC算法的实时性,扩大了MUSIC算法的应用范围。 展开更多
关键词 MUSIC算法 特征值分解 脉动阵列 FPGA
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部