期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
计算机体系结构的统一模型 被引量:17
1
作者 沈绪榜 刘泽响 王茹 《计算机学报》 EI CSCD 北大核心 2007年第5期729-736,共8页
提出了一种计算机体系结构的统一模型,将基于数据流计算与基于构令流计算的体系结构统一到基于指令流计算的体系结构上来,命名为Unified-ISA模型.使基于数据流计算的ASIC电路与基于构令流计算的RCDevice电路的设计,统一为基于指令流计算... 提出了一种计算机体系结构的统一模型,将基于数据流计算与基于构令流计算的体系结构统一到基于指令流计算的体系结构上来,命名为Unified-ISA模型.使基于数据流计算的ASIC电路与基于构令流计算的RCDevice电路的设计,统一为基于指令流计算的SIMD PE阵列上的程序设计. 展开更多
关键词 pe阵列 数据流 指令流 时间映射 空间映射
下载PDF
基于SIMD PE阵列的图像同态滤波并行算法 被引量:3
2
作者 唐思敏 党杰 钟升 《西安工程大学学报》 CAS 2010年第3期302-305,共4页
为了满足G级像素帧实时处理的要求,提出图像同态滤波的数据并行实现方法.讨论了图像帧和滤波器在SIMD PE阵列中的预置及数据并行的滤波处理实现方法,其处理方式规则性强、并行度高,提高了处理速度.由于SIMD PE阵列具有可裁减性,可以适... 为了满足G级像素帧实时处理的要求,提出图像同态滤波的数据并行实现方法.讨论了图像帧和滤波器在SIMD PE阵列中的预置及数据并行的滤波处理实现方法,其处理方式规则性强、并行度高,提高了处理速度.由于SIMD PE阵列具有可裁减性,可以适合不同规模图像帧的处理需求,满足不同的嵌入式应用环境. 展开更多
关键词 数据并行 SIMD pe阵列 pe选择 映射语言
下载PDF
分布算术的并行计算技术研究 被引量:3
3
作者 梁刚 赵伟 时晨 《微电子学与计算机》 CSCD 北大核心 2009年第5期25-28,共4页
针对在FIR、DCT、FDWT等的实现中广泛应用的分布算术计算方法进行了深入的分析,对当前分布算术实现方法中存在的性能和实现代价等方面的缺点进行了归纳和总结.针对SIMD二维阵列计算结构这样的体系结构模型,对分布算术的计算并行性进行分... 针对在FIR、DCT、FDWT等的实现中广泛应用的分布算术计算方法进行了深入的分析,对当前分布算术实现方法中存在的性能和实现代价等方面的缺点进行了归纳和总结.针对SIMD二维阵列计算结构这样的体系结构模型,对分布算术的计算并行性进行分析,寻找出分布算术计算中所隐含的计算并行性,从而使得能够应用于二维SIMD阵列来进行高效的计算. 展开更多
关键词 分布算术 并行DA pe阵列 前缀求和
下载PDF
提升小波变换的SIMD PE阵列实现 被引量:1
4
作者 钟升 王忠 杨恒 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第3期65-73,共9页
对面向G级像素帧处理的高效实现,提出一种基于SIMD PE阵列的Daubechies 9-7提升小波变换的数据并行实现方案.针对提升小波变换的不同提升阶段,采用阶段内并行、阶段间串行的处理方式,避免了阶段内处理中的数据相关,大幅度地提高了处理... 对面向G级像素帧处理的高效实现,提出一种基于SIMD PE阵列的Daubechies 9-7提升小波变换的数据并行实现方案.针对提升小波变换的不同提升阶段,采用阶段内并行、阶段间串行的处理方式,避免了阶段内处理中的数据相关,大幅度地提高了处理的速度.为减少多层分解变换中PE间通信开销,采用行、列动态PM2I网互联结构,实现了不同分解层次中相关PE间的直接互联,降低了各层变换中PE间的通信次数,满足了大图像帧实时性处理的要求. 展开更多
关键词 提升小波变换 PM2I网络 SIMD pe阵列
下载PDF
FFT的数据并行计算方法研究 被引量:1
5
作者 杨琳 钟升 张家田 《计算机技术与发展》 2017年第10期91-95,共5页
为满足G(Gigabytes)级像素帧的实时性处理需求,针对信号处理系统中处理计算量大、实时性要求高的特点,剖析了解算过程内在的数据并行特性,深入研究了基于计算阵列的谱图解算数据并行算法。提出了一种基于MPP(Massively Parallel Process... 为满足G(Gigabytes)级像素帧的实时性处理需求,针对信号处理系统中处理计算量大、实时性要求高的特点,剖析了解算过程内在的数据并行特性,深入研究了基于计算阵列的谱图解算数据并行算法。提出了一种基于MPP(Massively Parallel Processor)计算机SIMD PE阵列的FFT的数据并行计算实现方法。首先根据FFT架构中的数据交互一致性,给出了数据并行计算的表达式。提出一种基于PE标识,进行条件操作的SIMD PE阵列数据并行实现方法。该方法不但省去了并行处理中的数据寻址时间开销,而且使得数据并行操作更为规则、简洁,满足了阵列操作规则性强的处理要求,大幅度地提高了MPP计算机并行计算处理速度。该方案是一种简洁有效的PE自治问题解决方案,以更合理的方法和更高的效率实现了常规经典算法,在数据并行计算领域中,无疑具有重要的理论意义和应用价值,将在嵌入式信号处理中发挥愈来愈重要的作用。 展开更多
关键词 快速傅里叶变换 SIMD pe阵列 映射语言 MPP计算机
下载PDF
高性能全搜索可变块运动估计的VLSI设计
6
作者 罗熙 付宇卓 《信息技术》 2010年第10期62-65,共4页
给出了一种用于H.264全搜索可变块匹配算法的运动估计电路的改进结构,并完成了VLSI设计的仿真验证。在传统脉动阵列,全流水线设计的基础上,通过引入片内Cache,增加输入端口,大大减少传统方式下对延迟寄存器的依赖,进一步降低了功耗。仿... 给出了一种用于H.264全搜索可变块匹配算法的运动估计电路的改进结构,并完成了VLSI设计的仿真验证。在传统脉动阵列,全流水线设计的基础上,通过引入片内Cache,增加输入端口,大大减少传统方式下对延迟寄存器的依赖,进一步降低了功耗。仿真实验以CIF图像(352×288)为例进行结构验证,证明设计能实时处理H.264格式标准下的视频序列。 展开更多
关键词 数据重用率 延迟寄存器 pe阵列 边界切换
下载PDF
分布算术并行结构设计研究
7
作者 梁刚 赵伟 张洵颖 《计算机工程与应用》 CSCD 北大核心 2010年第12期75-78,共4页
提出一种基于DA实现的可扩展的阵列结构,通过对阵列的配置使其具有良好的扩展能力以及并行处理的高效特性。该结构与传统的采用ASIC电路的实现方式相比,较好地解决了ASIC电路中阶数、数据字宽不可自适应调整以及存储量需求较大、吞吐量... 提出一种基于DA实现的可扩展的阵列结构,通过对阵列的配置使其具有良好的扩展能力以及并行处理的高效特性。该结构与传统的采用ASIC电路的实现方式相比,较好地解决了ASIC电路中阶数、数据字宽不可自适应调整以及存储量需求较大、吞吐量偏低的问题。最后在实现代价和性能方面与典型结构进行了比较,证明了该结构存储量需求小,运算时间少,具有较好的性价比。 展开更多
关键词 分布算术 并行DA pe阵列 前缀求和
下载PDF
遥感卫星图像几何粗校正的数据并行方法研究 被引量:4
8
作者 张发存 王忠 +1 位作者 赵晓红 沈绪榜 《计算机研究与发展》 EI CSCD 北大核心 2004年第7期1200-1206,共7页
主要研究星上遥感图像的实时几何粗校正问题 卫星遥感图像现在一般都大到上万个像素行和列 ,采用传统的单个处理器的串行方式在星上进行实时处理是难以满足应用要求的 提出了一种在一维PE阵列的SIMD计算机上采用基于处理元阵列平移的... 主要研究星上遥感图像的实时几何粗校正问题 卫星遥感图像现在一般都大到上万个像素行和列 ,采用传统的单个处理器的串行方式在星上进行实时处理是难以满足应用要求的 提出了一种在一维PE阵列的SIMD计算机上采用基于处理元阵列平移的数据并行校正方法 ,并根据NASA的LANDSAT 1卫星的有关的参数 ,对该方法进行了详细讨论 ,给出了具体的实现方法 通过对复杂性和加速比的讨论 。 展开更多
关键词 遥感图像 几何粗校正 数据并行 pe阵列平移
下载PDF
基于3D可扩展PE阵列CNN加速器的设计
9
作者 苏梓培 杨鑫 +1 位作者 陈弟虎 粟涛 《计算机工程与科学》 CSCD 北大核心 2021年第3期389-397,共9页
卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率(速度)的前提下,尽量减少功耗与芯片面积。考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器。该加速... 卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率(速度)的前提下,尽量减少功耗与芯片面积。考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器。该加速器兼容3×3卷积、3×3深度可分离卷积、1×1卷积和全连接层,其PE阵列能根据具体应用的网络和硬件约束,设定3个维度上最优的并行度参数,以达到更优的性能。该CNN加速器在512个PE下运行yolo-v2达到76.52 GOPS、74.72%的性能效率,在512个PE下运行mobile-net-v1达到78.05 GOPS、76.22%的性能效率。最后应用CNN加速器构建了一个实时目标检测系统,将yolo-lite网络部署至XILINX Zynq-7000 SoC ZC706硬件开发平台上,其CNN运算性能达到了53.65 fps。 展开更多
关键词 CNN加速器 三维pe阵列 目标检测 SOC
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部