期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
软硬件混合的高效CHI协议分析
1
作者 赵祉乔 周理 +3 位作者 长庆 潘国腾 铁俊波 王伟征 《计算机工程与科学》 CSCD 北大核心 2024年第2期224-231,共8页
在片上系统SoC开发过程中,如何高效准确地进行功能验证与性能分析,是亟待解决的难题。针对目前在FPGA原型平台上对片上网络协议监测手段有限的问题,提出了一种软硬件混合的高效CHI协议监测和分析方法,通过SystemVerilog的直接编程接口DP... 在片上系统SoC开发过程中,如何高效准确地进行功能验证与性能分析,是亟待解决的难题。针对目前在FPGA原型平台上对片上网络协议监测手段有限的问题,提出了一种软硬件混合的高效CHI协议监测和分析方法,通过SystemVerilog的直接编程接口DPI连接C代码,由可综合的硬件部分提供共享函数体,不可综合的软件部分通过共享函数体从片上网络协议的各个通道捕捉待测SoC中的CHI报文,进行离线保存或在线检查。实验结果表明,该方法具有硬件资源占用少、可重用性高的优点,离线模式对仿真速率影响不大,在线模式可以在待测SoC运行的同时发现问题,能够实现在原型平台上对CHI协议报文的高效监测,有效加速SoC问题的定位和性能分析。 展开更多
关键词 CHI协议 FPGA 芯片验证 软硬件混合
下载PDF
共享存储可重构计算机软硬件通信的优化实现 被引量:6
2
作者 长庆 杨乾明 +2 位作者 伍楠 文梅 张春元 《计算机研究与发展》 EI CSCD 北大核心 2013年第8期1637-1646,共10页
可重构硬件操作系统BORPH提供的硬件进程概念和以硬件为中心的执行模型可极大地提高可重构计算平台的易用性.BORPH-N为BORPH的扩展系统,主要的扩展是支持在共享存储可重构计算平台上的运行.BORPH-N为硬件进程提供基于共享存储、符合Uni... 可重构硬件操作系统BORPH提供的硬件进程概念和以硬件为中心的执行模型可极大地提高可重构计算平台的易用性.BORPH-N为BORPH的扩展系统,主要的扩展是支持在共享存储可重构计算平台上的运行.BORPH-N为硬件进程提供基于共享存储、符合Unix语义的高性能进程间通信支持:共享存储和信号量.利用这两项服务,硬件进程可与系统中其他所有软件进程和硬件进程进行交互.可重构计算的重要目标是利用可重构逻辑对应用的耗时部分进行加速,所以软硬件交互机制的效率至关重要.通过类似远程调用这种简单方式来提供这两项服务,软硬件交互频繁,开销较大,性能难以满足需求.BORPH-N使用的优化策略基于独立执行的基本思路进行设计.实验结果表明,BORPH-N所需硬件开销较小,为硬件进程提供的共享存储和信号量的效率逼近硬件平台的峰值,可以满足实际应用的需求. 展开更多
关键词 可重构计算 软硬件协同 共享存储 进程间通信 硬件进程
下载PDF
多维可扩展流体系结构研究与评测 被引量:2
3
作者 吴伟 文梅 +7 位作者 伍楠 何义 杨乾明 管茂林 长庆 任巨 柴俊 张春元 《电子学报》 EI CAS CSCD 北大核心 2008年第5期899-905,共7页
MASA(Multiple-dimension scalable Stream Architecture)是一种可在多个维度扩展的流体系结构.本文对该体系结构的扩展性进行了深入探讨,分析了簇内、簇间和多核扩展的VLSI资源开销,并通过一组测试程序评测了MASA的性能.结果表明,三个... MASA(Multiple-dimension scalable Stream Architecture)是一种可在多个维度扩展的流体系结构.本文对该体系结构的扩展性进行了深入探讨,分析了簇内、簇间和多核扩展的VLSI资源开销,并通过一组测试程序评测了MASA的性能.结果表明,三个扩展维度形成有利互补,使得MASA流体系结构可支持扩展到单片内集成上千个ALU. 展开更多
关键词 流处理器 流体系结构 扩展性 并行处理
下载PDF
流处理器MASA-I在FPGA上的实现 被引量:3
4
作者 杨乾明 伍楠 +2 位作者 何义 长庆 张春元 《计算机工程与科学》 CSCD 2008年第3期114-118,共5页
流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构... 流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构多核系统能够在FPGA上较好地实现,满足了流应用的需求。 展开更多
关键词 流处理器 MASA—I FPGA MPEG
下载PDF
一种流处理器体系结构MASA及其在流体力学计算中的评测 被引量:3
5
作者 伍楠 文梅 +4 位作者 何义 长庆 任巨 柴俊 张春元 《计算机学报》 EI CSCD 北大核心 2008年第1期133-141,共9页
提出了面向科学计算的64位流体系结构——MASA,它具有强局域性、并行性、解耦合访存操作和计算操作等特征,特别适合于计算密集型的并行应用.作者使用时钟精确的模拟器评测了流体力学中的典型应用在MASA上的运行性能,结果表明MASA在500MH... 提出了面向科学计算的64位流体系结构——MASA,它具有强局域性、并行性、解耦合访存操作和计算操作等特征,特别适合于计算密集型的并行应用.作者使用时钟精确的模拟器评测了流体力学中的典型应用在MASA上的运行性能,结果表明MASA在500MHz的情况下能够获得比1.6GHz的Iantium2近4倍的加速,证实了流体系结构在高性能计算领域的极大潜力. 展开更多
关键词 流处理器 体系结构 科学计算 Ygx2 MASA
下载PDF
一种流体系结构中软硬结合的异构核协同方法 被引量:2
6
作者 任巨 何义 +4 位作者 长庆 杨乾明 文梅 伍楠 张春元 《计算机学报》 EI CSCD 北大核心 2008年第11期2038-2046,共9页
在流体系结构中,标量核同流处理核是异构核,它们之间的协同是流处理器能够正确、高效运转的基础.文中针对异构核间所采用的软件协同方法性能低的问题,提出了一种软件和硬件相结合的异构核协同方法,并基于MASA-I流处理SOPC系统进行了实现... 在流体系结构中,标量核同流处理核是异构核,它们之间的协同是流处理器能够正确、高效运转的基础.文中针对异构核间所采用的软件协同方法性能低的问题,提出了一种软件和硬件相结合的异构核协同方法,并基于MASA-I流处理SOPC系统进行了实现.使用媒体和数字信号处理领域核心算法进行测试的结果表明,与软件协同方法相比,使用文中方法的协同性能有2个量级的提升,程序整体性能提高一倍. 展开更多
关键词 异构核 核间协同 软硬结合 流处理器 体系结构
下载PDF
H.264运动估计算法在Imagine流处理器上的加速实现 被引量:1
7
作者 李海燕 文梅 +3 位作者 伍楠 李礼 长庆 张春元 《计算机工程与科学》 CSCD 2006年第9期47-49,共3页
鉴于Imagine流处理器在媒体处理领域取得的优越性能,我们将H.264视频编码中耗时较大的运动搜索算法映射到Imagine上,利用流处理的思想充分开发其并行性来提高编码性能,对QCIF图像编码可达372fps,加速效果是非常明显的。由此证明,H.264... 鉴于Imagine流处理器在媒体处理领域取得的优越性能,我们将H.264视频编码中耗时较大的运动搜索算法映射到Imagine上,利用流处理的思想充分开发其并行性来提高编码性能,对QCIF图像编码可达372fps,加速效果是非常明显的。由此证明,H.264是适于Imagine实现的。 展开更多
关键词 Imagine流处理器 H.264视频编码 运动估计
下载PDF
以编译为导向的Matrix-DSP程序分析与优化 被引量:2
8
作者 长庆 陈照云 +2 位作者 文梅 孙海燕 马奕民 《计算机工程与科学》 CSCD 北大核心 2020年第10期1791-1800,共10页
数字信号处理器(DSP)在图像处理、自动化控制、信号处理等多个领域具有广泛应用。自主研发的Matrix DSP采用了典型的单指令多数据SIMD+超长指令字VLIW的向量化架构,因此面向该架构如何实现高效的向量化编程与优化是一项重要挑战。基于Ma... 数字信号处理器(DSP)在图像处理、自动化控制、信号处理等多个领域具有广泛应用。自主研发的Matrix DSP采用了典型的单指令多数据SIMD+超长指令字VLIW的向量化架构,因此面向该架构如何实现高效的向量化编程与优化是一项重要挑战。基于Matrix DSP的体系结构特点,以编译器性能为导向,对内核级代码常用的分析优化手段进行梳理和总结,并结合一个通用矩阵乘的例子进行展示,其执行性能可最高提升1个数量级。最后,从编译器优化和程序员高效编程的角度提出了一些后续的思考与讨论。 展开更多
关键词 Matrix DSP 向量化编程 程序优化 编译器
下载PDF
二维拉格朗日和欧拉结合法在流处理器MASA上的实现与评测
9
作者 张春元 文梅 +2 位作者 伍楠 长庆 吴伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2006年第4期43-48,共6页
现代半导体工艺技术的发展使得在单芯片上放置数百个运算单元成为可能,但是全局片上片外带宽受限。通用处理器体系结构不能较好地适应变化,仍然依靠全局片上结构,少量的运算单元。而流体系结构拥有大量的运算单元、鲜明的存储层次,使得... 现代半导体工艺技术的发展使得在单芯片上放置数百个运算单元成为可能,但是全局片上片外带宽受限。通用处理器体系结构不能较好地适应变化,仍然依靠全局片上结构,少量的运算单元。而流体系结构拥有大量的运算单元、鲜明的存储层次,使得在有限的片外带宽下,用高的本地带宽来满足大量运算单元的需求。首先介绍了原型MASA流体系结构,然后给出了爆轰流体力学中的二维拉格朗日和欧拉结合法(Ygx2)在流体系结构上实现的实例研究,最后用时钟精确的模拟器来评测应用的运行性能,结果表明Ygx2应用在500MHz的MASA上运行结果与1.6GHz的Iantium2的比较快近4倍,证实了流体系结构在高性能计算领域的极大潜力。 展开更多
关键词 流体系结构 Ygx2 高性能计算
下载PDF
流化H.264编码的数据并行方法
10
作者 文梅 任巨 +3 位作者 伍楠 苏华友 长庆 张春元 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第3期66-71,共6页
流模型是一种源于媒体处理的新型并行计算模型。然而H.264编码作为媒体处理领域中的重要应用,在与流模型适配时,却出现重要障碍,主要是由于相关性问题极大地限制了流化过程中数据级并行的开发。针对这个问题,首先根据编码算法分析了编... 流模型是一种源于媒体处理的新型并行计算模型。然而H.264编码作为媒体处理领域中的重要应用,在与流模型适配时,却出现重要障碍,主要是由于相关性问题极大地限制了流化过程中数据级并行的开发。针对这个问题,首先根据编码算法分析了编码过程中遇到的相关性问题,然后为各主要编码模块分别提出解除相关性限制的数据并行编码方法。采用这些方法能够保证大数据并行粒度,最终达到高效并行流化编码的目的。实验表明采用数据并行流化编码方法,帧间预测、帧内预测、熵编码和去块滤波模块都获得了显著加速。 展开更多
关键词 H.264编码 流模型 并行计算 数据并行
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部