期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
Optimizing pipeline for a RISC processor with multimedia extension ISA 被引量:1
1
作者 肖志斌 刘鹏 +1 位作者 姚英彪 姚庆栋 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2006年第2期269-274,共6页
The 32-bit extensible embedded processor RISC3200 originating from an RTL prototype core is intended for low-cost consumer multimedia products. In order to incorporate the reduced instruction set and the multimedia ex... The 32-bit extensible embedded processor RISC3200 originating from an RTL prototype core is intended for low-cost consumer multimedia products. In order to incorporate the reduced instruction set and the multimedia extension instruction set in a unifying pipeline, a scalable super-pipeline technique is adopted. Several other optimization techniques are proposed to boost the frequency and reduce the average CPI of the unifying pipeline. Based on a data flow graph (DFG) with delay information, the critical path of the pipeline stage can be located and shortened. This paper presents a distributed data bypass unit and a centralized pipeline control scheme for achieving lower CPI. Synthesis and simulation showed that the optimization techniques enable RISC3200 to operate at 200 MHz with an average CPI of 1.16. The core was integrated into a media SOC chip taped out in SMIC 0.18-micron technology. Preliminary testing result showed that the processor works well as we expected. 展开更多
关键词 PIPELINE RISC single-instruction-multiple-data (SIMD) instruction set architecture (ISA) Multimedia extension
下载PDF
“魂芯一号”数字信号处理器及其应用 被引量:12
2
作者 洪一 方体莲 +3 位作者 赵斌 郭二辉 刘小明 耿锐 《中国科学:信息科学》 CSCD 北大核心 2015年第4期574-586,共13页
数字信号处理器(DSP)是在高密集计算领域综合计算性能最高的一种处理器.中国电子科技集团公司第38研究所在"核高基"重大专项支持下经过6年时间潜心研究,成功完成"魂芯一号"的研制并在实际产品上得到很好的应用,达... 数字信号处理器(DSP)是在高密集计算领域综合计算性能最高的一种处理器.中国电子科技集团公司第38研究所在"核高基"重大专项支持下经过6年时间潜心研究,成功完成"魂芯一号"的研制并在实际产品上得到很好的应用,达到原先确定的目标.本文回顾了数字信号处理器(DSP)的发展历程和典型特点,介绍了我国自主研制的通用DSP器件"魂芯一号"设计的基本思路、研制过程和应用推广情况. 展开更多
关键词 数字信号处理器 哈佛结构 超长指令集 单指令多数据流 链路口
原文传递
基于单指令多数据技术的H.264编码优化 被引量:5
3
作者 朱林 冯燕 《计算机应用》 CSCD 北大核心 2005年第12期2798-2799,2802,共3页
简要介绍了单指令多数据(Single-Istruction Multiple-Data,SIMD)指令系统,并用该技术对H.264中的整数离散余弦变换(Discrete Cosine Transform,DCT)、量化、插值和运动估计等模块进行了优化,实验结果表明优化后程序的编码速率可达到30... 简要介绍了单指令多数据(Single-Istruction Multiple-Data,SIMD)指令系统,并用该技术对H.264中的整数离散余弦变换(Discrete Cosine Transform,DCT)、量化、插值和运动估计等模块进行了优化,实验结果表明优化后程序的编码速率可达到30fps左右,比未优化时速度提高了6~8倍. 展开更多
关键词 H.264 单指令多数据 整数离散余弦变换 插值 绝对误差和
下载PDF
MPEG-2音频解码算法优化 被引量:1
4
作者 赵永刚 唐昆 +2 位作者 崔慧娟 杜文 杨铭 《电声技术》 北大核心 2003年第12期10-12,22,共4页
以PC机为硬件平台对MPEG-2的音频解码算法进行优化,实现MPEG-2全软件的系统、视频、音频3个部分实时解码。在IDCT和IMDCT中应用了新的快速算法;结合PC机本身的特点及解码过程中有大量的乘加运算采用SIMD(single-instructionmultiple-da... 以PC机为硬件平台对MPEG-2的音频解码算法进行优化,实现MPEG-2全软件的系统、视频、音频3个部分实时解码。在IDCT和IMDCT中应用了新的快速算法;结合PC机本身的特点及解码过程中有大量的乘加运算采用SIMD(single-instructionmultiple-data)来对程序优化,并在实际运算中也对数据结构进行了优化。通过以上的优化使MPEG-2层II解码的运算量减少了40%以上,在奔腾3/450计算机上只占用不到5%的系统资源。这些优化算法已经应用于奔腾3/800为硬件平台的MPEG-2实时解码器中。 展开更多
关键词 MPEG-2 音频解码 SIMD 离散余弦反变换 修正离散余弦反变换 单指令多数据
下载PDF
一种面向申威26010处理器的分布式传递锁机制
5
作者 李明亮 庞建民 岳峰 《计算机科学》 CSCD 北大核心 2022年第10期52-58,共7页
在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈... 在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。 展开更多
关键词 申威26010处理器 混合分布锁 锁传递 单指令多数据指令 寄存器通信
下载PDF
基于随机并行梯度下降算法的自适应光学实时并行处理机 被引量:7
6
作者 王彩霞 李梅 +1 位作者 李新阳 叶红卫 《光学学报》 EI CAS CSCD 北大核心 2010年第11期3076-3081,共6页
基于随机并行梯度下降(SPGD)算法的自适应光学系统通过直接优化系统的性能评价函数来控制波前校正器以补偿光束中存在的波前畸变。但由于算法收敛速度的影响,在一定程度上限制了SPGD在自适应光学系统中的应用。在对SPGD控制算法分析的... 基于随机并行梯度下降(SPGD)算法的自适应光学系统通过直接优化系统的性能评价函数来控制波前校正器以补偿光束中存在的波前畸变。但由于算法收敛速度的影响,在一定程度上限制了SPGD在自适应光学系统中的应用。在对SPGD控制算法分析的基础上,充分提取和发掘算法内在的并发性,采用流水线和并行处理技术,设计并实现了基于现场可编程门阵列(FPGA)加数字信号处理器(DSP)的单指令流多数据流(SIMD)结构实时并行处理机,实现了SPGD控制算法由表达层到结构层的优化映射。该处理机应用在激光光束净化自适应光学系统中,同时实现了对变形镜和倾斜镜的控制。实验结果表明,采用基于SPGD算法自适应光学实时并行波前处理机具有很快的收敛速度,可以有效地校正激光出光过程中的光束波前相差和光束漂移误差。 展开更多
关键词 自适应光学 随机并行梯度下降算法 波前处理机 并行处理 单指令流多数据流结构
原文传递
H.264中帧内编码算法及其快速实现研究 被引量:2
7
作者 周宁兆 宋彬 《中国有线电视》 北大核心 2004年第24期9-13,共5页
新的视频编码标准H .2 6 4使用了帧内预测的编码方式 ,这与以往的视频编码标准相比在很大程度上提高了帧内编码效率 ,节省了码流 ,但同时也增加了编码器的复杂度 ,因此有必要对H .2 6 4帧内编码算法进行快速实现 ,以满足实时视频通信的... 新的视频编码标准H .2 6 4使用了帧内预测的编码方式 ,这与以往的视频编码标准相比在很大程度上提高了帧内编码效率 ,节省了码流 ,但同时也增加了编码器的复杂度 ,因此有必要对H .2 6 4帧内编码算法进行快速实现 ,以满足实时视频通信的要求。首先详细介绍H .2 6 4帧内编码的实现过程 ,然后使用SIMD(单指令多数据流 )技术对帧内编码进行快速实现。实验结果表明 ,与未使用快速算法相比 ,使用该快速实现算法后 ,H .2 6 展开更多
关键词 H.264 帧内预测 单指令多数据流
下载PDF
AVS熵解码与DSP实现 被引量:6
8
作者 陈光法 姚立敏 虞露 《电视技术》 北大核心 2004年第10期43-46,共4页
阐述了AVS标准的进展情况及AVS标准的特点,重点介绍了AVS熵解码的原理和采用Equator公司MAP-CABSP-15处理器中的协处理器(Vlx)实现AVS熵解码的方法。
关键词 宽带信号处理器 单指令多数据流 AVS标准 协处理器 熵解码
下载PDF
面向SLP的多重循环向量化 被引量:13
9
作者 魏帅 赵荣彩 姚远 《软件学报》 EI CSCD 北大核心 2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup... 如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比. 展开更多
关键词 SIMD 向量化 依赖关系分析 多重循环 超字并行
下载PDF
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化 被引量:9
10
作者 龚鸣清 叶煌 +2 位作者 张鉴 卢兴敬 陈伟 《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指... 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。 展开更多
关键词 ARMv8 单指令多数据流计算 基础线性代数子程序库 高性能计算
下载PDF
基于ARM V8平台的向量算法库实现与优化 被引量:8
11
作者 王晶 张云泉 梁军 《计算机工程》 CAS CSCD 北大核心 2019年第6期82-88,共7页
基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8... 基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8平台上的优化。实验结果表明,该方案在ARMV8计算平台上实现的向量算法库性能提升可达到10%~300%。 展开更多
关键词 数学函数库 ARMV8架构 向量算法库 单指令流多数据 访存优化
下载PDF
多核架构下的数据处理算法优化策略综述 被引量:7
12
作者 陈伟 杜凌霞 陈红 《计算机科学与探索》 CSCD 2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法... 多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。 展开更多
关键词 多核 单芯片多处理器(CMP) 数据级别并行(DLP) 线程级别并行(TLP) 单指令多数据流(SIMD)
下载PDF
基于指令级并行的倒排索引压缩算法 被引量:7
13
作者 闫宏飞 张旭东 +2 位作者 单栋栋 毛先领 赵鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期995-1004,共10页
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在... 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 展开更多
关键词 单指令多数据流 倒排索引 压缩 整数编码 信息检索
下载PDF
便笺式存储器中一种新颖的交错映射数据布局
14
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:2
15
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
面向顶点染色算法的专用指令集优化处理器 被引量:5
16
作者 杜慧敏 李萌 《西安邮电大学学报》 2014年第2期60-66,共7页
为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指... 为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指令多数据的结构基础上加入带有旁路功能的五级宏流水线和超越函数运算单元。在工作站使用Linux环境下的QuestaSim6.5b进行功能仿真,使用Xilinx公司Virtex6-760芯片为目标器件对可编程顶点染色器进行逻辑综合。实验结果表明,该顶点染色器可以绘制出真实图形,其最大工作频率可达197MHz,顶点的处理能力可达5Mvertex/s。 展开更多
关键词 顶点染色器 专用指令集 可编程 单指令多数据(SIMD)
下载PDF
POF交换机查表预处理性能优化方法
17
作者 凌致远 陈晓 宋磊 《网络新媒体技术》 2023年第6期21-27,共7页
协议无感知转发技术的出现使软件定义网络数据面的可编程能力和可扩展性得到了进一步增强,已有的工作聚焦于匹配动作表的查询优化,包括查表算法的优化和整体流程的加速等。但在基于多级匹配动作表设计的数据包转发流水线中,查表前数据... 协议无感知转发技术的出现使软件定义网络数据面的可编程能力和可扩展性得到了进一步增强,已有的工作聚焦于匹配动作表的查询优化,包括查表算法的优化和整体流程的加速等。但在基于多级匹配动作表设计的数据包转发流水线中,查表前数据包匹配域字段的提取工作会消耗较多的时间,在匹配域复杂的场景下甚至与查表时间相当,这成为了降低交换机转发延迟的瓶颈。为了解决上述问题,我们在POF软件交换机中使用单指令多数据流技术对查表预处理阶段的查表关键字提取流程进行加速。实验结果表明,加速方案使交换机的平均转发延迟降低了12%-38%。 展开更多
关键词 软件定义网络 协议无感知转发 单指令多数据流 查表预处理 高性能转发
下载PDF
SM4字节切片高性能实现
18
作者 龚子睿 郭华 +2 位作者 陈晨 张宇轩 关振宇 《网络空间安全科学学报》 2023年第3期86-96,共11页
SM4是中国自主研发的对称密码算法,目前广泛应用于国家政府部门,但其性能问题制约着算法进一步的推广和应用。在现有S盒研究基础上考虑了线性变换L的结构特点,将计算S盒过程中的仿射变换融合至线性变换中,进而提出了新的SM4函数结构。... SM4是中国自主研发的对称密码算法,目前广泛应用于国家政府部门,但其性能问题制约着算法进一步的推广和应用。在现有S盒研究基础上考虑了线性变换L的结构特点,将计算S盒过程中的仿射变换融合至线性变换中,进而提出了新的SM4函数结构。相比于原始的函数结构,提出的新结构在字节切片的适配性上更优,并基于该新结构提出了一种SM4字节切片优化方法,可降低线性部分的开销、提升指令吞吐率。使用GFNI指令集和AES-NI指令集分别实现本文提出的SM4字节切片优化方法,在消耗的指令条数和指令吞吐率方面均优于采用相同指令集的优化方法。实验结果表明,所提出的优化方法采用GFNI指令集的实现速率最高可达到35 947 Mbps,优于公开文献的最好结果30 026 Mbps。在不支持GFNI的处理器上,优化方法可使用AES-NI指令集实现,可以达到5 410 Mbps,因此具备一定的通用性。 展开更多
关键词 SM4算法 软件优化实现 字节切片 单指令多数据技术 GFNI指令集
下载PDF
面向国产高性能众核处理器的编程模型
19
作者 陈虎 周鹏灵 《计算机应用》 CSCD 北大核心 2023年第11期3517-3526,共10页
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一... 在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代码性能基本持平。所提通用编程模型和支撑框架使高性能计算(HPC)软件开发更简易,并且具有更好的可移植性,可为促进国产自主HPC软件研发提供帮助。 展开更多
关键词 国产众核处理器 单指令多数据流 并行编程模型 SW26010 消息队列模型
下载PDF
基于多核CPU的DVB-RCS2并行Turbo译码方法
20
作者 翟绪论 张永光 +2 位作者 靳安钊 强薇 李梦冰 《计算机科学》 CSCD 北大核心 2023年第6期22-28,共7页
DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式... DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式。为了满足其中双二元Turbo码大吞吐量软件译码的需求,提出了一种基于多核CPU的高速并行软件译码方案。首先对比分析了双二元Turbo码与传统二进制Turbo码的计算复杂度;然后重点对并行计算过程中的内存占用和采用8比特位宽整型数据时的输入量化方法进行了分析和优化,设计了基于多核CPU并行译码的实现方案;最后在Intel 12核CPU上使用SSE并行指令集实现了大于169 Mbps的译码吞吐率,且纠错性能较浮点运算损失小于0.1 dB。通过与现有GPU译码方案对比,说明了所提方案在译码效率和能耗方面的优势,其在高速卫星接收机中具有极高的应用价值。 展开更多
关键词 DVB-RCS2 双二元Turbo码 多核CPU SIMD并行计算 高速译码
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部