期刊文献+
共找到482篇文章
< 1 2 25 >
每页显示 20 50 100
H.264中变换和量化的SIMD优化 被引量:4
1
作者 魏芳 李学明 《计算机工程与应用》 CSCD 北大核心 2004年第17期24-27,共4页
H.264是一个新的基于运动补偿+变换+量化+熵编码框架的视频编码国际标准。H.264中采用了大量的新技术,这些技术在提高编码效率的同时,也极大地增加了算法的复杂度。为此H.264在保证性能的前提下也做了一些优化,如变换和量化可以在16比... H.264是一个新的基于运动补偿+变换+量化+熵编码框架的视频编码国际标准。H.264中采用了大量的新技术,这些技术在提高编码效率的同时,也极大地增加了算法的复杂度。为此H.264在保证性能的前提下也做了一些优化,如变换和量化可以在16比特精度下完成,并且除了量化中需要少许乘法外,其余可以只用加法和移位实现。这些特点使得H.264中的变换和量化可以很好地使用支持单指令多数据(SIMD)的MMX技术进行进一步优化。该文首先介绍了H.264中变换和量化的实现过程和特点,接下来重点讨论了利用MMX指令对变换和量化中的关键部分进行优化的方法,最后给出了计算机仿真的结果,并对结果进行了分析。仿真结果表明:该文提出的方法可以使H.264的变换和量化模块的运算速度提高到原来的3.5~5.2倍,优化效果十分显著。 展开更多
关键词 H.264 整数余弦变换 哈达玛变换 周期量化 simd MMX
下载PDF
并行计算技术与并行算法综述 被引量:10
2
作者 胡峰 胡保生 《电脑与信息技术》 1999年第5期47-59,共13页
并行处理是计算数学与新一代计算机科学相结合的产物,是大型科学计算和工程试验的支持工具。本文从并行处理的结构与分类、并行计算机系统与并行算法、SIMD与同步并行算法、MIMD与同步/异步并行算法、并行算法的构造原则与评价体系、... 并行处理是计算数学与新一代计算机科学相结合的产物,是大型科学计算和工程试验的支持工具。本文从并行处理的结构与分类、并行计算机系统与并行算法、SIMD与同步并行算法、MIMD与同步/异步并行算法、并行算法的构造原则与评价体系、几类常见科学问题的并行算法,及并行处理的高级语言和应用软件开发等几个方面,对并行处理技术及其发展现状进行了比较全面系统的综述。 展开更多
关键词 异步并行算法 并行处理 并行计算机系统 高级语言 并行计算技术 科学计算 应用软件开发 同步 simd 相结合
下载PDF
基于Zynq的AXI总线数据传输软件优化 被引量:17
3
作者 吴汶泰 詹璨铭 《通信技术》 2017年第7期1576-1580,共5页
Xilinx Zynq-7000提供了一种ARM+FPGA单片解决方案,非常适合计算密集、功能丰富的嵌入式系统设计。如何通过不同技术路径访问外部接口,逼近理论传输带宽具有重要意义。典型系统应用环境中,采用XC7020作为主控芯片,其集成处理器系统(Proc... Xilinx Zynq-7000提供了一种ARM+FPGA单片解决方案,非常适合计算密集、功能丰富的嵌入式系统设计。如何通过不同技术路径访问外部接口,逼近理论传输带宽具有重要意义。典型系统应用环境中,采用XC7020作为主控芯片,其集成处理器系统(Processing System,PS)通过AXI总线与可编程逻辑资源(Programmable Logic,PL)相连,其他外设也通过AXI总线接入PS。因为通过系统函数访问AXI总线的性能与理论值相差甚远,所以分别采用SIMD指令、DMA技术和Cache技术对AXI总线访问进行软件优化,并针对64~4 096 Byte大小的包进行分别测试。测试结果表明,经过优化后的访问速率接近AXI总线接口的理论极限。 展开更多
关键词 ZYNQ AXI simd DMA CACHE
下载PDF
一种基于PC的快速三维图像重建方法 被引量:11
4
作者 毛海鹏 张定华 +2 位作者 梁亮 赵歆波 李山 《系统仿真学报》 CAS CSCD 2004年第11期2486-2489,共4页
主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SI... 主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SIMD)技术进行数据并行处理。最后基于Intel Pentium 4 CPU的PC平台,利用SSE/SSE2技术开发了三维图像快速重建引擎。实验结果表明本文提出的方法非常有效,与原始重建算法相比,在保证图像质量不受损失的前提下取得了20倍以上的重建加速比。 展开更多
关键词 三维图像重建 FDK算法 快速重建 单指令多数据 并行计算
下载PDF
面向SLP的多重循环向量化 被引量:13
5
作者 魏帅 赵荣彩 姚远 《软件学报》 EI CSCD 北大核心 2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup... 如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比. 展开更多
关键词 simd 向量化 依赖关系分析 多重循环 超字并行
下载PDF
基于Intel SIMD指令的二维FFT优化算法 被引量:11
6
作者 李成军 周卫峰 朱重光 《计算机工程与应用》 CSCD 北大核心 2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法... 在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。 展开更多
关键词 大数据量图像处理 二维FFT simd SSE/SSE3
下载PDF
SIMD技术与向量数学库研究 被引量:10
7
作者 解庆春 张云泉 +2 位作者 王可 李焱 许亚武 《计算机科学》 CSCD 北大核心 2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ... 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 展开更多
关键词 向量化 SSE MMX 3DNow! simd
下载PDF
面向向量化的局部数据重组 被引量:10
8
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1528-1534,共7页
目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法... 目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法—基于局部数据重组的向量化技术(.通过改变局部数据的布局,将循环中不连续的数据引用变为连续的数据引用,进而完成对循环的向量化;并对数据引用作对齐分析和对齐优化,从而提高程序的向量化性能.以SPEC CPU2000浮点测试集为例,该方法不仅可以向量化对于ICC编译器无法向量化的程序,而且对这些程序都有很好的性能提升,在当前的测试环境下某些程序性能最高可提高241.6%. 展开更多
关键词 向量化 数据重组 对齐分析 对齐优化 simd
下载PDF
AVS软件解码器的优化 被引量:5
9
作者 董斌 姜昱明 《计算机工程与设计》 CSCD 北大核心 2006年第4期618-621,共4页
主要研究了AVS标准的视频压缩部分,简要介绍了编码过程中的关键技术。在PC机上采用VTune测试软件得出影响解码速度的瓶颈并且提出了一种优化方案。从数据流向入手,联合使用程序结构优化和SIMD指令集重写瓶颈模块代码的方案来优化AVS软... 主要研究了AVS标准的视频压缩部分,简要介绍了编码过程中的关键技术。在PC机上采用VTune测试软件得出影响解码速度的瓶颈并且提出了一种优化方案。从数据流向入手,联合使用程序结构优化和SIMD指令集重写瓶颈模块代码的方案来优化AVS软件解码器,并且给出了运动补偿和反变换模块的具体优化方法。实验结果表明该优化方案可行并且解码器的运算速度得到了很大的提高。 展开更多
关键词 AVS 视频压缩 运动补偿 反变换 simd 优化
下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
10
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 simd 自动向量化 Builtin 龙芯3B
下载PDF
S3C6410X(ARM11)精简指令系统微处理机(RISC Microprocessor)的特点和使用实例 被引量:9
11
作者 侯殿有 刘晓光 吉鹤 《电脑学习》 2009年第6期22-24,共3页
S3C6410X精简指令系统微处理机是韩国三星电子公司(Samsung Electronics Co.,Ltd)最新推出的内核为ARM11的RISC嵌入式微处理器,ARM11是为了更有效的提高处理器能力而设计的。ARM11处理器以消费产品市场为目标,推出了许多新的技术,包括... S3C6410X精简指令系统微处理机是韩国三星电子公司(Samsung Electronics Co.,Ltd)最新推出的内核为ARM11的RISC嵌入式微处理器,ARM11是为了更有效的提高处理器能力而设计的。ARM11处理器以消费产品市场为目标,推出了许多新的技术,包括针对多媒体处理的SMID(Single instruction Multiple Data单指令多数据流),用以提高安全性能的TrustZone(通过硬件和软件结合,为片上数据提供安全环境)技术,智能能源管理IEM(In-Ear Monitoring耳内监听)等,本文对S3C6410X的功能作简单描述并通过一个应用实例介绍如何应用。 展开更多
关键词 RISC simd TRUSTZONE IEM Dhrystone
下载PDF
一种混合并行XML解析方法 被引量:9
12
作者 方跃坚 余枝强 +1 位作者 翟磊 吴中海 《软件学报》 EI CSCD 北大核心 2013年第6期1196-1206,共11页
设计了一种混合并行XML解析方法.该方法由轻量级事件划分、事件级并行解析和后处理三阶段组成.使用SIMD指令来加速事件划分.阶段级处理使用软件流水线并行技术.同时使用了事件级数据并行技术和流水线并行技术,所以该方法是一种混合并行... 设计了一种混合并行XML解析方法.该方法由轻量级事件划分、事件级并行解析和后处理三阶段组成.使用SIMD指令来加速事件划分.阶段级处理使用软件流水线并行技术.同时使用了事件级数据并行技术和流水线并行技术,所以该方法是一种混合并行方法.与其他方法相比,该方法具有高效并行解析和低通信开销的优势.在基于8核Intel Xeon X7560 CPU、Linux操作系统机器上的测试结果表明,与现有其他方法相比,该方法能够达到更高的加速以及更好的可扩展性. 展开更多
关键词 XML 混合并行处理 轻量级预处理 simd 事件流
下载PDF
基于并行处理的FFT快速算法 被引量:6
13
作者 袁泉 郭子祺 +1 位作者 姚谦 柳彩霞 《科学技术与工程》 2008年第16期4709-4714,共6页
FFT算法是频域图像处理中最重要的核心算法之一,是影响数字图像处理软件系统整体效率的关键。提出的一种适于SIMD计算模式的自然顺序二维FFT算法,利用Intel处理器提供的新指令对算法进行了改进。应用OpenMP对算法进行了多核环境下的优化... FFT算法是频域图像处理中最重要的核心算法之一,是影响数字图像处理软件系统整体效率的关键。提出的一种适于SIMD计算模式的自然顺序二维FFT算法,利用Intel处理器提供的新指令对算法进行了改进。应用OpenMP对算法进行了多核环境下的优化,并设计了与之配套的滚动型缓冲区。实验结果表明,这种FFT算法在多核下的运行效率最高可达到目前广泛使用的FFT算法的4.5倍,这种算法对海量图像数据的处理优势尤为显著。 展开更多
关键词 FFT 算法 并行 simd SSE
下载PDF
我国并行算法研究的环境及进展 被引量:10
14
作者 李晓梅 《自然杂志》 1992年第2期86-91,共6页
我国的并行算法研究始于70年代末。发展至今,成绩斐然,并有了良好的硬件环境。展望未来,中国的“并行热”必将与世界的“并行热”熔合在一起。
关键词 并行算法 并行计算机 并行求解 simd 并行处理 国防科技大学 算法复杂性 并行执行 方程组求解 并行图论算法
下载PDF
扇束工业CT图像重建算法的并行实现 被引量:4
15
作者 邹永宁 王珏 卢艳平 《计算机工程与应用》 CSCD 北大核心 2007年第25期218-220,共3页
工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel奔腾SIMD技术的加速算法。在用4台P4/2.9G微机构... 工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel奔腾SIMD技术的加速算法。在用4台P4/2.9G微机构建的集群系统平台上对工业CT采集的4个不同的断层投影数据进行重建实验,实验数据表明使用SIMD技术可以得到4-6倍的加速,使用集群并行技术的算法能够得到1.5-3倍的加速,综合应用这两项技术可以得到8-10倍的加速。 展开更多
关键词 工业CT 图像重建 滤波反投影 simd 集群计算
下载PDF
诸葛斌 被引量:5
16
作者 袁非牛 周荷琴 冯焕清 《中国图象图形学报(A辑)》 CSCD 北大核心 2003年第12期1438-1443,共6页
成像速度是影响体绘制应用的关键,为了提高成像速度,提出一种基于Intel奔腾SIMD和分割技术的快速体绘制算法,仅仅应用奔腾SIMD并行技术,常规光线投射算法的成像速度能够提高2~5倍,奔腾SIMD并行指令与分割技术相结合,减少了大量... 成像速度是影响体绘制应用的关键,为了提高成像速度,提出一种基于Intel奔腾SIMD和分割技术的快速体绘制算法,仅仅应用奔腾SIMD并行技术,常规光线投射算法的成像速度能够提高2~5倍,奔腾SIMD并行指令与分割技术相结合,减少了大量空采样,进一步提高了成像速度,而且这种简单的分割技术能够快速地适应转换函数的改变.在一台P4/1.6G的PC机上,以512×512分辨率渲染时,该算法渲染速度比常规光线投射算法提高了10多倍,使得等值面的体绘制速度能够达到1~3帧/秒,实验结果表明,该算法具有渲染速度快、成像质量高等显著优点,而且不需要费时的预处理和特殊体视硬件,具有较大的实际应用价值。 展开更多
关键词 奔腾 渲染速度 光线投射算法 体绘制算法 分割 simd PC机 成像 并行指令 分辨率
下载PDF
基于QEMU的SIMD指令替换浮点指令框架
17
作者 刘登峰 李东亚 +2 位作者 柴志雷 周浩杰 丁海峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是... 现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%. 展开更多
关键词 simd QEMU 动态二进制翻译 浮点计算
下载PDF
面向非多媒体程序的SIMD向量化算法的研究及改进 被引量:6
18
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点... 利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化. 展开更多
关键词 向量化 数据重组 simd 外层循环的向量化
下载PDF
基于塔域的SM4算法快速软件实现 被引量:5
19
作者 王磊 龚征 +2 位作者 刘哲 陈锦海 郝金福 《密码学报》 CSCD 2022年第6期1081-1098,共18页
传统上的SM4软件优化采用查表法,其性能受到cache大小制约,而且易遭到缓存-计时攻击.本文给出了面向SIMD实现的SM4的S盒优化实现,基于塔域优化技术,将SM4的8比特S盒布尔表达式结果的比特切片门复杂度从497降低到115.使用SIMD技术的AVX51... 传统上的SM4软件优化采用查表法,其性能受到cache大小制约,而且易遭到缓存-计时攻击.本文给出了面向SIMD实现的SM4的S盒优化实现,基于塔域优化技术,将SM4的8比特S盒布尔表达式结果的比特切片门复杂度从497降低到115.使用SIMD技术的AVX512指令集和比特切片技术实现512组SM4分组消息的并行加解密.基于OpenSSL开源库完成了快速SM4不同工作模式和多线程下加密的性能测速.在Intel Core i7-11800H@2.3 GHz处理器上使用本方案对SM4算法进行的软件优化实现,其ECB模式在单线程下的加密峰值速度达到了6671 Mbps.同已公开文献中的最优实现性能2580 Mbps(Intel Core i7-7700HQ@2.8 GHz)/3306 Mbps(Intel Core i7-11800H@2.3 GHz)相比,性能提升了159%/101%. 展开更多
关键词 SM4算法 比特切片 simd 塔域实现
下载PDF
基于威焱831平台的H.264视频解码优化
20
作者 王聪 张昊 +1 位作者 刘世巍 黄朴 《现代电子技术》 北大核心 2024年第10期86-90,共5页
为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码... 为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码性能的热点函数。采用手工嵌入SIMD汇编指令的方式对关键模块热点函数进行优化,通过FFmpeg源码编译过程链接汇编实现的内存操作函数memcpy提升内存拷贝速度。实验结果表明,威焱831平台视频解码的平均性能提高26%,推动了威焱831处理器在多媒体应用领域的发展。 展开更多
关键词 威焱831平台 simd H.264解码器 FFMPEG 热点函数 解码效率
下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部