期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
482
篇文章
<
1
2
…
25
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
H.264中变换和量化的SIMD优化
被引量:
4
1
作者
魏芳
李学明
《计算机工程与应用》
CSCD
北大核心
2004年第17期24-27,共4页
H.264是一个新的基于运动补偿+变换+量化+熵编码框架的视频编码国际标准。H.264中采用了大量的新技术,这些技术在提高编码效率的同时,也极大地增加了算法的复杂度。为此H.264在保证性能的前提下也做了一些优化,如变换和量化可以在16比...
H.264是一个新的基于运动补偿+变换+量化+熵编码框架的视频编码国际标准。H.264中采用了大量的新技术,这些技术在提高编码效率的同时,也极大地增加了算法的复杂度。为此H.264在保证性能的前提下也做了一些优化,如变换和量化可以在16比特精度下完成,并且除了量化中需要少许乘法外,其余可以只用加法和移位实现。这些特点使得H.264中的变换和量化可以很好地使用支持单指令多数据(SIMD)的MMX技术进行进一步优化。该文首先介绍了H.264中变换和量化的实现过程和特点,接下来重点讨论了利用MMX指令对变换和量化中的关键部分进行优化的方法,最后给出了计算机仿真的结果,并对结果进行了分析。仿真结果表明:该文提出的方法可以使H.264的变换和量化模块的运算速度提高到原来的3.5~5.2倍,优化效果十分显著。
展开更多
关键词
H.264
整数余弦变换
哈达玛变换
周期量化
simd
MMX
下载PDF
职称材料
并行计算技术与并行算法综述
被引量:
10
2
作者
胡峰
胡保生
《电脑与信息技术》
1999年第5期47-59,共13页
并行处理是计算数学与新一代计算机科学相结合的产物,是大型科学计算和工程试验的支持工具。本文从并行处理的结构与分类、并行计算机系统与并行算法、SIMD与同步并行算法、MIMD与同步/异步并行算法、并行算法的构造原则与评价体系、...
并行处理是计算数学与新一代计算机科学相结合的产物,是大型科学计算和工程试验的支持工具。本文从并行处理的结构与分类、并行计算机系统与并行算法、SIMD与同步并行算法、MIMD与同步/异步并行算法、并行算法的构造原则与评价体系、几类常见科学问题的并行算法,及并行处理的高级语言和应用软件开发等几个方面,对并行处理技术及其发展现状进行了比较全面系统的综述。
展开更多
关键词
异步并行算法
并行处理
并行计算机系统
高级语言
并行计算技术
科学计算
应用软件开发
同步
simd
相结合
下载PDF
职称材料
基于Zynq的AXI总线数据传输软件优化
被引量:
17
3
作者
吴汶泰
詹璨铭
《通信技术》
2017年第7期1576-1580,共5页
Xilinx Zynq-7000提供了一种ARM+FPGA单片解决方案,非常适合计算密集、功能丰富的嵌入式系统设计。如何通过不同技术路径访问外部接口,逼近理论传输带宽具有重要意义。典型系统应用环境中,采用XC7020作为主控芯片,其集成处理器系统(Proc...
Xilinx Zynq-7000提供了一种ARM+FPGA单片解决方案,非常适合计算密集、功能丰富的嵌入式系统设计。如何通过不同技术路径访问外部接口,逼近理论传输带宽具有重要意义。典型系统应用环境中,采用XC7020作为主控芯片,其集成处理器系统(Processing System,PS)通过AXI总线与可编程逻辑资源(Programmable Logic,PL)相连,其他外设也通过AXI总线接入PS。因为通过系统函数访问AXI总线的性能与理论值相差甚远,所以分别采用SIMD指令、DMA技术和Cache技术对AXI总线访问进行软件优化,并针对64~4 096 Byte大小的包进行分别测试。测试结果表明,经过优化后的访问速率接近AXI总线接口的理论极限。
展开更多
关键词
ZYNQ
AXI
simd
DMA
CACHE
下载PDF
职称材料
一种基于PC的快速三维图像重建方法
被引量:
11
4
作者
毛海鹏
张定华
+2 位作者
梁亮
赵歆波
李山
《系统仿真学报》
CAS
CSCD
2004年第11期2486-2489,共4页
主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SI...
主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SIMD)技术进行数据并行处理。最后基于Intel Pentium 4 CPU的PC平台,利用SSE/SSE2技术开发了三维图像快速重建引擎。实验结果表明本文提出的方法非常有效,与原始重建算法相比,在保证图像质量不受损失的前提下取得了20倍以上的重建加速比。
展开更多
关键词
三维图像重建
FDK算法
快速重建
单指令多数据
并行计算
下载PDF
职称材料
面向SLP的多重循环向量化
被引量:
13
5
作者
魏帅
赵荣彩
姚远
《软件学报》
EI
CSCD
北大核心
2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup...
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比.
展开更多
关键词
simd
向量化
依赖关系分析
多重循环
超字并行
下载PDF
职称材料
基于Intel SIMD指令的二维FFT优化算法
被引量:
11
6
作者
李成军
周卫峰
朱重光
《计算机工程与应用》
CSCD
北大核心
2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法...
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。
展开更多
关键词
大数据量图像处理
二维FFT
simd
SSE/SSE3
下载PDF
职称材料
SIMD技术与向量数学库研究
被引量:
10
7
作者
解庆春
张云泉
+2 位作者
王可
李焱
许亚武
《计算机科学》
CSCD
北大核心
2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ...
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。
展开更多
关键词
向量化
SSE
MMX
3DNow!
simd
下载PDF
职称材料
面向向量化的局部数据重组
被引量:
10
8
作者
李玉祥
施慧
陈莉
《小型微型计算机系统》
CSCD
北大核心
2009年第8期1528-1534,共7页
目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法...
目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法—基于局部数据重组的向量化技术(.通过改变局部数据的布局,将循环中不连续的数据引用变为连续的数据引用,进而完成对循环的向量化;并对数据引用作对齐分析和对齐优化,从而提高程序的向量化性能.以SPEC CPU2000浮点测试集为例,该方法不仅可以向量化对于ICC编译器无法向量化的程序,而且对这些程序都有很好的性能提升,在当前的测试环境下某些程序性能最高可提高241.6%.
展开更多
关键词
向量化
数据重组
对齐分析
对齐优化
simd
下载PDF
职称材料
AVS软件解码器的优化
被引量:
5
9
作者
董斌
姜昱明
《计算机工程与设计》
CSCD
北大核心
2006年第4期618-621,共4页
主要研究了AVS标准的视频压缩部分,简要介绍了编码过程中的关键技术。在PC机上采用VTune测试软件得出影响解码速度的瓶颈并且提出了一种优化方案。从数据流向入手,联合使用程序结构优化和SIMD指令集重写瓶颈模块代码的方案来优化AVS软...
主要研究了AVS标准的视频压缩部分,简要介绍了编码过程中的关键技术。在PC机上采用VTune测试软件得出影响解码速度的瓶颈并且提出了一种优化方案。从数据流向入手,联合使用程序结构优化和SIMD指令集重写瓶颈模块代码的方案来优化AVS软件解码器,并且给出了运动补偿和反变换模块的具体优化方法。实验结果表明该优化方案可行并且解码器的运算速度得到了很大的提高。
展开更多
关键词
AVS
视频压缩
运动补偿
反变换
simd
优化
下载PDF
职称材料
龙芯3B的SIMD编译优化及分析
被引量:
9
10
作者
彭飞
顾乃杰
+1 位作者
高翔
孙明明
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B...
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现.
展开更多
关键词
编译优化
simd
自动向量化
Builtin
龙芯3B
下载PDF
职称材料
S3C6410X(ARM11)精简指令系统微处理机(RISC Microprocessor)的特点和使用实例
被引量:
9
11
作者
侯殿有
刘晓光
吉鹤
《电脑学习》
2009年第6期22-24,共3页
S3C6410X精简指令系统微处理机是韩国三星电子公司(Samsung Electronics Co.,Ltd)最新推出的内核为ARM11的RISC嵌入式微处理器,ARM11是为了更有效的提高处理器能力而设计的。ARM11处理器以消费产品市场为目标,推出了许多新的技术,包括...
S3C6410X精简指令系统微处理机是韩国三星电子公司(Samsung Electronics Co.,Ltd)最新推出的内核为ARM11的RISC嵌入式微处理器,ARM11是为了更有效的提高处理器能力而设计的。ARM11处理器以消费产品市场为目标,推出了许多新的技术,包括针对多媒体处理的SMID(Single instruction Multiple Data单指令多数据流),用以提高安全性能的TrustZone(通过硬件和软件结合,为片上数据提供安全环境)技术,智能能源管理IEM(In-Ear Monitoring耳内监听)等,本文对S3C6410X的功能作简单描述并通过一个应用实例介绍如何应用。
展开更多
关键词
RISC
simd
TRUSTZONE
IEM
Dhrystone
下载PDF
职称材料
一种混合并行XML解析方法
被引量:
9
12
作者
方跃坚
余枝强
+1 位作者
翟磊
吴中海
《软件学报》
EI
CSCD
北大核心
2013年第6期1196-1206,共11页
设计了一种混合并行XML解析方法.该方法由轻量级事件划分、事件级并行解析和后处理三阶段组成.使用SIMD指令来加速事件划分.阶段级处理使用软件流水线并行技术.同时使用了事件级数据并行技术和流水线并行技术,所以该方法是一种混合并行...
设计了一种混合并行XML解析方法.该方法由轻量级事件划分、事件级并行解析和后处理三阶段组成.使用SIMD指令来加速事件划分.阶段级处理使用软件流水线并行技术.同时使用了事件级数据并行技术和流水线并行技术,所以该方法是一种混合并行方法.与其他方法相比,该方法具有高效并行解析和低通信开销的优势.在基于8核Intel Xeon X7560 CPU、Linux操作系统机器上的测试结果表明,与现有其他方法相比,该方法能够达到更高的加速以及更好的可扩展性.
展开更多
关键词
XML
混合并行处理
轻量级预处理
simd
事件流
下载PDF
职称材料
基于并行处理的FFT快速算法
被引量:
6
13
作者
袁泉
郭子祺
+1 位作者
姚谦
柳彩霞
《科学技术与工程》
2008年第16期4709-4714,共6页
FFT算法是频域图像处理中最重要的核心算法之一,是影响数字图像处理软件系统整体效率的关键。提出的一种适于SIMD计算模式的自然顺序二维FFT算法,利用Intel处理器提供的新指令对算法进行了改进。应用OpenMP对算法进行了多核环境下的优化...
FFT算法是频域图像处理中最重要的核心算法之一,是影响数字图像处理软件系统整体效率的关键。提出的一种适于SIMD计算模式的自然顺序二维FFT算法,利用Intel处理器提供的新指令对算法进行了改进。应用OpenMP对算法进行了多核环境下的优化,并设计了与之配套的滚动型缓冲区。实验结果表明,这种FFT算法在多核下的运行效率最高可达到目前广泛使用的FFT算法的4.5倍,这种算法对海量图像数据的处理优势尤为显著。
展开更多
关键词
FFT
算法
并行
simd
SSE
下载PDF
职称材料
我国并行算法研究的环境及进展
被引量:
10
14
作者
李晓梅
《自然杂志》
1992年第2期86-91,共6页
我国的并行算法研究始于70年代末。发展至今,成绩斐然,并有了良好的硬件环境。展望未来,中国的“并行热”必将与世界的“并行热”熔合在一起。
关键词
并行算法
并行计算机
并行求解
simd
并行处理
国防科技大学
算法复杂性
并行执行
方程组求解
并行图论算法
下载PDF
职称材料
扇束工业CT图像重建算法的并行实现
被引量:
4
15
作者
邹永宁
王珏
卢艳平
《计算机工程与应用》
CSCD
北大核心
2007年第25期218-220,共3页
工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel奔腾SIMD技术的加速算法。在用4台P4/2.9G微机构...
工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel奔腾SIMD技术的加速算法。在用4台P4/2.9G微机构建的集群系统平台上对工业CT采集的4个不同的断层投影数据进行重建实验,实验数据表明使用SIMD技术可以得到4-6倍的加速,使用集群并行技术的算法能够得到1.5-3倍的加速,综合应用这两项技术可以得到8-10倍的加速。
展开更多
关键词
工业CT
图像重建
滤波反投影
simd
集群计算
下载PDF
职称材料
诸葛斌
被引量:
5
16
作者
袁非牛
周荷琴
冯焕清
《中国图象图形学报(A辑)》
CSCD
北大核心
2003年第12期1438-1443,共6页
成像速度是影响体绘制应用的关键,为了提高成像速度,提出一种基于Intel奔腾SIMD和分割技术的快速体绘制算法,仅仅应用奔腾SIMD并行技术,常规光线投射算法的成像速度能够提高2~5倍,奔腾SIMD并行指令与分割技术相结合,减少了大量...
成像速度是影响体绘制应用的关键,为了提高成像速度,提出一种基于Intel奔腾SIMD和分割技术的快速体绘制算法,仅仅应用奔腾SIMD并行技术,常规光线投射算法的成像速度能够提高2~5倍,奔腾SIMD并行指令与分割技术相结合,减少了大量空采样,进一步提高了成像速度,而且这种简单的分割技术能够快速地适应转换函数的改变.在一台P4/1.6G的PC机上,以512×512分辨率渲染时,该算法渲染速度比常规光线投射算法提高了10多倍,使得等值面的体绘制速度能够达到1~3帧/秒,实验结果表明,该算法具有渲染速度快、成像质量高等显著优点,而且不需要费时的预处理和特殊体视硬件,具有较大的实际应用价值。
展开更多
关键词
奔腾
渲染速度
光线投射算法
体绘制算法
分割
simd
PC机
成像
并行指令
分辨率
下载PDF
职称材料
基于QEMU的SIMD指令替换浮点指令框架
17
作者
刘登峰
李东亚
+2 位作者
柴志雷
周浩杰
丁海峰
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是...
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%.
展开更多
关键词
simd
QEMU
动态二进制翻译
浮点计算
下载PDF
职称材料
面向非多媒体程序的SIMD向量化算法的研究及改进
被引量:
6
18
作者
李玉祥
施慧
陈莉
《小型微型计算机系统》
CSCD
北大核心
2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点...
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化.
展开更多
关键词
向量化
数据重组
simd
外层循环的向量化
下载PDF
职称材料
基于塔域的SM4算法快速软件实现
被引量:
5
19
作者
王磊
龚征
+2 位作者
刘哲
陈锦海
郝金福
《密码学报》
CSCD
2022年第6期1081-1098,共18页
传统上的SM4软件优化采用查表法,其性能受到cache大小制约,而且易遭到缓存-计时攻击.本文给出了面向SIMD实现的SM4的S盒优化实现,基于塔域优化技术,将SM4的8比特S盒布尔表达式结果的比特切片门复杂度从497降低到115.使用SIMD技术的AVX51...
传统上的SM4软件优化采用查表法,其性能受到cache大小制约,而且易遭到缓存-计时攻击.本文给出了面向SIMD实现的SM4的S盒优化实现,基于塔域优化技术,将SM4的8比特S盒布尔表达式结果的比特切片门复杂度从497降低到115.使用SIMD技术的AVX512指令集和比特切片技术实现512组SM4分组消息的并行加解密.基于OpenSSL开源库完成了快速SM4不同工作模式和多线程下加密的性能测速.在Intel Core i7-11800H@2.3 GHz处理器上使用本方案对SM4算法进行的软件优化实现,其ECB模式在单线程下的加密峰值速度达到了6671 Mbps.同已公开文献中的最优实现性能2580 Mbps(Intel Core i7-7700HQ@2.8 GHz)/3306 Mbps(Intel Core i7-11800H@2.3 GHz)相比,性能提升了159%/101%.
展开更多
关键词
SM4算法
比特切片
simd
塔域实现
下载PDF
职称材料
基于威焱831平台的H.264视频解码优化
20
作者
王聪
张昊
+1 位作者
刘世巍
黄朴
《现代电子技术》
北大核心
2024年第10期86-90,共5页
为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码...
为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码性能的热点函数。采用手工嵌入SIMD汇编指令的方式对关键模块热点函数进行优化,通过FFmpeg源码编译过程链接汇编实现的内存操作函数memcpy提升内存拷贝速度。实验结果表明,威焱831平台视频解码的平均性能提高26%,推动了威焱831处理器在多媒体应用领域的发展。
展开更多
关键词
威焱831平台
simd
H.264解码器
FFMPEG
热点函数
解码效率
下载PDF
职称材料
题名
H.264中变换和量化的SIMD优化
被引量:
4
1
作者
魏芳
李学明
机构
北京邮电大学信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2004年第17期24-27,共4页
基金
国家自然科学基金项目(编号:60172050)资助
文摘
H.264是一个新的基于运动补偿+变换+量化+熵编码框架的视频编码国际标准。H.264中采用了大量的新技术,这些技术在提高编码效率的同时,也极大地增加了算法的复杂度。为此H.264在保证性能的前提下也做了一些优化,如变换和量化可以在16比特精度下完成,并且除了量化中需要少许乘法外,其余可以只用加法和移位实现。这些特点使得H.264中的变换和量化可以很好地使用支持单指令多数据(SIMD)的MMX技术进行进一步优化。该文首先介绍了H.264中变换和量化的实现过程和特点,接下来重点讨论了利用MMX指令对变换和量化中的关键部分进行优化的方法,最后给出了计算机仿真的结果,并对结果进行了分析。仿真结果表明:该文提出的方法可以使H.264的变换和量化模块的运算速度提高到原来的3.5~5.2倍,优化效果十分显著。
关键词
H.264
整数余弦变换
哈达玛变换
周期量化
simd
MMX
Keywords
H.264,integer cosine transform,hadamard transform,periodic quantization,
simd
,MMX
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
并行计算技术与并行算法综述
被引量:
10
2
作者
胡峰
胡保生
机构
西安交通大学
出处
《电脑与信息技术》
1999年第5期47-59,共13页
基金
西安交通大学研究生院基金!DFXJU98-10
文摘
并行处理是计算数学与新一代计算机科学相结合的产物,是大型科学计算和工程试验的支持工具。本文从并行处理的结构与分类、并行计算机系统与并行算法、SIMD与同步并行算法、MIMD与同步/异步并行算法、并行算法的构造原则与评价体系、几类常见科学问题的并行算法,及并行处理的高级语言和应用软件开发等几个方面,对并行处理技术及其发展现状进行了比较全面系统的综述。
关键词
异步并行算法
并行处理
并行计算机系统
高级语言
并行计算技术
科学计算
应用软件开发
同步
simd
相结合
分类号
TP301 [自动化与计算机技术—计算机系统结构]
TP311 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于Zynq的AXI总线数据传输软件优化
被引量:
17
3
作者
吴汶泰
詹璨铭
机构
四川卫士通信息安全平台技术有限公司
出处
《通信技术》
2017年第7期1576-1580,共5页
文摘
Xilinx Zynq-7000提供了一种ARM+FPGA单片解决方案,非常适合计算密集、功能丰富的嵌入式系统设计。如何通过不同技术路径访问外部接口,逼近理论传输带宽具有重要意义。典型系统应用环境中,采用XC7020作为主控芯片,其集成处理器系统(Processing System,PS)通过AXI总线与可编程逻辑资源(Programmable Logic,PL)相连,其他外设也通过AXI总线接入PS。因为通过系统函数访问AXI总线的性能与理论值相差甚远,所以分别采用SIMD指令、DMA技术和Cache技术对AXI总线访问进行软件优化,并针对64~4 096 Byte大小的包进行分别测试。测试结果表明,经过优化后的访问速率接近AXI总线接口的理论极限。
关键词
ZYNQ
AXI
simd
DMA
CACHE
Keywords
ZYNQ
AXI
simd
DMA
Cache
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于PC的快速三维图像重建方法
被引量:
11
4
作者
毛海鹏
张定华
梁亮
赵歆波
李山
机构
西北工业大学现代设计与集成制造技术教育部重点实验室
出处
《系统仿真学报》
CAS
CSCD
2004年第11期2486-2489,共4页
基金
国防基础科研项目(J1600E003)
总装预先研究项目(41318.1.1.7)
文摘
主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SIMD)技术进行数据并行处理。最后基于Intel Pentium 4 CPU的PC平台,利用SSE/SSE2技术开发了三维图像快速重建引擎。实验结果表明本文提出的方法非常有效,与原始重建算法相比,在保证图像质量不受损失的前提下取得了20倍以上的重建加速比。
关键词
三维图像重建
FDK算法
快速重建
单指令多数据
并行计算
Keywords
D image reconstruction
FDK algorithm
fast reconstruction
simd
parallel computing
分类号
TP391.75 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向SLP的多重循环向量化
被引量:
13
5
作者
魏帅
赵荣彩
姚远
机构
解放军信息工程大学信息工程学院
出处
《软件学报》
EI
CSCD
北大核心
2012年第7期1717-1728,共12页
基金
国家高技术研究发展计划(863)(2009AA012201)
"核高基"国家科技重大专项(2009ZX01036)
文摘
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比.
关键词
simd
向量化
依赖关系分析
多重循环
超字并行
Keywords
simd
(single instruction multiple data)
vectorization
data dependence analysis
nested loop
SLP(superword level parallelism)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Intel SIMD指令的二维FFT优化算法
被引量:
11
6
作者
李成军
周卫峰
朱重光
机构
中国科学院研究生院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第5期41-44,共4页
文摘
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。
关键词
大数据量图像处理
二维FFT
simd
SSE/SSE3
Keywords
large-scale image processing
2D FFT
simd
SSE/SSE3
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP75 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
SIMD技术与向量数学库研究
被引量:
10
7
作者
解庆春
张云泉
王可
李焱
许亚武
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院计算机科学国家重点实验室
中国科学院研究生院
广州大学网络与现代教育技术中心
出处
《计算机科学》
CSCD
北大核心
2011年第7期298-301,共4页
基金
国家863项目(2006AA01A125
2009AA01A129
+2 种基金
2009AA01A134)
国家自然科学基金项目(60303032)
国家自然基金重点项目(60533020)资助
文摘
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。
关键词
向量化
SSE
MMX
3DNow!
simd
Keywords
Vectorization
SSE
MMX
3DNow!
simd
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向向量化的局部数据重组
被引量:
10
8
作者
李玉祥
施慧
陈莉
机构
中国科学技术大学计算机科学技术系
中国科学院计算机系统结构重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第8期1528-1534,共7页
基金
国家"八六三"高技术研究发展计划基金项目(2007AA01Z110)资助
国家"九七三"重点基础研究发展规划基金项目(2005CB321602)资助
文摘
目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法—基于局部数据重组的向量化技术(.通过改变局部数据的布局,将循环中不连续的数据引用变为连续的数据引用,进而完成对循环的向量化;并对数据引用作对齐分析和对齐优化,从而提高程序的向量化性能.以SPEC CPU2000浮点测试集为例,该方法不仅可以向量化对于ICC编译器无法向量化的程序,而且对这些程序都有很好的性能提升,在当前的测试环境下某些程序性能最高可提高241.6%.
关键词
向量化
数据重组
对齐分析
对齐优化
simd
Keywords
vectorization
data regrouping
data alignment analysis
data alignment optimization
simd
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
AVS软件解码器的优化
被引量:
5
9
作者
董斌
姜昱明
机构
西安电子科技大学计算机学院
出处
《计算机工程与设计》
CSCD
北大核心
2006年第4期618-621,共4页
文摘
主要研究了AVS标准的视频压缩部分,简要介绍了编码过程中的关键技术。在PC机上采用VTune测试软件得出影响解码速度的瓶颈并且提出了一种优化方案。从数据流向入手,联合使用程序结构优化和SIMD指令集重写瓶颈模块代码的方案来优化AVS软件解码器,并且给出了运动补偿和反变换模块的具体优化方法。实验结果表明该优化方案可行并且解码器的运算速度得到了很大的提高。
关键词
AVS
视频压缩
运动补偿
反变换
simd
优化
Keywords
AVS
video compression
motion compensation
inverse transform
simd
optimization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
龙芯3B的SIMD编译优化及分析
被引量:
9
10
作者
彭飞
顾乃杰
高翔
孙明明
机构
中国科学技术大学计算机科学与技术学院
安徽省计算与通信软件重点实验室
中国科学技术大学-中国科学院沈阳计算所网络与通信联合实验室
中国科学院计算技术研究所微处理器研究中心
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2733-2737,共5页
基金
国家"核高基"重大专项课题项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现.
关键词
编译优化
simd
自动向量化
Builtin
龙芯3B
Keywords
compiler optimization
simd
auto-vectorization
builtin
Godson-3B
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
S3C6410X(ARM11)精简指令系统微处理机(RISC Microprocessor)的特点和使用实例
被引量:
9
11
作者
侯殿有
刘晓光
吉鹤
机构
长春理工大学光电信息学院
出处
《电脑学习》
2009年第6期22-24,共3页
文摘
S3C6410X精简指令系统微处理机是韩国三星电子公司(Samsung Electronics Co.,Ltd)最新推出的内核为ARM11的RISC嵌入式微处理器,ARM11是为了更有效的提高处理器能力而设计的。ARM11处理器以消费产品市场为目标,推出了许多新的技术,包括针对多媒体处理的SMID(Single instruction Multiple Data单指令多数据流),用以提高安全性能的TrustZone(通过硬件和软件结合,为片上数据提供安全环境)技术,智能能源管理IEM(In-Ear Monitoring耳内监听)等,本文对S3C6410X的功能作简单描述并通过一个应用实例介绍如何应用。
关键词
RISC
simd
TRUSTZONE
IEM
Dhrystone
Keywords
RISC
simd
TrustZone IEM Dhrystone
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种混合并行XML解析方法
被引量:
9
12
作者
方跃坚
余枝强
翟磊
吴中海
机构
北京大学信息科学技术学院
英特尔上海软件研发中心
北京大学软件与微电子学院
出处
《软件学报》
EI
CSCD
北大核心
2013年第6期1196-1206,共11页
基金
国家科技支撑计划(2012BAH06B01)
文摘
设计了一种混合并行XML解析方法.该方法由轻量级事件划分、事件级并行解析和后处理三阶段组成.使用SIMD指令来加速事件划分.阶段级处理使用软件流水线并行技术.同时使用了事件级数据并行技术和流水线并行技术,所以该方法是一种混合并行方法.与其他方法相比,该方法具有高效并行解析和低通信开销的优势.在基于8核Intel Xeon X7560 CPU、Linux操作系统机器上的测试结果表明,与现有其他方法相比,该方法能够达到更高的加速以及更好的可扩展性.
关键词
XML
混合并行处理
轻量级预处理
simd
事件流
Keywords
XML
hybird parallel processing
lightweight preparing
simd
event stream
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于并行处理的FFT快速算法
被引量:
6
13
作者
袁泉
郭子祺
姚谦
柳彩霞
机构
中国科学院研究生院
中国科学院遥感应用研究所
出处
《科学技术与工程》
2008年第16期4709-4714,共6页
基金
国家十一五科技支撑课题(2006BAJ10B06)资助
文摘
FFT算法是频域图像处理中最重要的核心算法之一,是影响数字图像处理软件系统整体效率的关键。提出的一种适于SIMD计算模式的自然顺序二维FFT算法,利用Intel处理器提供的新指令对算法进行了改进。应用OpenMP对算法进行了多核环境下的优化,并设计了与之配套的滚动型缓冲区。实验结果表明,这种FFT算法在多核下的运行效率最高可达到目前广泛使用的FFT算法的4.5倍,这种算法对海量图像数据的处理优势尤为显著。
关键词
FFT
算法
并行
simd
SSE
Keywords
FFT algorithm parallel
simd
SSE
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
我国并行算法研究的环境及进展
被引量:
10
14
作者
李晓梅
机构
国防科技大学
出处
《自然杂志》
1992年第2期86-91,共6页
文摘
我国的并行算法研究始于70年代末。发展至今,成绩斐然,并有了良好的硬件环境。展望未来,中国的“并行热”必将与世界的“并行热”熔合在一起。
关键词
并行算法
并行计算机
并行求解
simd
并行处理
国防科技大学
算法复杂性
并行执行
方程组求解
并行图论算法
分类号
N49 [自然科学总论]
下载PDF
职称材料
题名
扇束工业CT图像重建算法的并行实现
被引量:
4
15
作者
邹永宁
王珏
卢艳平
机构
重庆大学ICT研究中心
出处
《计算机工程与应用》
CSCD
北大核心
2007年第25期218-220,共3页
基金
重庆市科技公关计划( the Key Technologies R&D Program of Chongqing City
China under Grant No.CSTC 2006AB3027) 。
文摘
工业CT图像的重建速度是工业CT产品的一个重要指标。使用并行算法是提高重建速度的一个行之有效的方法。提出了基于Beowulf集群系统的滤波反投影算法的并行实现方法;并且提出了基于Intel奔腾SIMD技术的加速算法。在用4台P4/2.9G微机构建的集群系统平台上对工业CT采集的4个不同的断层投影数据进行重建实验,实验数据表明使用SIMD技术可以得到4-6倍的加速,使用集群并行技术的算法能够得到1.5-3倍的加速,综合应用这两项技术可以得到8-10倍的加速。
关键词
工业CT
图像重建
滤波反投影
simd
集群计算
Keywords
industrial CT
image reconstruction
filtering back-projection
simd
cluster computing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
诸葛斌
被引量:
5
16
作者
袁非牛
周荷琴
冯焕清
机构
中国科学技术大学信息科学与技术学院
出处
《中国图象图形学报(A辑)》
CSCD
北大核心
2003年第12期1438-1443,共6页
文摘
成像速度是影响体绘制应用的关键,为了提高成像速度,提出一种基于Intel奔腾SIMD和分割技术的快速体绘制算法,仅仅应用奔腾SIMD并行技术,常规光线投射算法的成像速度能够提高2~5倍,奔腾SIMD并行指令与分割技术相结合,减少了大量空采样,进一步提高了成像速度,而且这种简单的分割技术能够快速地适应转换函数的改变.在一台P4/1.6G的PC机上,以512×512分辨率渲染时,该算法渲染速度比常规光线投射算法提高了10多倍,使得等值面的体绘制速度能够达到1~3帧/秒,实验结果表明,该算法具有渲染速度快、成像质量高等显著优点,而且不需要费时的预处理和特殊体视硬件,具有较大的实际应用价值。
关键词
奔腾
渲染速度
光线投射算法
体绘制算法
分割
simd
PC机
成像
并行指令
分辨率
分类号
TB851.1 [一般工业技术—摄影技术]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于QEMU的SIMD指令替换浮点指令框架
17
作者
刘登峰
李东亚
柴志雷
周浩杰
丁海峰
机构
江南大学人工智能与计算机学院
出处
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2024年第8期70-77,共8页
基金
国家重点研发专项计划项目(2022YFE0112400)
国家自然科学基金资助项目(21706096)
江苏省自然科学基金青年项目(BK20160162)。
文摘
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%.
关键词
simd
QEMU
动态二进制翻译
浮点计算
Keywords
simd
QEMU
dynamic binary translation
floating-point arithmetic
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向非多媒体程序的SIMD向量化算法的研究及改进
被引量:
6
18
作者
李玉祥
施慧
陈莉
机构
中国科学技术大学计算机科学技术系
中国科学院计算机系统结构重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第10期1927-1935,共9页
基金
国家"八六三"高技术研究发展计划项目(2007AA01Z110)资助
国家"九七三"重点基础研究发展规划(2005CB321602)资助
文摘
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化.
关键词
向量化
数据重组
simd
外层循环的向量化
Keywords
vectorization
data regrouping
simd
outer-loop vectorization
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于塔域的SM4算法快速软件实现
被引量:
5
19
作者
王磊
龚征
刘哲
陈锦海
郝金福
机构
华南师范大学计算机学院
南京航空航天大学计算机科学与技术学院
密码科学技术国家重点实验室
出处
《密码学报》
CSCD
2022年第6期1081-1098,共18页
基金
国家重点研发计划(2020AAA0107703)
国家自然科学基金(62072192,62132008)
+5 种基金
国防科技173基础加强计划技术领域项目(2121-JCJQ-JJ-0931)
“十三五”国家密码发展基金(MMJJ20180105)
江苏省自然科学基金(BK20180421)
广东省基础与应用基础研究基金(2022A1515140090)
CCF-腾讯犀牛鸟基金
霍英东青年教师基金(171057)。
文摘
传统上的SM4软件优化采用查表法,其性能受到cache大小制约,而且易遭到缓存-计时攻击.本文给出了面向SIMD实现的SM4的S盒优化实现,基于塔域优化技术,将SM4的8比特S盒布尔表达式结果的比特切片门复杂度从497降低到115.使用SIMD技术的AVX512指令集和比特切片技术实现512组SM4分组消息的并行加解密.基于OpenSSL开源库完成了快速SM4不同工作模式和多线程下加密的性能测速.在Intel Core i7-11800H@2.3 GHz处理器上使用本方案对SM4算法进行的软件优化实现,其ECB模式在单线程下的加密峰值速度达到了6671 Mbps.同已公开文献中的最优实现性能2580 Mbps(Intel Core i7-7700HQ@2.8 GHz)/3306 Mbps(Intel Core i7-11800H@2.3 GHz)相比,性能提升了159%/101%.
关键词
SM4算法
比特切片
simd
塔域实现
Keywords
SM4
bitslicing
simd
tower field implementation
分类号
TP309.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于威焱831平台的H.264视频解码优化
20
作者
王聪
张昊
刘世巍
黄朴
机构
中电科申泰信息科技有限公司
出处
《现代电子技术》
北大核心
2024年第10期86-90,共5页
文摘
为提高威焱831平台的多媒体处理能力,解决H.264解码器解码效率低的问题,在提出SIMD指令级优化方法的同时,提出一种面向帧拷贝的优化方法。通过分析开源软件FFmpeg中H.264解码器的并行化特性,使用威焱平台性能分析工具解析影响视频解码性能的热点函数。采用手工嵌入SIMD汇编指令的方式对关键模块热点函数进行优化,通过FFmpeg源码编译过程链接汇编实现的内存操作函数memcpy提升内存拷贝速度。实验结果表明,威焱831平台视频解码的平均性能提高26%,推动了威焱831处理器在多媒体应用领域的发展。
关键词
威焱831平台
simd
H.264解码器
FFMPEG
热点函数
解码效率
Keywords
Weiyan 831 platform
simd
H.264 decoder
FFmpeg
hotspot function
decoding efficiency
分类号
TN919.81-34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
H.264中变换和量化的SIMD优化
魏芳
李学明
《计算机工程与应用》
CSCD
北大核心
2004
4
下载PDF
职称材料
2
并行计算技术与并行算法综述
胡峰
胡保生
《电脑与信息技术》
1999
10
下载PDF
职称材料
3
基于Zynq的AXI总线数据传输软件优化
吴汶泰
詹璨铭
《通信技术》
2017
17
下载PDF
职称材料
4
一种基于PC的快速三维图像重建方法
毛海鹏
张定华
梁亮
赵歆波
李山
《系统仿真学报》
CAS
CSCD
2004
11
下载PDF
职称材料
5
面向SLP的多重循环向量化
魏帅
赵荣彩
姚远
《软件学报》
EI
CSCD
北大核心
2012
13
下载PDF
职称材料
6
基于Intel SIMD指令的二维FFT优化算法
李成军
周卫峰
朱重光
《计算机工程与应用》
CSCD
北大核心
2007
11
下载PDF
职称材料
7
SIMD技术与向量数学库研究
解庆春
张云泉
王可
李焱
许亚武
《计算机科学》
CSCD
北大核心
2011
10
下载PDF
职称材料
8
面向向量化的局部数据重组
李玉祥
施慧
陈莉
《小型微型计算机系统》
CSCD
北大核心
2009
10
下载PDF
职称材料
9
AVS软件解码器的优化
董斌
姜昱明
《计算机工程与设计》
CSCD
北大核心
2006
5
下载PDF
职称材料
10
龙芯3B的SIMD编译优化及分析
彭飞
顾乃杰
高翔
孙明明
《小型微型计算机系统》
CSCD
北大核心
2012
9
下载PDF
职称材料
11
S3C6410X(ARM11)精简指令系统微处理机(RISC Microprocessor)的特点和使用实例
侯殿有
刘晓光
吉鹤
《电脑学习》
2009
9
下载PDF
职称材料
12
一种混合并行XML解析方法
方跃坚
余枝强
翟磊
吴中海
《软件学报》
EI
CSCD
北大核心
2013
9
下载PDF
职称材料
13
基于并行处理的FFT快速算法
袁泉
郭子祺
姚谦
柳彩霞
《科学技术与工程》
2008
6
下载PDF
职称材料
14
我国并行算法研究的环境及进展
李晓梅
《自然杂志》
1992
10
下载PDF
职称材料
15
扇束工业CT图像重建算法的并行实现
邹永宁
王珏
卢艳平
《计算机工程与应用》
CSCD
北大核心
2007
4
下载PDF
职称材料
16
诸葛斌
袁非牛
周荷琴
冯焕清
《中国图象图形学报(A辑)》
CSCD
北大核心
2003
5
下载PDF
职称材料
17
基于QEMU的SIMD指令替换浮点指令框架
刘登峰
李东亚
柴志雷
周浩杰
丁海峰
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
18
面向非多媒体程序的SIMD向量化算法的研究及改进
李玉祥
施慧
陈莉
《小型微型计算机系统》
CSCD
北大核心
2009
6
下载PDF
职称材料
19
基于塔域的SM4算法快速软件实现
王磊
龚征
刘哲
陈锦海
郝金福
《密码学报》
CSCD
2022
5
下载PDF
职称材料
20
基于威焱831平台的H.264视频解码优化
王聪
张昊
刘世巍
黄朴
《现代电子技术》
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
25
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部