期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向FT-M7002的Sobel边缘检测算法优化实现 被引量:6
1
作者 范明亮 郭子涵 +1 位作者 柴晓楠 商建东 《计算机工程》 CAS CSCD 北大核心 2022年第6期193-199,共7页
边缘检测是图像处理与计算机视觉领域中一种重要的图像分析方法,Sobel算子常用于粗精度的边缘提取,在图像边缘检测中被广泛应用。随着国产飞腾(FT)系列高性能数字信号处理器的发展,图像处理领域对FT平台的需求日益提高,同时急需实现面... 边缘检测是图像处理与计算机视觉领域中一种重要的图像分析方法,Sobel算子常用于粗精度的边缘提取,在图像边缘检测中被广泛应用。随着国产飞腾(FT)系列高性能数字信号处理器的发展,图像处理领域对FT平台的需求日益提高,同时急需实现面向FT平台的高性能图像处理算法。针对上述问题,在FT-M7002平台上对Sobel边缘检测算法进行向量并行优化,使用FT-M7002处理器内嵌SIMD指令,挖掘Sobel边缘检测算法中的数据级并行性,同时设计并实现一种字符型与整型数据间的并行化转换接口,使用循环展开优化方法提升指令节拍数,通过DMA矩阵转置解决数据访存不连续的问题。采用双缓冲技术实现数据传输与内核计算的并行,从而隐藏数据传输与计算之间的时间间隙。对比分析多种卷积核大小及图片规模下原Sobel算法与优化算法的性能,结果表明,与原始算法相比,该优化算法能取得1.66~3.14倍的加速比,此外,相较TMS320C6678处理器上的运行结果,在FT-M7002平台上优化算法可达到1.87~2.08倍的加速效果。 展开更多
关键词 边缘检测 SOBEL算子 高性能数字信号处理器 向量并行 循环展开
下载PDF
面向FT-M6678的对称矩阵特征值求解算法实现与优化
2
作者 于立 韩林 +1 位作者 罗有才 商建东 《计算机工程》 CAS CSCD 北大核心 2024年第2期51-58,共8页
目前国产自主可控FT-M6678平台上没有对称矩阵特征值求解相关的实现,且平台上现有数学计算库不能很好地满足类似问题求解的需求。面向国产FT-M6678处理器,对对称矩阵特征值求解(SYEV)算法进行实现与优化,完善FT-M6678平台的线性代数计... 目前国产自主可控FT-M6678平台上没有对称矩阵特征值求解相关的实现,且平台上现有数学计算库不能很好地满足类似问题求解的需求。面向国产FT-M6678处理器,对对称矩阵特征值求解(SYEV)算法进行实现与优化,完善FT-M6678平台的线性代数计算库。通过对SYEV算法的实现过程以及运行热点的分析,基于FT-M6678平台进行编译优化、访存优化以及向量并行化优化,其中:编译优化是根据不同的编译选项指导编译器对程序优化以达到加速效果;访存优化包括缓存优化以及数据段与程序段的分配优化,用于提高矩阵数据的访存效率;向量并行化优化包括循环展开以及适配FT-M6678平台的单指令多数据流(SIMD)指令并行优化,用于提升程序的计算效率。在FT-M6678平台上对所实现并优化的算法进行正确性验证与优化性能分析,结果表明,算法能够正确通过LAPACK官方测试集测试,并且在FT-M6678平台上的加速效果可达到58.346倍,对比TMS320C6678平台速度可提升2.053倍。 展开更多
关键词 对称矩阵特征值 FT-M6678平台 热点分析 缓存优化 向量并行
下载PDF
循环自动并行化技术研究 被引量:1
3
作者 高雨辰 赵荣彩 +1 位作者 韩林 李雁冰 《信息工程大学学报》 2019年第1期82-89,共8页
伴随着并行体系结构和处理器芯片的发展,计算机系统提供的计算资源越来越多,结构越加复杂,程序员手工编写并行程序的难度也越来越大,自动并行化技术的研究显得愈发重要。首先通过现代体系结构支持的4种并行方式对循环自动并行化技术进... 伴随着并行体系结构和处理器芯片的发展,计算机系统提供的计算资源越来越多,结构越加复杂,程序员手工编写并行程序的难度也越来越大,自动并行化技术的研究显得愈发重要。首先通过现代体系结构支持的4种并行方式对循环自动并行化技术进行梳理,然后对自动并行化流程进行描述,提出4种循环并行方式并分别进行分析,最后对当前主流产品级编译器的自动并行化能力进行测试和分析,直观反映当前主流编译器的自动并行化能力。 展开更多
关键词 自动并行 循环并行方式 向量并行
下载PDF
面向FT-M7002的高斯滤波算法优化实现 被引量:7
4
作者 陈云 王梦园 +1 位作者 柴晓楠 商建东 《计算机工程与科学》 CSCD 北大核心 2021年第5期799-806,共8页
国产自主研发的飞腾系列高性能DSP处理器在图像处理领域的应用,对面向该平台的高性能图像处理算法提出了强烈需求。高斯滤波作为图像处理的基础算法,能有效滤除图像中的高斯噪声,在图像处理领域具有广泛应用。针对飞腾高性能DSP的体系... 国产自主研发的飞腾系列高性能DSP处理器在图像处理领域的应用,对面向该平台的高性能图像处理算法提出了强烈需求。高斯滤波作为图像处理的基础算法,能有效滤除图像中的高斯噪声,在图像处理领域具有广泛应用。针对飞腾高性能DSP的体系结构特点与高斯滤波算法特性,实现了面向飞腾高性能DSP的高斯滤波算法优化。通过手工向量化、控制流消除和循环展开等优化手段充分利用数据级与指令级并行性,从而减少数据访存次数,提高指令执行效率。针对FT-MT2内核中的DMA硬件及向量存储器结构特点,进行了“乒-乓”缓存、DMA数组转置等优化,以减少数据传输时间,提高数据局部性。多种滤波核大小及图像矩阵规模下的测试结果表明,相对于高斯滤波算法的串行实现,该并行优化实现获得了1.3~1.41倍的加速比。在开启Cache的情况下,相较于dsplib库中高斯滤波算法在TMS320C6678平台上的运行性能,获得了1.15~1.71倍的加速效果。 展开更多
关键词 高性能DSP 高斯滤波 向量并行优化 DMA传输优化
下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
5
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 SIMD扩展部件 向量并行 Loop-aware 循环展开
下载PDF
超级计算机发展的新技术和新观念
6
作者 沈志宇 《国防科技》 2002年第9期16-19,共4页
近年来,超级计算机技术的新发展和研制超级计算机的新观念表明,更高性能超级计算机的体系结构正酝酿着新的变化;研制更高性能超级计算机不但应重视性能价格比,而且应重视性能拥有代价比;研制超级计算机不再是超级计算机公司的专利... 近年来,超级计算机技术的新发展和研制超级计算机的新观念表明,更高性能超级计算机的体系结构正酝酿着新的变化;研制更高性能超级计算机不但应重视性能价格比,而且应重视性能拥有代价比;研制超级计算机不再是超级计算机公司的专利;人们不但需要高性能计算机,还需要高生产率计算机。 展开更多
关键词 超级计算机 发展现状 计算机集群技术 向量并行多处理体系结构 高生产率计算机 高性能计算机 处理器
下载PDF
基于VEPPSO-EXTRA混合算法的分布式直接定位技术
7
作者 陈志坤 翁一鸣 +1 位作者 彭冬亮 吴美婵 《电子与信息学报》 EI CSCD 北大核心 2023年第2期664-671,共8页
相对于集中式直接定位技术,分布式直接定位算法具有计算复杂度小和通信代价小等优点,但存在定位精度损失的问题。针对于此,该文提出一种基于VEPPSO-EXTRA混合算法的分布式直接定位技术。首先,基于子空间融合的直接定位算法,推导其分布... 相对于集中式直接定位技术,分布式直接定位算法具有计算复杂度小和通信代价小等优点,但存在定位精度损失的问题。针对于此,该文提出一种基于VEPPSO-EXTRA混合算法的分布式直接定位技术。首先,基于子空间融合的直接定位算法,推导其分布式优化的数学模型;其次,基于多种群联合进化的思想,提出一种基于向量评估的并行粒子群算法(VEPPSO)实现全局寻优,由此得到辐射源迭代初始值;最后,引入分布式精确一阶算法(EXTRA)求解最终位置以降低分布式计算带来的精度损失。实验结果表明,相较于现有的分布式直接定位算法,该技术能解决定位精度损失的问题,且其计算复杂度与通信代价低于对应的集中式直接定位算法。 展开更多
关键词 分布式直接定位 传感器网络 基于向量评估的并行粒子群算法 精确1阶算法
下载PDF
《益智园》地球仿真器抒情
8
作者 赤赫 《资料卡片杂志》 2003年第4期5-5,共1页
关键词 《益智园》 地球仿真器 向量并行超级计算机 运算速度 作用 价值
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部