期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向FT-M7002的阈值分割算法优化实现
1
作者 陈云 胡伟方 +1 位作者 王梦园 商建东 《计算机应用与软件》 北大核心 2024年第8期254-258,310,共6页
在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量... 在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量指令集进行手工向量化改写以充分利用FT-M7002平台超长向量寄存器,从而减少数据访存次数提高数据级并行性。在多种图像矩阵规模下进行性能测试,结果显示,阈值分割中的阈值比较模块优化后获得了3.74~4.39倍的加速效果,Otsu阈值分割算法总体优化实现获得了1.77~1.87倍的加速效果。 展开更多
关键词 ft-M7002 Otsu阈值分割 手工向量化 循环展开 数据级并行
下载PDF
面向FT-M7002平台点积算法的优化实现
2
作者 郭盼盼 陈梦雪 +2 位作者 梁祖达 马晓畅 许邦建 《计算机工程与科学》 CSCD 北大核心 2022年第11期1909-1917,共9页
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了... 基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了程序的向量并行性,有效地提升了数据传输的速度,提高了程序性能。实验结果表明,输入不同规模大小的数组,不同类型的点积算法在FT-M7002平台上优化后和优化前的平均性能比为12.4166~45.2338。相较于TI官网的dsplib库中不同类型的点积函数在TMS320C6678处理器上运行的性能,FT-M7002平台优化后的性能与TI平台的平均性能比为1.3716~4.5196。实验结果表明了该DSP平台相对于TI主流平台的计算性能优势。 展开更多
关键词 ft-M7002 DSP 点积算法 向量 DMA双通道传输 SVR传输
下载PDF
Canny边缘检测算法在飞腾平台上的实现与优化 被引量:4
3
作者 郭恒亮 柴晓楠 +2 位作者 韩林 赫晓慧 商建东 《计算机工程》 CAS CSCD 北大核心 2021年第7期37-43,共7页
为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能... 为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny梯度计算并行算法的访存模式,通过首地址偏移取址解决不连续访存问题,并结合双缓冲方式完成数据传输与数据计算。实验结果表明,在与原始Canny算法具有相同检测精度的情况下,该算法在卷积核大小为3×3、5×5、7×7时整体运行速度提升了1.490~2.112倍,缩小了与主流加速器件在数字图像处理领域的性能差距。 展开更多
关键词 ft-M7002处理器 CANNY边缘检测 梯度计算并行 访存优化 双缓冲方式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部