期刊文献+
共找到157篇文章
< 1 2 8 >
每页显示 20 50 100
二维矩阵卷积的并行计算方法 被引量:7
1
作者 张军阳 郭阳 扈啸 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2018年第3期515-523,共9页
为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵... 为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存、充分复用已取数据的方式来提高算法的执行效率.设计卷积矩阵规模变化、卷积核规模不变和卷积矩阵规模不变、卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核CPU和TI6678进行实验对比,实验结果显示,FT2000比多核CPU及TI6678具有更好的计算优势,相比多核CPU最高可加速11 974倍,相比TI6678可加速21倍. 展开更多
关键词 矩阵卷积 向量处理器 并行算法 性能优化 卷积神经网络
下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
2
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
下载PDF
并行计算机与并行算法述评 被引量:5
3
作者 赵晖 赵仕波 张志华 《成都理工大学学报(自然科学版)》 CAS CSCD 1996年第S1期117-123,共7页
并行计算是大规模科学工程计算和数据处理的一个重要工具和必然趋势,本文从并行计算机系统和并行算法两个方面论述了并行处理的基本原理和方法。
关键词 并行处理 向量机 并行处理机 并行算法
下载PDF
基于视频阵列处理器的3D-HEVC视差估计算法并行设计与实现 被引量:1
4
作者 蒋林 冯茹 《计算机应用与软件》 北大核心 2023年第7期260-265,281,共7页
三维高效视频编码(3D High Efficiency Video Coding,3D-HEVC)中视差估计算法存在处理数据量大、运算时间长和资源消耗大的问题,进一步提高算法执行效率对于3D-HEVC的推广应用具有十分重要的意义。在深入分析视差估计算法的并行性的基础... 三维高效视频编码(3D High Efficiency Video Coding,3D-HEVC)中视差估计算法存在处理数据量大、运算时间长和资源消耗大的问题,进一步提高算法执行效率对于3D-HEVC的推广应用具有十分重要的意义。在深入分析视差估计算法的并行性的基础上,基于项目组开发的视频阵列处理器(DPR-CODEC),提出一种新的并行实现方案。在可重构阵列结构中完成了视差估计算法的并行映射、功能仿真和FPGA测试,显著减少了视差估计算法的执行时间。实验结果表明,所提出的并行实现方案相比于串行单PE执行时间节省了59%,基于可编程可重构阵列的并行实现在具有较高的执行效率的同时也具有较好的灵活性。 展开更多
关键词 三维高效率视频编码 并行性 视差矢量 阵列处理器
下载PDF
现代超级计算机系统 被引量:3
5
作者 胡守仁 《计算机学报》 EI CSCD 北大核心 1991年第1期47-56,共10页
本文论述了现代超级计算机系统发展的基本情况,深入分析了现代超级计算机系统的分类、特点与发展趋势。最后展望了90年代的发展前景。
关键词 超级计算机 巨型计算机 计算机
下载PDF
A Quantitative Evaluation of Vector Transcendental Functions on ARMv8-Based Processors
6
作者 沈洁 龙标 黄春 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第3期686-701,共16页
Transcendental functions are important functions in various high performance computing applications.Because these functions are time-consuming and the vector units on modern processors become wider and more scalable,t... Transcendental functions are important functions in various high performance computing applications.Because these functions are time-consuming and the vector units on modern processors become wider and more scalable,there is an increasing demand for developing and using vector transcendental functions in such performance-hungry applications.However,the performance of vector transcendental functions as well as their accuracy remain largely unexplored.To address this issue,we perform a comprehensive evaluation of two Single Instruction Multiple Data(SIMD)intrinsics based vector math libraries on two ARMv8 compatible processors.We first design dedicated microbenchmarks that help us understand the performance behavior of vector transcendental functions.Then,we propose a piecewise,quantitative evaluation method with a set of meaningful metrics to quantify their performance and accuracy.By analyzing the experimental results,we find that vector transcendental functions achieve good performance speedups thanks to the vectorization and algorithm optimization.Moreover,vector math libraries can replace scalar math libraries in many cases because of improved performance and satisfactory accuracy.Despite this,the implementations of vector math libraries are still immature,which means further optimization is needed,and our evaluation reveals feasible optimization solutions for future vector math libraries. 展开更多
关键词 transcendental function vector math library piecewise quantitative evaluation microbenchmarking ARMv8-based processor
原文传递
使用融合乘加加速快速傅里叶变换计算的向量化方法 被引量:3
7
作者 刘仲 陈海燕 向宏卫 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第2期72-78,共7页
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作... 融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。 展开更多
关键词 快速傅里叶变换 融合乘加 向量化 向量处理器
下载PDF
支持原位计算的高效三角矩阵乘法向量化方法 被引量:3
8
作者 刘仲 田希 陈磊 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第6期7-11,47,共6页
向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,... 向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。 展开更多
关键词 三角矩阵乘法 原位计算 向量化 向量处理器
下载PDF
一种在线时间序列预测的核自适应滤波器向量处理器 被引量:2
9
作者 庞业勇 王少军 +1 位作者 彭宇 彭喜元 《电子与信息学报》 EI CSCD 北大核心 2016年第1期53-62,共10页
针对信息物理融合系统中的在线时间序列预测问题,该文选择计算复杂度低且具有自适应特点的核自适应滤波器(Kernel Adaptive Filter,KAF)方法与FPGA计算系统相结合,提出一种基于FPGA的KAF向量处理器解决思路。通过多路并行、多级流水线... 针对信息物理融合系统中的在线时间序列预测问题,该文选择计算复杂度低且具有自适应特点的核自适应滤波器(Kernel Adaptive Filter,KAF)方法与FPGA计算系统相结合,提出一种基于FPGA的KAF向量处理器解决思路。通过多路并行、多级流水线技术提高了处理器的计算速度,降低了功耗和计算延迟,并采用微码编程提高了设计的通用性和可扩展性。该文基于该向量处理器实现了经典的KAF方法,实验表明,在满足计算精度要求的前提下,该向量处理器与CPU相比,最高可获得22倍计算速度提升,功耗降为1/139,计算延迟降为1/26。 展开更多
关键词 核自适应滤波器 现场可编程逻辑门阵列 向量处理器 微码
下载PDF
一种适用于数字图像处理的DSP片上系统
10
作者 杜慧敏 张智泉 沈绪榜 《微电子学与计算机》 CSCD 北大核心 2004年第1期45-47,51,共4页
文章重点讨论一种专用视频处理的处理器的体系结构,根据该结构设计的DSP能够高效地完成图像处理。
关键词 数字图像 图像处理 处理器 DSP 系统芯片 寄存器
下载PDF
基于匹配场原理的矢量阵三维声源定位研究 被引量:1
11
作者 王学志 涂英 +2 位作者 吴克桐 吴金荣 蔡惠智 《兵工学报》 EI CAS CSCD 北大核心 2012年第8期927-933,共7页
将匹配场原理应用到矢量水平阵、矢量垂直阵上通过对声源穷举搜索实现三维定位,研究了声压、振速不同组合的定位性能,并对性能表现进行分析,最后给出了垂直阵、水平阵下性能相对好的组合方法。在垂直阵下,需要应用声压、余弦方向水平振... 将匹配场原理应用到矢量水平阵、矢量垂直阵上通过对声源穷举搜索实现三维定位,研究了声压、振速不同组合的定位性能,并对性能表现进行分析,最后给出了垂直阵、水平阵下性能相对好的组合方法。在垂直阵下,需要应用声压、余弦方向水平振速、正弦方向水平振速组合或者垂直振速、余弦方向水平振速、正弦方向水平振速组合;在水平阵下,需要应用垂直振速、余弦方向水平振速、正弦方向水平振速组合。 展开更多
关键词 声学 矢量阵 匹配场 Bartlett处理器 三维定位
下载PDF
面向LTE-A终端软基带的矢量处理器设计 被引量:1
12
作者 张建正 秦晓卫 周武旸 《无线通信技术》 2014年第3期15-20,共6页
面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构... 面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构的矢量处理器作为终端软基带解决方案。该矢量处理器采用变长的VLIW指令字,共有7条矢量数据通路,每条通路可执行16个16bit的定点运算;采用分组的系数存储器提高灵活性,受限访问的寄存器组降低电路面积;同时设计了SHUF和ISHUF指令专门用于快速傅里叶变换(FFT)和维特比(VITERBI)译码算法的矢量化实现。最后本文实现和分析了FFT和VITERBI译码算法。 展开更多
关键词 软基带 矢量处理器 超长指令字 单指令多数据
下载PDF
二维矩阵卷积在向量处理器中的设计与实现 被引量:1
13
作者 张军阳 郭阳 《国防科技大学学报》 EI CAS CSCD 北大核心 2018年第3期69-75,共7页
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数... 为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。 展开更多
关键词 卷积神经网络 向量处理器 多核实现 矩阵卷积
下载PDF
十亿晶体管处理器体系结构研究
14
作者 温璞 杨学军 《计算机工程与科学》 CSCD 2007年第7期80-84,共5页
半导体工艺技术的飞速发展促使单芯片内集成有更多的晶体管资源。如何利用丰富的片上资源,已成为处理器体系结构研究的一个重点。本文综述了目前关于十亿晶体管处理器结构的研究现状,认为在缓解当前处理器面临的存储墙问题、功耗问题、... 半导体工艺技术的飞速发展促使单芯片内集成有更多的晶体管资源。如何利用丰富的片上资源,已成为处理器体系结构研究的一个重点。本文综述了目前关于十亿晶体管处理器结构的研究现状,认为在缓解当前处理器面临的存储墙问题、功耗问题、线延迟问题以及充分利用片上资源等方面,PIM结构是一种有效的途径,而与向量结构相结合则更能体现PIM结构的高带宽、低延迟优势。 展开更多
关键词 十亿晶体管结构 存储墙 向量处理 processor-in-Memory
下载PDF
未来向量处理机的一个典型结构
15
作者 黄卫华 《绵阳师范学院学报》 2003年第5期31-34,共4页
简要探讨了计算机向量体系结构的历史以及相对于标量体系结构的优势。向量超级计算机由于造价的因素当前处于被淘汰的地位,但是在来来的计算机应用领域里,向量体系结构仍然是很值得关注的,特别是在以图形、图像和多媒体处理为主的下一... 简要探讨了计算机向量体系结构的历史以及相对于标量体系结构的优势。向量超级计算机由于造价的因素当前处于被淘汰的地位,但是在来来的计算机应用领域里,向量体系结构仍然是很值得关注的,特别是在以图形、图像和多媒体处理为主的下一代计算机系统中,有非常好的前景。 展开更多
关键词 向量超级计算机 超标量处理机 向量指令系统
下载PDF
基于矢量处理器的可编程并行MIMO检测器设计
16
作者 范阿冬 秦晓卫 戴旭初 《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第3期337-343,共7页
针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指... 针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指令并行性,设计高效的指令集和相应的功能单元,软硬件协同优化VLIW分布,在支持多种配置的基础上尽可能减小执行周期数,提高译码吞吐率,从而设计出高效的基于专用指令集矢量处理器的可编程并行MIMO检测器。 展开更多
关键词 多天线检测 单指令多数据 矢量处理器 超长指令字
下载PDF
一种基于Matrix的QR分解向量化方法
17
作者 鲁庆男 刘仲 《计算机工程与科学》 CSCD 北大核心 2016年第2期210-216,共7页
提出一种基于Matrix的Givens旋转的QR分解向量化方法。针对Matrix的体系结构特点,对向量数据访存和计算进行优化,使计算均衡分布到各个向量处理单元;设计双缓冲DMA的数据传输策略,使得内核的计算与DMA数据搬移的时间完全重迭,内核始终... 提出一种基于Matrix的Givens旋转的QR分解向量化方法。针对Matrix的体系结构特点,对向量数据访存和计算进行优化,使计算均衡分布到各个向量处理单元;设计双缓冲DMA的数据传输策略,使得内核的计算与DMA数据搬移的时间完全重迭,内核始终处于峰值计算,从而取得最佳的计算效率。实验结果表明,该方法能够取得较高的计算效率和性能加速比。 展开更多
关键词 QR分解 向量处理器 Givens旋转 软件流水
下载PDF
一种改进的相邻块视差矢量快速获取方法
18
作者 谢晓燕 周金娜 +2 位作者 朱筠 刘新闯 王安琪 《西安邮电大学学报》 2019年第6期57-63,共7页
针对三维高效视频编码中视差矢量精度低、获取过程所需编码时间长的问题,提出一种改进的相邻块视差矢量快速获取方法。该方法首先对空域候选块进行重新组合,得到最优空间候选块顺序;然后从时域和空域方向再分别进行视差矢量的搜索,通过... 针对三维高效视频编码中视差矢量精度低、获取过程所需编码时间长的问题,提出一种改进的相邻块视差矢量快速获取方法。该方法首先对空域候选块进行重新组合,得到最优空间候选块顺序;然后从时域和空域方向再分别进行视差矢量的搜索,通过均值计算获得最终的视差矢量;最后分析视差矢量空域和时域候选块的可并行性和数据相关性,设计并实现视差矢量基于阵列处理器的并行化映射。实验结果表明,改进方法的编码增益平均提升1.23%;视差矢量获取的编码时间缩减到了原来的1/8。 展开更多
关键词 三维高效视频编码 视差矢量 并行化 阵列处理器
下载PDF
电压矢量型脉宽调制的微处理器软件实现
19
作者 任万强 胡起宙 易焱华 《郑州大学学报(自然科学版)》 1999年第1期62-65,共4页
给出了基于矢量控制PWM的微处理器软件实现方法.使用该方法能够在已知逆变器希望输出三相电压的情况下,对速度要求较高的电力电子装置能确保其控制规律的正确实施.实验表明,该方法具有编程简单、运算速度快、开关器件动作次数少。
关键词 脉宽调制 微处理器 电压矢量型 电力电子装置
下载PDF
DSP空间矢量控制三电平逆变器的研究 被引量:27
20
作者 桂红云 姚文熙 吕征宇 《电力系统自动化》 EI CSCD 北大核心 2004年第11期62-65,74,共5页
介绍了三电平PWM逆变器的研究前景和三电平空间矢量控制的原理,提出了一种基于检测直流侧电容电压和中点电流方向的新型平衡中点电位的空间矢量调制方法,讨论了这种方法的平衡中点电位的原理、脉冲序列的安排和该方法中小脉冲的处理和... 介绍了三电平PWM逆变器的研究前景和三电平空间矢量控制的原理,提出了一种基于检测直流侧电容电压和中点电流方向的新型平衡中点电位的空间矢量调制方法,讨论了这种方法的平衡中点电位的原理、脉冲序列的安排和该方法中小脉冲的处理和死区处理等。给出了用DSPLF2407A实现这种矢量控制方法的流程图,讨论了DSP实现中的一些问题。最后建立了三电平逆变器实验模型,实验结果验证了中点电位平衡方法的有效性和用DSP实现SVPWM的方便性。 展开更多
关键词 三电平逆变器 空间矢量控制技术 数字信号处理器(DSP)
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部