期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
Architecture Design of a Variable Length Instruction Set VLIW DSP 被引量:11
1
作者 沈钲 何虎 +2 位作者 杨旭 贾迪 孙义和 《Tsinghua Science and Technology》 SCIE EI CAS 2009年第5期561-569,共9页
The cost of the central register file and the size of the program code limit the scalability of very long instruction word(VLIW) processors with increasing numbers of functional units.This paper presents the archite... The cost of the central register file and the size of the program code limit the scalability of very long instruction word(VLIW) processors with increasing numbers of functional units.This paper presents the architectural design of a six-way VLIW digital signal processor(DSP) with clustered register files.The architecture uses a variable length instruction set and supports dynamic instruction dispatching.The one-level memory system architecture of the processor includes 16-KB instruction and data caches and 16-KB instruction and data on-chip RAM.A compiler based on the Open64 was developed for the system.Evaluations show that the processor is suitable for high performance applications with a high code density and small program code size. 展开更多
关键词 digital signal processor(DSP) very long instruction wordvliw variable length instruction set clustered register file
原文传递
A TSE based design for MMSE and QRD of MIMO systems based on ASIP
2
作者 冯雪林 SHI Jinglin +3 位作者 CHEN Yang FU Yanlu ZHANG Qineng XIAO Feng 《High Technology Letters》 EI CAS 2023年第2期166-173,共8页
A Taylor series expansion(TSE) based design for minimum mean-square error(MMSE) and QR decomposition(QRD) of multi-input and multi-output(MIMO) systems is proposed based on application specific instruction set process... A Taylor series expansion(TSE) based design for minimum mean-square error(MMSE) and QR decomposition(QRD) of multi-input and multi-output(MIMO) systems is proposed based on application specific instruction set processor(ASIP), which uses TSE algorithm instead of resource-consuming reciprocal and reciprocal square root(RSR) operations.The aim is to give a high performance implementation for MMSE and QRD in one programmable platform simultaneously.Furthermore, instruction set architecture(ISA) and the allocation of data paths in single instruction multiple data-very long instruction word(SIMD-VLIW) architecture are provided, offering more data parallelism and instruction parallelism for different dimension matrices and operation types.Meanwhile, multiple level numerical precision can be achieved with flexible table size and expansion order in TSE ISA.The ASIP has been implemented to a 28 nm CMOS process and frequency reaches 800 MHz.Experimental results show that the proposed design provides perfect numerical precision within the fixed bit-width of the ASIP, higher matrix processing rate better than the requirements of 5G system and more rate-area efficiency comparable with ASIC implementations. 展开更多
关键词 multi-input and multi-output(MIMO) minimum mean-square error(MMSE) QR decomposition(QRD) Taylor series expansion(TSE) application specific instruction set processor(ASIP) instruction set architecture(ISA) single instruction multiple data(SIMD) very long instruction word(vliw)
下载PDF
一种基于寄存器压力的VLIWDSP分簇算法 被引量:9
3
作者 雷一鸣 洪一 +1 位作者 徐云 姜海涛 《计算机应用》 CSCD 北大核心 2010年第1期274-276,共3页
寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器... 寄存器是程序运行时最宝贵的资源之一,软件流水在对VLIW DSP指令调度的同时,会显著增加寄存器的压力,从而导致寄存器溢出,软件流水中止。在以往的研究中,软件流水之前的指令分簇会更多地考虑指令并行性,往往会把寄存器的压力交给寄存器分配阶段,当物理寄存器不够分配时会造成寄存器溢出。通过考察指令运行时的寄存器压力情况对指令进行分簇,这样可根据各个簇的寄存器压力的动态信息减少寄存器的溢出,提高指令运行效率。 展开更多
关键词 超长指令字 编译器 分簇 寄存器压力 软件流水 模变量扩展
下载PDF
超长指令字DSP标量访存单元的设计与优化 被引量:1
4
作者 郑康 李晨 +2 位作者 陈海燕 刘胜 方粮 《计算机工程与科学》 CSCD 北大核心 2023年第11期1929-1940,共12页
近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字... 近年来,随着集成电路技术的发展处理器与存储器之间的速度差异越来越大,存储器愈发成为制约计算系统性能的瓶颈。对于嵌入式、低功耗领域的DSP而言,其架构和应用场景与通用CPU不同,CPU的访存设计难以满足DSP的访存需求。针对超长指令字DSP在访存实时性、顺序与固定延迟、高效数据一致性方面的需求,设计了一种适用于DSP的标量访存单元,可配置的设计能够满足DSP的访存实时性;基于ID的顺序机制保证超长指令字架构对Load指令返回数据的顺序与固定延迟要求,存储开销为87.5 B;硬件查找“首1”加速了数据一致性所需的写回操作。当Cache中25%,50%和75%的行需要写回时,优化后的一致性写回开销为逐行扫描方法的26.4%,51.3%和76.2%,只与有效脏行数量成正比,与Cache容量无关。 展开更多
关键词 标量访存单元 DSP 超长指令字
下载PDF
Feedback Cache Mechanism for Dynamically Reconfigurable VLIW Processors 被引量:2
5
作者 Sensen Hu Weixing Ji Yizhuo Wang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2017年第3期303-316,共14页
Very Long Instruction Word (VLIW) architectures are commonly used in application-specific domains due to their parallelism and low-power characteristics. Recently, parameterization of such architectures allows for r... Very Long Instruction Word (VLIW) architectures are commonly used in application-specific domains due to their parallelism and low-power characteristics. Recently, parameterization of such architectures allows for runtime adaptation of the issue-width to match the inherent Instruction Level Parallelism (ILP) of an application. One implementation of such an approach is that the event of the issue-width switching dynamically triggers the reconfiguration of the data cache at runtime. In this paper, the relationship between cache resizing and issue-width is well investigated. We have observed that the requirement of the cache does not always correlate with the issue- width of the VLIW processor. To further coordinate the cache resizing with the changing issue-width, we present a novel feedback mechanism to "block" the low yields of cache resizing when the issue-width changes. In this manner, our feedback cache mechanism has a coordinated effort with the issue-width changes, which leads to a noticeable improvement of the cache performance. The experiments show that there is 10% energy savings as well as a 2.3% cache misses decline on average achieved, compared with the cache without the feedback mechanism. Therefore, the feedback mechanism is proven to have the capability to ensure more benefits are achieved from the dynamic and frequent reconfiguration. 展开更多
关键词 RECONFIGURATION Very Long Instruction word vliw issue-width CACHE FEEDBACK
原文传递
超长指令字技术 被引量:3
6
作者 顾慧 龚育昌 赵振西 《小型微型计算机系统》 CSCD 北大核心 2000年第2期174-177,共4页
指令系统是决定计算机体系结构特征的最核心因素.本文首先对近几年发展起来的超长指令字(VLIW)技术的基本原理进行了简短的介绍,进而结合Intel公司研制的IA-64超长指令字计算机的设计描述了超长指令字计算机的性能特... 指令系统是决定计算机体系结构特征的最核心因素.本文首先对近几年发展起来的超长指令字(VLIW)技术的基本原理进行了简短的介绍,进而结合Intel公司研制的IA-64超长指令字计算机的设计描述了超长指令字计算机的性能特点.最后简述了VLIW技术对计算机体系结构发展的影响及其最近发展概况. 展开更多
关键词 超长指令字 指令系统 体系结构 计算机 CPU
下载PDF
BWDSP100数字信号处理器的指令缓存器设计 被引量:4
7
作者 刘小明 朱艳 《中国集成电路》 2013年第4期48-50,56,共4页
本文介绍了一种应用于高性能数字信号处理器BWDSP100的指令缓存器。该指令缓存器支持超长指令字,共有三级缓冲,每级缓冲包含16个指令槽。该指令缓存器可高效完成指令执行行的提取、拼接及废弃等操作,可有效提高DSP的指令执行效率。
关键词 数字信号处理器 指令缓存器 超长指令字
下载PDF
基于BWDSP100的传播分簇算法研究与实现 被引量:4
8
作者 王昊 黄光红 王向前 《中国集成电路》 2014年第8期24-28,共5页
BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现。本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令。实验结果表明,... BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现。本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令。实验结果表明,该分簇方法在Open64编译器上的实现可以取得比传统方法更好的效果。 展开更多
关键词 数字信号处理器 超长指令字 指令级并行 分簇
下载PDF
一种新的基于VLIW的IDCT和运动补偿算法 被引量:2
9
作者 欧阳万里 肖创柏 刘广 《电子学报》 EI CAS CSCD 北大核心 2005年第11期2074-2079,共6页
本文使用矩阵形式在超长指令字(VLIW)的观点下将几种经典算法与已有的适合于VLIW的算法进行了比较.然后利用VLIW结构的特性,提出了一种快速IDCT算法.与现有算法相比,新算法进一步减少了所需的指令周期.并利用VLIW结构的寄存器特性,将视... 本文使用矩阵形式在超长指令字(VLIW)的观点下将几种经典算法与已有的适合于VLIW的算法进行了比较.然后利用VLIW结构的特性,提出了一种快速IDCT算法.与现有算法相比,新算法进一步减少了所需的指令周期.并利用VLIW结构的寄存器特性,将视频编解码过程中的运动补偿(预测)和IDCT(DCT)组合,使运动补偿所需时间降低为原来的约50%,这种思想能应用于MPEG1/2/4,H.263和H.264. 展开更多
关键词 超长指令字(vliw) 离散余弦变换(DCT) IDCT 快速算法 并行算法 运动补偿 视频压缩 DSP
下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
10
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(vliw) 处理器 可扩展
下载PDF
基于整数线性规划的VLIW DSP指令分簇调度 被引量:2
11
作者 周鹏 刘纯纲 郑启龙 《计算机应用研究》 CSCD 北大核心 2022年第10期3078-3083,共6页
在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用0-1决... 在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用0-1决策变量表示函数中指令的分簇、指令的局部调度以及簇间传输指令的全局调度,并将指令之间的依赖关系和对处理器资源的竞争关系构造为线性约束,最终得到一个以最小化函数的估计执行时间为目标的整数线性规划模型。实验结果表明,求解该模型得到的分簇调度方案对程序性能的优化显著强于现有算法,并且求解模型所耗费的时间是可接受的。 展开更多
关键词 数字信号处理器 超长指令字 指令分簇 指令调度 整数线性规划
下载PDF
高并行可配置的GF(p)域ECC处理器 被引量:3
12
作者 周发旺 史再峰 +1 位作者 郭炜 刘睿 《计算机工程》 CAS CSCD 2012年第16期142-144,148,共4页
提出一种基于传输触发架构的可配置高并行性素域椭圆曲线密码处理器。该处理器用于快速实现点乘运算,通过配置特殊的功能单元、总线以及寄存器文件堆,可针对不同安全需求进行扩展。超长指令字的指令格式使处理器具有高并行性。设计的特... 提出一种基于传输触发架构的可配置高并行性素域椭圆曲线密码处理器。该处理器用于快速实现点乘运算,通过配置特殊的功能单元、总线以及寄存器文件堆,可针对不同安全需求进行扩展。超长指令字的指令格式使处理器具有高并行性。设计的特殊功能单元MMAU加速了模乘运算的实现。仿真结果表明,在0.18 m CMOS工艺下,处理器所占面积为83 Kgates,能工作在最大120 MHz时钟频率下,可以在0.425 s和2 ms内完成一次192 bit的模乘和点乘运算。 展开更多
关键词 椭圆曲线密码 GF(p)域 传输触发架构 超长指令字 模乘 点乘
下载PDF
基于GCC的VLIW编译系统研究 被引量:1
13
作者 朱凯佳 尹宝林 《计算机工程与应用》 CSCD 北大核心 2001年第12期125-128,共4页
VLIW机器在单个机器周期中同时发射并执行多个的并行操作,从而获得较高的指令级并行度,这些操作之间的依赖分析和调度工作则被完全交给相应的编译器执行,因此VLIW的并行性能能否充分发挥取决于VLIW体系结构相关编译器的质量。GNU开发... VLIW机器在单个机器周期中同时发射并执行多个的并行操作,从而获得较高的指令级并行度,这些操作之间的依赖分析和调度工作则被完全交给相应的编译器执行,因此VLIW的并行性能能否充分发挥取决于VLIW体系结构相关编译器的质量。GNU开发的GCC是被最广泛使用的编译系统之一,它具有多语言、多平台支持的能力和开放的结构,能够运用各种成熟的常规编译优化技术生成高效的代码。文章分析了VLIW及GCC的结构特点,提出了一种基于GCC的VLIW编译系统设计方案,利用GCC进行RTL中间代码一级的体系结构无关优化和少量体系结构相关优化,在汇编代码一级针对VLIW结构进行体系结构相关的优化,从而充分利用GCC的成熟编译技术快速开发高效的VLIW多语言编译系统。 展开更多
关键词 vliw GCC 编译系统 优化
下载PDF
一种基于HXDSP的移位器查找表技术 被引量:1
14
作者 叶鸿 顾乃杰 +2 位作者 林传文 张孝慈 陈瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第10期2044-2050,共7页
高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提... 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。 展开更多
关键词 数字信号处理器(DSP) 移位器 查找表(LUT) 单指令多数据流(SIMD) 超长指令字(vliw)
下载PDF
Trace Software Pipelining
15
作者 王剑 AndreasKrall 《Journal of Computer Science & Technology》 SCIE EI CSCD 1995年第6期481-490,共10页
Global software pipelining is a complex but efficient compilation technique to exploit instruction-level parallelism for loops with branches. This paper presents a novel global software pipelining technique, called Th... Global software pipelining is a complex but efficient compilation technique to exploit instruction-level parallelism for loops with branches. This paper presents a novel global software pipelining technique, called Thace Software Pipelining,targeted to the instruction-level parallel processors such as Very Long Instruc-tion Word (VLIW) and superscalar machines. Thace software pipelining applies a global code scheduling technique to compact the original loop body. The re-sulting loop is called a trace software pipelined (TSP) code. The trace softwrae pipelined code can be directly executed with special architectural support or call be transformed into a globally software pipelined loop for the current VLIW and superscalar processors. Thus, exploiting parallelism across all iterations of a loop can be completed through compacting the original loop body with any global code scheduling technique. This makes our new technique very promis-ing in practical compilers. Finally, we also present the preliminary experimental results to support our new approach. 展开更多
关键词 Instruction-level parallelism fine-grain parallelism software pipelining loop scheduling Very Long Instruction word (vliw) superscalar processor
原文传递
Efficient matrix inversion based on VLIW architecture
16
作者 Li Zhang Fu Li Guangming Shi 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2014年第3期393-398,共6页
Matrix inversion is a critical part in communication, signal processing and electromagnetic system. A flexible and scalable very long instruction word (VLIW) processor with clustered architecture is proposed for mat... Matrix inversion is a critical part in communication, signal processing and electromagnetic system. A flexible and scalable very long instruction word (VLIW) processor with clustered architecture is proposed for matrix inversion. A global register file (RF) is used to connect al the clusters. Two nearby clusters share a local register file. The instruction sets are also designed for the VLIW processor. Experimental results show that the proposed VLIW architecture takes only 45 latency to invert a 4 × 4 matrix when running at 150 MHz. The proposed design is roughly five times faster than the DSP solution in processing speed. 展开更多
关键词 matrix inversion very long instruction word vliw latency register file (RF) cluster.
下载PDF
Leakage-Aware Modulo Scheduling for Embedded VLIW Processors
17
作者 关永 薛京灵 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第3期405-417,共13页
As semi-conductor technologies move down to the nanometer scale, leakage power has become a significant component of the total power consumption. In this paper, we present a leakage-aware modulo scheduling algorithm t... As semi-conductor technologies move down to the nanometer scale, leakage power has become a significant component of the total power consumption. In this paper, we present a leakage-aware modulo scheduling algorithm to achieve leakage energy saving for applications with loops on Very Long Instruction Word (VLIW) architectures. The proposed algorithm is designed to maximize the idleness of function units integrated with the dual-threshold domino logic, and reduce the number of transitions between the active and sleep modes. We have implemented our technique in the Trimaran compiler and conducted experiments using a set of embedded benchmarks from DSPstone and Mibench on the cycle-accurate VLIW simulator of Trimaran. The results show that our technique achieves significant leakage energy saving compared with a previously published DAG-based (Directed Acyclic Graph) leakage-aware scheduling algorithm. 展开更多
关键词 leakage power very long instruction word vliw software pipelining modulo scheduling
原文传递
密码协处理器指令级并行编译研究 被引量:2
18
作者 高飞 李红燕 张永福 《计算机应用研究》 CSCD 北大核心 2010年第5期1633-1637,共5页
立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为... 立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为密码协处理器的重要组成部分,重点研究了密码协处理器指令级并行编译技术,通过提高指令级并行度来提升密码协处理器的性能。 展开更多
关键词 密码协处理器 超长指令字 可重构计算 指令级并行 指令调度
下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
19
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令字 单指令流多数据流 数字信号处理器 循环展开 并行化 多簇
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
20
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部