期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
嵌入式软硬件低功耗优化研究综述 被引量:16
1
作者 周宽久 迟宗正 西方 《计算机应用研究》 CSCD 北大核心 2010年第2期423-428,共6页
随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从... 随着时代的进步,制约着嵌入式设备广泛应用的障碍不再是处理器的速度、芯片的工艺,而是设备功耗。如何在相同能量的供给情况下工作时间最长、完成的任务最多,或者是运行相同的程序使用较少的能量成为嵌入式领域备受关注的研究方向。从硬件级、指令级和编译过程三个层次,由各层次相应公式的各个参数展开,对国内外的功耗优化研究现状进行综述和评价,并最终结合实验室SPARC仿真项目,提出基于SPARC仿真功耗优化研究的三个方向。 展开更多
关键词 功耗优化 硬件级 指令级 编译优化 静态功耗 漏电流 内联优化 高速暂存区
下载PDF
有效的低功耗编译优化方法:部件使用局部化 被引量:7
2
作者 易会战 杨学军 《软件学报》 EI CSCD 北大核心 2004年第10期1451-1460,共10页
使用软件技术优化系统能量正得到更多的关注.利用系统的动态电压缩放和功能部件关闭的功能为减少冗余能量消耗提供了优化的新途径,而编译指导的动态电压缩放(dynamic voltage scaling,简称DVS)和功能部件关闭(turning off unused system... 使用软件技术优化系统能量正得到更多的关注.利用系统的动态电压缩放和功能部件关闭的功能为减少冗余能量消耗提供了优化的新途径,而编译指导的动态电压缩放(dynamic voltage scaling,简称DVS)和功能部件关闭(turning off unused system units,简称TOSU)是软件优化方法之一.DVS或TOSU涉及到很多技术细节.抽象出可以用于编译研究的分析模型,根据对模型的研究,提出了部件使用局部化的概念.部件使用局部化在存在DVS和TOSU的技术支持下,是有效的低功耗编译优化方法. 展开更多
关键词 编译优化 低功耗 局部化 动态电压缩放 功能部件关闭
下载PDF
基于国产c86处理器的CP2K软件移植与优化 被引量:3
3
作者 范黎林 乔一航 +3 位作者 李俊飞 柴旭清 崔容培 韩秉豫 《计算机科学》 CSCD 北大核心 2023年第6期58-65,共8页
CP2K是目前运行最快的开源第一性原理材料计算和模拟软件,源码中调用协处理器的部分基于CUDA架构编写。因平台底层硬件架构和编译环境不同,原生的CP2K软件无法调用国产c86处理器平台上的DCU,因此不能实现跨平台应用。为解决该问题,提出... CP2K是目前运行最快的开源第一性原理材料计算和模拟软件,源码中调用协处理器的部分基于CUDA架构编写。因平台底层硬件架构和编译环境不同,原生的CP2K软件无法调用国产c86处理器平台上的DCU,因此不能实现跨平台应用。为解决该问题,提出了一种CP2K面向该平台的移植方案。该方案的核心思想为:对CP2K软件中主要基于CUDA接口实现的DBCSR库进行代码分析,拆解对应结构体和类的封装方式,并基于HIP的编程标准对其进行实现和封装。在国产c86处理器平台上编译安装HIP版的DBCSR库,链接CP2K软件,最终实现运行DCU版的CP2K软件。后续选取两个测试算例,基于编译级与运行级对其进行优化实验。实验发现,删除CP2K脚本链自动安装的FFTW库可提高计算结果精度。实验结果表明,所使用的优化方法可显著提升CP2K软件的计算效率和计算准确性,为实现开源软件面向国产平台的移植优化和国产化替代做出贡献。 展开更多
关键词 CP2K DBCSR 编译优化 MPI运行优化 HIP移植 JIT编译
下载PDF
基于编译优化的软件缺陷预测研究 被引量:8
4
作者 陈勇 徐超 +1 位作者 何炎祥 沈凡凡 《电子学报》 EI CAS CSCD 北大核心 2021年第2期216-224,共9页
软件缺陷预测有助于提高软件质量,合理配置软件测试资源,目前已经有不少基于软件度量指标的缺陷预测模型.然而,现有的软件度量指标主要集中在源代码的结构信息上,程序语义信息考虑较少.编译优化是对程序语义进行深入分析的结果,直观地... 软件缺陷预测有助于提高软件质量,合理配置软件测试资源,目前已经有不少基于软件度量指标的缺陷预测模型.然而,现有的软件度量指标主要集中在源代码的结构信息上,程序语义信息考虑较少.编译优化是对程序语义进行深入分析的结果,直观地认为它应该在一定程度上能够反映程序的语义信息,有助于软件缺陷预测.因此,为分析编译优化度量指标对软件缺陷预测的影响,本文首先基于当前编译器中广泛使用的优化选项,设计了9种编译优化度量指标.结合源代码结构层面的度量指标,构建了5种软件缺陷预测度量模型.利用weka中提供的13种常用的分类器,对比分析了添加不同优化度量指标的模型效果,对编译优化度量与软件缺陷预测之间的关系进行了评价,同时与DP-CNN(Defect Prediction via Convolutional Neural Network)模型进行了对比.实验结果表明:编译优化度量指标对软件缺陷预测的召回率有显著影响;在代码复杂度度量指标的基础上增加编译优化度量指标,可以提升所有软件缺陷预测模型的性能,平均提升幅度约为5%;基于代码大小的优化度量和基于性能的优化度量具有各自的特点,两者相结合可以在软件缺陷预测中获得更好的性能. 展开更多
关键词 编译优化 软件度量 软件缺陷预测
下载PDF
基于神经网络的循环分块大小预测 被引量:7
5
作者 池昊宇 陈长波 《计算机科学》 CSCD 北大核心 2020年第8期62-70,共9页
循环程序的优化一直是程序优化的重点,循环分块作为一种典型的循环程序优化技术已被广泛地研究和应用。分块大小的选择对循环程序的性能有着重要影响,分块大小的选择复杂多变且高度依赖程序和硬件。传统的静态分析和启发式经验搜索的人... 循环程序的优化一直是程序优化的重点,循环分块作为一种典型的循环程序优化技术已被广泛地研究和应用。分块大小的选择对循环程序的性能有着重要影响,分块大小的选择复杂多变且高度依赖程序和硬件。传统的静态分析和启发式经验搜索的人工和时间成本过高,缺少通用性和可移植性。为此,考虑使用有良好高维表示特性的神经网络方法来学习程序与硬件复杂交互过程中分块大小与程序性能的隐含关联。从问题规模、循环结构、循环内操作的局部性等方面抽取出一组新的29维特征,对问题规模为1024~2048的随机大小的6类内核程序(3维循环、2维数据)的数十万行示例进行实验。串行模型(TSS-T6)相比GCC-O2默认优化实现了6.64倍的平均加速比,相比穷尽搜索实现了98.5%的平均最大可用性能,相比Pluto默认分块优化实现了平均9.9%的性能提升。并行模型(TSSP-T6-Search)相比OpenMP默认优化实现了2.41倍的平均加速比,相比穷尽搜索实现了91.7%的平均最大可用性能,同时与Pluto默认分块并行优化相比得到了平均9%的性能提升。 展开更多
关键词 编译优化 自动调优 循环程序分块 人工神经网络 缓存优化
下载PDF
基于深度学习的循环自动调度研究
6
作者 胡煜霄 郑启龙 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1770-1777,共8页
循环代码的自动调度问题是编译优化领域中的热门问题,然而当前大部分此类研究都基于不同领域的领域特定语言或编程框架,缺乏对通用编程语言的支持.本文提出了一个面向通用编程语言的循环自动调度框架.该自动调度框架使用蒙特卡洛树搜索... 循环代码的自动调度问题是编译优化领域中的热门问题,然而当前大部分此类研究都基于不同领域的领域特定语言或编程框架,缺乏对通用编程语言的支持.本文提出了一个面向通用编程语言的循环自动调度框架.该自动调度框架使用蒙特卡洛树搜索算法对循环调度空间进行高效的搜索,在搜索样本评估阶段,本文利用深度学习技术为循环调度构建了基于Tree-LSTM的代价模型对搜索过程进行指导以加速搜索过程.经实验验证,本文提出的自动调度框架能够达到优于前沿的启发式循环优化编译器Polly的优化效果,同时本文构建的代价模型能够在10%以内的调度性能损失的前提下显著提升调度搜索过程的效率. 展开更多
关键词 自动调度 编译优化 蒙特卡洛树搜索 深度学习 长短期记忆网络
下载PDF
面向DCU非一致控制流的编译优化 被引量:2
7
作者 杨小艺 赵荣彩 +2 位作者 王洪生 韩林 徐坤坤 《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。 展开更多
关键词 DCU 单指令多线程 线程束分化 复杂控制流 编译优化
下载PDF
AutoConfig:面向深度学习编译优化的自动配置机制
8
作者 张洪滨 周旭林 +2 位作者 邢明杰 武延军 赵琛 《软件学报》 EI CSCD 北大核心 2024年第6期2668-2686,共19页
随着深度学习模型和硬件架构的快速发展,深度学习编译器已经被广泛应用.目前,深度学习模型的编译优化和调优的方法主要依赖基于高性能算子库的手动调优和基于搜索的自动调优策略.然而,面对多变的目标算子和多种硬件平台的适配需求,高性... 随着深度学习模型和硬件架构的快速发展,深度学习编译器已经被广泛应用.目前,深度学习模型的编译优化和调优的方法主要依赖基于高性能算子库的手动调优和基于搜索的自动调优策略.然而,面对多变的目标算子和多种硬件平台的适配需求,高性能算子库往往需要为各种架构进行多次重复实现.此外,现有的自动调优方案也面临着搜索开销大和缺乏可解释性的挑战.为了解决上述问题,提出AutoConfig,一种面向深度学习编译优化的自动配置机制.针对不同的深度学习计算负载和特定的硬件平台,AutoConfig可以构建具备可解释性的优化算法分析模型,采用静态信息提取和动态开销测量的方法进行综合分析,并基于分析结果利用可配置的代码生成技术自动完成算法选择和调优.AutoConfig创新性地将优化分析模型与可配置的代码生成策略相结合,不仅能保证性能加速效果,还能减少重复开发的开销,同时可以简化调优过程.在此基础上,进一步将AutoConfig集成到深度学习编译器Buddy Compiler中,对矩阵乘法和卷积的多种优化算法建立分析模型,并将自动配置的代码生成策略应用在多种SIMD硬件平台上进行评估.实验结果可验证AutoConfig在代码生成策略中完成参数配置和算法选择的有效性.与经过手动或自动优化的代码相比,由AutoConfig生成的代码可达到相似的执行性能,并且无需承担手动调优的重复实现开销和自动调优的搜索开销. 展开更多
关键词 深度学习编译器 编译优化 代码生成 自动配置机制
下载PDF
频繁序列挖掘帮助的LLVM编译时能耗优化方法
9
作者 阳松苡 倪友聪 +2 位作者 杜欣 贾建华 肖如良 《小型微型计算机系统》 CSCD 北大核心 2023年第12期2832-2843,共12页
面向最小化能耗的LLVM编译时优化研究工作还较为稀缺,而现有的设计空间搜索优化方法仍缺乏有效捕获和使用选项交互信息的手段,还存在解质量不高和收敛速度不快的问题.针对上述问题,文中提出一种频繁序列挖掘帮助的LLVM编译时能耗优化方... 面向最小化能耗的LLVM编译时优化研究工作还较为稀缺,而现有的设计空间搜索优化方法仍缺乏有效捕获和使用选项交互信息的手段,还存在解质量不高和收敛速度不快的问题.针对上述问题,文中提出一种频繁序列挖掘帮助的LLVM编译时能耗优化方法.该方法运用带能耗改进标注的频繁选项序列FOSE表征反复出现在优势解中的选项子序列及其功效,进一步借助不同序列长度的FOSE捕获任意多个选项之间交互并利用前缀树和后缀树进行表示;在此基础上,针对迭代寻优过程设计了一种FOSE挖掘算法,从而形成可为新解生成提供有用、全面、可高效使用和时效好的选项交互信息挖掘方法;最后基于FOSE的前后缀树定义了新解生成机制并给出了新解生成的规则和过程,进而提出一种迭代优化算法FHIA-FSM.与当前最快可获取较好质量解的Georgiou算法以及公认在足够长演化时间后可得到高质量解的GA算法在4个不同领域的7个典型案例下的实验对比显示:在基准停机时间下本文FHIA-FSM较Georgiou和GA的解质量平均相对改进最好可达15.52%和101.81%;在达到基准解质量的收敛速度上,FHIA-FSM较Georgiou和GA平均相对改进最好可达18.00%和25.25%. 展开更多
关键词 LLVM 编译优化 迭代编译 能耗优化 频繁序列挖掘
下载PDF
一种避免PLC无效指令执行的编译优化方法 被引量:5
10
作者 章航平 严义 《机电工程》 CAS 2009年第4期31-35,共5页
可编程控制器(PLC)在运行时有相当一部分处理器资源被对输出无任何影响的无效指令占用,这些无效指令的执行严重影响了系统的响应速度。针对这一问题,提出了PLC程序控制流程的理论优化方法,该方法避免了系统在运行时执行无效指令,并在此... 可编程控制器(PLC)在运行时有相当一部分处理器资源被对输出无任何影响的无效指令占用,这些无效指令的执行严重影响了系统的响应速度。针对这一问题,提出了PLC程序控制流程的理论优化方法,该方法避免了系统在运行时执行无效指令,并在此基础上进一步探讨了在有限代码空间限制条件下的实际工程优化方案。实验结果表明,这种编译优化方法可以有效缩短易产生无效指令PLC程序的扫描周期,提高系统的响应速度。 展开更多
关键词 可编程控制器 编译器 编译优化 梯形图 指令表
下载PDF
基于频繁模式挖掘的GCC编译时能耗演化优化算法 被引量:4
11
作者 倪友聪 吴瑞 +3 位作者 杜欣 叶鹏 李汪彪 肖如良 《软件学报》 EI CSCD 北大核心 2019年第5期1269-1287,共19页
演化算法通过搜寻GCC编译器最优编译选项集,对可执行代码的能耗进行改进,以达到编译时优化嵌入式软件能耗的目的.但这类算法未考虑多个编译选项之间可能存在相互影响,导致了其解质量不高且收敛速度慢的问题.针对这一不足,设计了一种基... 演化算法通过搜寻GCC编译器最优编译选项集,对可执行代码的能耗进行改进,以达到编译时优化嵌入式软件能耗的目的.但这类算法未考虑多个编译选项之间可能存在相互影响,导致了其解质量不高且收敛速度慢的问题.针对这一不足,设计了一种基于频繁模式挖掘的遗传算法GA-FP.该算法在演化过程中利用频繁模式挖掘得到出现频度高且能耗改进大的一组编译选项,并以此作为启发式信息,设计了"增添"和"删减"两种变异算子,帮助提高解质量和加快收敛速度.与Tree-EDA算法在5个不同领域的8个典型案例下进行对比实验,结果表明,该GA-FP算法不仅能够更有效地降低软件能耗(平均降低2.5%,最高降低21.1%),而且还能在获得不劣于Tree-EDA能耗优化效果的前提下更快地收敛(平均加快34.5%,最高加快83.3%),最优解中编译选项的相关性分析进一步验证了所设计变异算子的有效性. 展开更多
关键词 软件能耗 编译优化 嵌入式软件 演化算法
下载PDF
基于图神经网络的BWDSP指令选择方法优化研究 被引量:2
12
作者 侯璇 凤维杰 郑启龙 《小型微型计算机系统》 CSCD 北大核心 2021年第12期2672-2679,共8页
现阶段,现代处理器选用不同的策略处理编译完成的代码指令,而选用的指令影响后端代码的性能优化.指令选择所采用的策略依然与传统的基于宏扩展和基于图覆盖的方法相似,且不支持部分复杂的指令,无法充分利用复杂指令带来的高效率,因此也... 现阶段,现代处理器选用不同的策略处理编译完成的代码指令,而选用的指令影响后端代码的性能优化.指令选择所采用的策略依然与传统的基于宏扩展和基于图覆盖的方法相似,且不支持部分复杂的指令,无法充分利用复杂指令带来的高效率,因此也亟需一种新型且有效、可拓展、可移植的指令选择策略.近些年图神经网络GNN在处理非欧氏数据上取得了很多的突破.本文将GNN应用于基于BWDSP平台编译器后端的指令选择的处理过程中,基于图节点的分类、边属性的预测和图分类提出一种低耦合性的指令选择模型,通过实验验证并对比这种方法与传统方法的有效性.并且证明了一个高效的指令选择策略能够充分利用BWDSP的资源,降低程序执行的代价.在提高BWDSP指令选择能力的同时,也期望能将该方法应用到不同平台的指令集,或者编译优化的其它子领域和不同的编译器中. 展开更多
关键词 指令选择 图神经网络 BWDSP平台 编译优化
下载PDF
基于汇编代码的指令调度器的设计与实现 被引量:2
13
作者 田祖伟 李勇帆 《计算机科学》 CSCD 北大核心 2009年第3期45-47,89,共4页
随着嵌入式处理器在各个领域的广泛应用,嵌入式软件的复杂度越来越高。充分发掘嵌入式处理器的性能,需要高级编译优化技术的支持。指令调度是编译器发掘程序指令级并行性的关键技术之一。设计并实现了一个基于汇编代码的指令调度器。实... 随着嵌入式处理器在各个领域的广泛应用,嵌入式软件的复杂度越来越高。充分发掘嵌入式处理器的性能,需要高级编译优化技术的支持。指令调度是编译器发掘程序指令级并行性的关键技术之一。设计并实现了一个基于汇编代码的指令调度器。实验结果表明,在TECC嵌入式编译器中集成指令调度器后可显著提高程序的性能。 展开更多
关键词 指令调度 编译优化 汇编代码 表调度
下载PDF
BWDSP104X多条件谓词编译优化 被引量:1
14
作者 韩东科 郑启龙 张仁高 《计算机系统应用》 2018年第1期201-205,共5页
目前BWDSP104X编译器对程序中条件分支的处理是采用传统的谓词优化方法,及每条指令和一个谓词相关,只有当谓词为真时指令才被执行,但它存在的局限性是当涉及到多条件谓词时,并不能消除跳转分支,且多条件谓词之间可能存在控制依赖关系,... 目前BWDSP104X编译器对程序中条件分支的处理是采用传统的谓词优化方法,及每条指令和一个谓词相关,只有当谓词为真时指令才被执行,但它存在的局限性是当涉及到多条件谓词时,并不能消除跳转分支,且多条件谓词之间可能存在控制依赖关系,不利于指令并行和指令流水.因此在现有编译器框架下,针对传统谓词优化方法的不足之处,本文提出一种基于BWDSP104X体系结构下多条件谓词编译优化方法.实验结果表明,与传统谓词优化方法相比,该优化算法在BWDSP104X编译器上能够取得平均5.62的加速比. 展开更多
关键词 条件分支 谓词优化 多条件谓词 编译优化
下载PDF
基于反馈的JCVM指令预调度方案 被引量:1
15
作者 曹晓 李莹 《计算机工程》 CAS CSCD 2014年第1期78-82,共5页
卡内应用执行效率较低是制约Java Card发展的瓶颈。为此,研究Java Card虚拟机(JCVM)解释器的运行原理,针对其执行架构提出一种基于反馈的JCVM指令预调度方案。通过收集反馈应用的运行指令流统计信息,设计解释器加权控制流图(WCFG),利用... 卡内应用执行效率较低是制约Java Card发展的瓶颈。为此,研究Java Card虚拟机(JCVM)解释器的运行原理,针对其执行架构提出一种基于反馈的JCVM指令预调度方案。通过收集反馈应用的运行指令流统计信息,设计解释器加权控制流图(WCFG),利用基于WCFG的代码编排技术实现解释器的指令预调度。在目标体系架构中,将热点指令处理函数的布局按照反馈应用的统计信息进行重新编排。实验结果表明,该方案可使JCVM解释器的应用执行效率提高15.29%,并且不依赖额外系统资源,对基于解释器架构且资源受限的嵌入式设备性能优化具有指导意义。 展开更多
关键词 JAVA Card虚拟机 嵌入式系统 解释器优化 指令调度 控制流图 编译优化
下载PDF
基于多任务深度学习的HXDSP多簇软流水研究
16
作者 刘纯纲 周鹏 郑启龙 《计算机系统应用》 2022年第12期112-119,共8页
针对目前编译优化领域的深度学习模型普遍采用单任务学习而难以利用多个任务间的相关性提升模型整体编译加速效果的问题,提出了一种基于多任务深度学习的编译优化方法.该方法使用图神经网络(GNN)从C程序的抽象语法树(ASTs)和数据控制流... 针对目前编译优化领域的深度学习模型普遍采用单任务学习而难以利用多个任务间的相关性提升模型整体编译加速效果的问题,提出了一种基于多任务深度学习的编译优化方法.该方法使用图神经网络(GNN)从C程序的抽象语法树(ASTs)和数据控制流图(CDFGs)中学习得到程序特征,然后对程序特征同步预测HXDSP软件流水启动间隔和循环展开因子.在DSPStone数据集上的实验结果表明,该多任务方法取得了相对于单任务方法12%的性能提升. 展开更多
关键词 软件流水 循环展开 多任务学习 图神经网络 编译优化
下载PDF
编译器中激进蝴蝶优化方法的研究与实现
17
作者 朱广林 吕方 +2 位作者 赖庆宽 陈华英 何先波 《计算机工程与科学》 CSCD 北大核心 2021年第6期962-968,共7页
编译优化技术的目的是挖掘程序中的优化空间,提高程序编译或运行效率,无效代码删除优化是被广泛使用的编译优化技术之一,它旨在删除程序中不可达的代码,以提升程序的执行效率。许多应用程序的执行路径往往与运行时的输入参数值相关,并... 编译优化技术的目的是挖掘程序中的优化空间,提高程序编译或运行效率,无效代码删除优化是被广泛使用的编译优化技术之一,它旨在删除程序中不可达的代码,以提升程序的执行效率。许多应用程序的执行路径往往与运行时的输入参数值相关,并且在一些分支路径上与运行时参数值相结合,可能存在无效代码,通过现有的无效代码删除优化,很难做出优化处理。为此,提出一种依赖数据流分析的激进蝴蝶优化方法,利用SSA中间表示,根据动态运行时的参数可能值,自动为程序生成代码形状类似蝴蝶(butterfly)的分支代码,使编译器在程序编译阶段为相关优化提供可行的优化依据。最后通过实验验证了该方法的有效性和可行性。 展开更多
关键词 无效代码删除 编译优化 数据流分析 激进蝴蝶优化 SSA中间表示
下载PDF
CEVA XC323的体系架构与DSP优化技术
18
作者 章灵芝 相里瑜 +1 位作者 张春玲 王进帅 《单片机与嵌入式系统应用》 2020年第11期40-42,46,共4页
本文结合CEVA-XC323实际工程中的开发经验给出了内存合理分配的一些建议,避免因为内存分配的不合理导致程序执行效率低下,最后列出了该DSP体系全部编译优化选项,可以根据实际情况进行合理选择。
关键词 CEVA-XC323 算法优化 内存合理分配 编译优化
下载PDF
BWDSP10x上地址和数据谓词执行的编译优化
19
作者 樊永朝 郑启龙 +2 位作者 耿锐 王向前 王昊 《计算机系统应用》 2016年第12期92-99,共8页
传统的谓词优化技术是在冯·诺伊曼体系结构计算机上实施的,仅对数据流进行优化,并没有考虑哈佛体系结构下指令和数据分开的情况.BWDSP10x是指令和数据分开的哈佛体系结构,它支持超长指令字,不仅提供了对数据谓词执行的支持也提供... 传统的谓词优化技术是在冯·诺伊曼体系结构计算机上实施的,仅对数据流进行优化,并没有考虑哈佛体系结构下指令和数据分开的情况.BWDSP10x是指令和数据分开的哈佛体系结构,它支持超长指令字,不仅提供了对数据谓词执行的支持也提供了对地址谓词执行的支持.特此提出了一种在区域上对两种谓词模式优化支持的方法,在进行两种比较之前,通过判断比较操作的两个操作数类型来分别实施两种模式的谓词优化,使得对地址的比较不用传输到通用寄存器中.实验结果表明该优化方法能显著地节省CPU的时间和带宽,大大减少了分支指令,使程序性能提高了28.4%. 展开更多
关键词 地址谓词执行 数据谓词执行 区域 编译优化
下载PDF
二维SIMD结构的低功耗调度
20
作者 张倩 《计算机工程》 CAS CSCD 北大核心 2009年第10期273-275,共3页
针对二维SIMD结构,提出一种可以动态关闭空转部件且结合编译器、指令集和体系结构支持的低功耗调度算法,其中包括编译器优化二维SIMD指令,功耗指令发出部件开关信号,系统接收信号并执行。采用对不同功能单元分别调度的方式和部件局部化... 针对二维SIMD结构,提出一种可以动态关闭空转部件且结合编译器、指令集和体系结构支持的低功耗调度算法,其中包括编译器优化二维SIMD指令,功耗指令发出部件开关信号,系统接收信号并执行。采用对不同功能单元分别调度的方式和部件局部化的方法。在模拟器上的实验结果表明该方法可以节省整个系统约15%的能量消耗。 展开更多
关键词 二维SIMD结构 低功耗 编译优化
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部