期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
Energy-Optimal and Delay-Bounded Computation Offloading in Mobile Edge Computing with Heterogeneous Clouds 被引量:24
1
作者 Tianchu Zhao Sheng Zhou +3 位作者 Linqi Song Zhiyuan Jiang Xueying Guo Zhisheng Niu 《China Communications》 SCIE CSCD 2020年第5期191-210,共20页
By Mobile Edge Computing(MEC), computation-intensive tasks are offloaded from mobile devices to cloud servers, and thus the energy consumption of mobile devices can be notably reduced. In this paper, we study task off... By Mobile Edge Computing(MEC), computation-intensive tasks are offloaded from mobile devices to cloud servers, and thus the energy consumption of mobile devices can be notably reduced. In this paper, we study task offloading in multi-user MEC systems with heterogeneous clouds, including edge clouds and remote clouds. Tasks are forwarded from mobile devices to edge clouds via wireless channels, and they can be further forwarded to remote clouds via the Internet. Our objective is to minimize the total energy consumption of multiple mobile devices, subject to bounded-delay requirements of tasks. Based on dynamic programming, we propose an algorithm that minimizes the energy consumption, by jointly allocating bandwidth and computational resources to mobile devices. The algorithm is of pseudo-polynomial complexity. To further reduce the complexity, we propose an approximation algorithm with energy discretization, and its total energy consumption is proved to be within a bounded gap from the optimum. Simulation results show that, nearly 82.7% energy of mobile devices can be saved by task offloading compared with mobile device execution. 展开更多
关键词 mobile edge computing heterogeneous clouds energy saving delay bounds dynamic programming
下载PDF
异构众核系统及其编程模型与性能优化技术研究综述 被引量:13
2
作者 巨涛 朱正东 董小社 《电子学报》 EI CAS CSCD 北大核心 2015年第1期111-119,共9页
异构众核系统已成为当前高性能计算领域重要的发展趋势.针对异构众核系统,从架构、编程、所支持的应用三方面分析对比当前不同异构系统的特点,揭示了异构系统的发展趋势及异构系统相对于传统多核并行系统的优势;然后从编程模型和性能优... 异构众核系统已成为当前高性能计算领域重要的发展趋势.针对异构众核系统,从架构、编程、所支持的应用三方面分析对比当前不同异构系统的特点,揭示了异构系统的发展趋势及异构系统相对于传统多核并行系统的优势;然后从编程模型和性能优化方面分析了异构系统存在的问题和面临的挑战,以及国内外研究现状,结合当前研究存在的问题和难点,探讨了该领域进一步深入的研究方向;同时对两种典型的异构众核系统CPU+GPU和CPU+MIC进行不同应用类型的Benchmark测试,验证了两种异构系统不同的应用特点,为用户选择具体异构系统提供参考,在此基础上提出将两种众核处理器(GPU和MIC)结合在一个计算节点内构成新型混合异构系统;该新型混合异构系统可以利用两种众核处理器不同的处理优势,协同处理具有不同应用特点的复杂应用,同时分析了在该混合异构系统下必须要研究和解决的关键问题;最后对异构众核系统面临的挑战和进一步的研究方向进行了总结和展望. 展开更多
关键词 异构众核系统 高性能计算 异构计算 编程模型 性能优化
下载PDF
面向大数据处理的基于Spark的异质内存编程框架 被引量:9
3
作者 王晨曦 吕方 +4 位作者 崔慧敏 曹婷 John Zigman 庄良吉 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期246-264,共19页
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量... 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,"性能/价格"比仅用DRAM时提高了数倍. 展开更多
关键词 内存计算 SPARK 异质内存 非易失性内存 编程框架
下载PDF
E级计算的几个问题 被引量:9
4
作者 钱德沛 王锐 《中国科学:信息科学》 CSCD 北大核心 2020年第9期1303-1326,共24页
过去20余年,在国家科技计划持续支持下,中国的高性能计算事业得到长足发展,目前,正在向EFlops级(百亿亿次级,简称E级)高性能计算机的目标冲刺.本文简要回顾了我国高性能计算发展的历史,针对当前E级计算所遇到的困难,从体系结构、处理器... 过去20余年,在国家科技计划持续支持下,中国的高性能计算事业得到长足发展,目前,正在向EFlops级(百亿亿次级,简称E级)高性能计算机的目标冲刺.本文简要回顾了我国高性能计算发展的历史,针对当前E级计算所遇到的困难,从体系结构、处理器、互连网络、并行操作系统、并行编程、算法和可靠性等7个方面,探讨了需要重点研究和解决的技术问题. 展开更多
关键词 E级计算机 异构体系结构 众核处理器 互连网 并行编程
原文传递
异构计算并行编程模型综述 被引量:6
5
作者 邬江兴 祁晓峰 高彦钊 《上海航天(中英文)》 CSCD 2021年第4期1-11,共11页
异构计算架构是目前高性能计算研究的重要领域。在异构计算架构中,不同种类的计算器件协同工作需要解决如任务调度、数据通信、存储、同步优化等问题。这些问题会对异构计算架构系统的运行性能、功耗、可靠性等指标产生重要影响。为解... 异构计算架构是目前高性能计算研究的重要领域。在异构计算架构中,不同种类的计算器件协同工作需要解决如任务调度、数据通信、存储、同步优化等问题。这些问题会对异构计算架构系统的运行性能、功耗、可靠性等指标产生重要影响。为解决异构系统的应用开发与系统优化问题,近年出现许多面向异构计算架构的并行编程模型。本文介绍异构并行编程模型的研究进展,针对异构并行计算需要解决的关键问题进行讨论,最后对异构体系架构的发展方向做出总结。 展开更多
关键词 异构计算 并行编程 编程模型 中间表示 任务调度 负载均衡
下载PDF
High performance heterogeneous embedded computing: a review 被引量:5
6
作者 HE Yongfu WANG Shaojun PENG Yu 《Instrumentation》 2014年第2期1-12,共12页
As increasingly widening gap of computing demand and performance in embedded computing domain,heterogeneous computing architecture which delivers better performance as well as lower power in limited size is gaining mo... As increasingly widening gap of computing demand and performance in embedded computing domain,heterogeneous computing architecture which delivers better performance as well as lower power in limited size is gaining more and more attention. At first,the heterogeneous computing model is presented. And the different tightly coupled single chip heterogeneous architectures and their application domain are introduced. Then,task partitioning methods are described. Several programming model technology are analyzed and discussed. Finally,main challenges and future perspective of High Performance Embedded Computing(HPEC) are summarized. 展开更多
关键词 HPEC heterogeneous SoCs hardw are/softw are partition heterogeneous programming
下载PDF
一种面向异构计算的结构化并行编程框架 被引量:5
7
作者 李安民 计卫星 +4 位作者 廖心怡 高建花 谈兆年 王一拙 石峰 《计算机工程与科学》 CSCD 北大核心 2019年第3期424-432,共9页
随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行... 随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。 展开更多
关键词 异构计算 并行计算 编程框架 结构化编程
下载PDF
一种异构网络多协议并行数据分发方法 被引量:5
8
作者 刘建航 武万萍 +2 位作者 王树庆 李世宝 张玉成 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1715-1723,共9页
跨技术通信迅猛发展推动着单一网络向异构无线网络的转变,该转变极大地提高异构无线设备(如Wi-Fi和ZigBee)的高效共存和协作,但也给异构无线网络中的数据分发问题带来了挑战。由于异构网络节点通信范围差异和低占空比节点周期性睡眠的特... 跨技术通信迅猛发展推动着单一网络向异构无线网络的转变,该转变极大地提高异构无线设备(如Wi-Fi和ZigBee)的高效共存和协作,但也给异构无线网络中的数据分发问题带来了挑战。由于异构网络节点通信范围差异和低占空比节点周期性睡眠的特点,传统数据分发方法不能高效地利用信道资源而导致较低的分发效率。为了解决这些问题,该文提出一种适用于异构网络的并行数据分发方法。通过数据分发时延和能耗定义新的系统损失函数,并证明了损失函数的合理性,利用信标控制的延迟接收数据包的分发策略,从而实现对周期性睡眠的ZigBee网络进行高效数据分发。进一步地,该文根据动态规划的思想,推导出系统的整体能量损耗和时延的最优值。通过仿真实验证明,在考虑时延和能量损耗的前提下,该文的数据分发方法的性能优于传统的数据分发方法。 展开更多
关键词 异构网络 喷泉码 数据分发 动态规划
下载PDF
RenderKernel:High-level programming for real-time rendering systems
9
作者 Jinyuan Yang Soumyabrata Dev Abraham G.Campbell 《Visual Informatics》 EI 2024年第3期82-95,共14页
Real-time rendering applications leverage heterogeneous computing to optimize performance.However,software development across multiple devices presents challenges,including data layout inconsistencies,synchronization ... Real-time rendering applications leverage heterogeneous computing to optimize performance.However,software development across multiple devices presents challenges,including data layout inconsistencies,synchronization issues,resource management complexities,and architectural disparities.Additionally,the creation of such systems requires verbose and unsafe programming models.Recent developments in domain-specific and unified shading languages aim to mitigate these issues.Yet,current programming models primarily address data layout consistency,neglecting other persistent challenges.In this paper,we introduce RenderKernel,a programming model designed to simplify the development of real-time rendering systems.Recognizing the need for a high-level approach,RenderKernel addresses the specific challenges of real-time rendering,enabling development on heterogeneous systems as if they were homogeneous.This model allows for early detection and prevention of errors due to system heterogeneity at compile-time.Furthermore,RenderKernel enables the use of common programming patterns from homogeneous environments,freeing developers from the complexities of underlying heterogeneous systems.Developers can focus on coding unique application features,thereby enhancing productivity and reducing the cognitive load associated with real-time rendering system development. 展开更多
关键词 heterogeneous programming High-level programming Real-time rendering Rendering systems
原文传递
榫卯:一种可组合的定制化内存分配框架
10
作者 欧阳湘臻 朱怡安 史先琛 《软件学报》 EI CSCD 北大核心 2024年第4期2076-2098,共23页
动态内存分配器是现代应用程序重要组成部分,它负责管理空闲内存并处理用户内存请求.现代通用动态内存分配器能够提供较为平衡的性能与内存利用率,但考虑到不同应用场景的内存使用情况和优化目标不同,使用通用内存分配器并非最优解.针... 动态内存分配器是现代应用程序重要组成部分,它负责管理空闲内存并处理用户内存请求.现代通用动态内存分配器能够提供较为平衡的性能与内存利用率,但考虑到不同应用场景的内存使用情况和优化目标不同,使用通用内存分配器并非最优解.针对应用场景定制的专用内存分配器通常能够更好地满足系统需要,然而编写专用内存分配器较为费时,也容易出错.开发者通常使用内存分配框架搭建专用动态内存分配器.然而,现有的内存分配框架存在抽象能力较差,组合性与定制性不足的问题.为此,从函数式编程视角审视动态内存分配过程,基于函数可组合性提出了一种可组合的定制化动态内存分配器框架榫卯.榫卯框架将系统内存分配抽象为多个互不耦合的内存分配层级函数的组合,这些层级函数能够扩展出策略槽,以提供更高的定制性和组合性.榫卯框架基于标准C实现,依赖C预处理器的元编程特性实现层级函数组合的零性能开销.开发者能够通过组合与定制分配器的层级函数,快速构建出适合应用场景的内存分配器.为了证明榫卯框架的有效性,使用榫卯框架构建了3种不同的内存分配器实例:tlsfcc,hslab与wfslab,其中tlsfcc针对多核嵌入式应用场景,通过替换同步策略优化并发吞吐率;hslab是核心感知的slab式分配器,通过定制线程缓存优化在异构硬件的性能;wfslab是低延迟的无等待/无锁分配器.为了评估这3种内存分配器实例,通过运行基准测试对比现有内存分配器.实验分别在8核x86/64平台和8核异构aarch64嵌入式平台进行.实验表明tlsfcc与原始tlsf分配器相比,在上述两个平台上分别取得了平均1.76和1.59的加速比;对比hslab与类似架构的tcmalloc,它在两个平台的平均执行时间仅为tcmalloc的69.6%和85.0%;wfslab则取得了参与实验对比的内存分配器中最小的最差情况内存请求延迟,其中包 展开更多
关键词 内存分配 阻塞式同步 异构系统 操作系统 函数式编程
下载PDF
协作异构网络中的用户接入与功率控制联合优化 被引量:4
11
作者 赵景 韩圣千 《信号处理》 CSCD 北大核心 2015年第10期1279-1286,共8页
本文研究协作异构网络下行传输中的用户接入和功率控制问题。考虑多基站采用协作传输来回避小区间干扰,在满足用户数据率需求、单基站功率约束、以及给定每个用户最多接入基站个数的限制下,最小化所有基站的总发射功率。该问题属于包含... 本文研究协作异构网络下行传输中的用户接入和功率控制问题。考虑多基站采用协作传输来回避小区间干扰,在满足用户数据率需求、单基站功率约束、以及给定每个用户最多接入基站个数的限制下,最小化所有基站的总发射功率。该问题属于包含0/1变量和连续变量的组合优化问题,其全局最优解可以通过遍历搜索得到,但会导致很高的计算复杂度。为了降低复杂度,本文提出了一种基于几何规划的用户接入和功率控制联合优化方法。所提出的方法首先将问题中的0/1变量表示为连续函数,进而将得到的优化问题转化为几何规划问题并进行求解。仿真结果表明,相比于现有的用户接入最近基站方法、用户接入信号最强基站方法、以及偏移接收能量最大方法,所提出的方法能够有效地平衡网络中各小区负载,因而可以支持更高的用户数据率需求,在相同的用户数据率需求下能够大幅降低系统的总发射功率。 展开更多
关键词 异构网络 用户接入 功率控制 几何规划
下载PDF
异构网络中基于系统公平性和阻塞性对功率分配的一种动态规划算法 被引量:4
12
作者 樊超 孙长印 江帆 《激光与光电子学进展》 CSCD 北大核心 2021年第17期179-186,共8页
为解决双连接分流过程中资源利用率和由阻塞导致的资源浪费之间的矛盾,考虑总功率约束下毫米波链路高间歇性情形以及异构网络链路之间的公平性,以系统加权和速率最大化为优化目标,将非凸问题建模为有界离散时间的马尔可夫决策过程,提出... 为解决双连接分流过程中资源利用率和由阻塞导致的资源浪费之间的矛盾,考虑总功率约束下毫米波链路高间歇性情形以及异构网络链路之间的公平性,以系统加权和速率最大化为优化目标,将非凸问题建模为有界离散时间的马尔可夫决策过程,提出一种具有阻塞预测的动态规划算法来解决微波毫米波并行连接的功率分配问题。仿真结果表明,该算法通过对功率分配策略进行学习,可以显著提升系统性能。 展开更多
关键词 光通信 异构网络 功率分配 动态规划 系统公平性和链路阻塞
原文传递
面向混流装配线的无线射频识别网络规划 被引量:3
13
作者 唐琳 郑力 +1 位作者 曹晖 黄宁建 《计算机集成制造系统》 EI CSCD 北大核心 2014年第1期37-44,共8页
为了经济有效地应用无线射频识别技术,总结了混流装配线中的三种覆盖需求,在同时满足这些覆盖需求的约束下,将成本和覆盖绩效作为优化目标,建立了一个多目标的非线性整数规划模型以优化其网络规划。通过在一个汽车混合流装配线的实验研... 为了经济有效地应用无线射频识别技术,总结了混流装配线中的三种覆盖需求,在同时满足这些覆盖需求的约束下,将成本和覆盖绩效作为优化目标,建立了一个多目标的非线性整数规划模型以优化其网络规划。通过在一个汽车混合流装配线的实验研究,验证了该模型的有效性和可行性,并分析了RFID网络规划的因素。结果表明,不同目标的权重、离散单元格的覆盖准则、读写器覆盖半径与单元格的比例关系影响着规划的结果,且同时考虑多种覆盖需求能有效降低成本,提高覆盖绩效。 展开更多
关键词 无线射频识别 网络规划 覆盖需求 混流装配线 整数规划
下载PDF
基于异质患者行为特征的动态门诊预约策略 被引量:3
14
作者 张文思 李金林 +1 位作者 冉伦 褚宏睿 《系统工程》 CSSCI 北大核心 2017年第11期143-152,共10页
针对服务时间不同的异质患者,研究患者动态到达且存在取消预约和爽约行为的门诊预约策略。假设患者行为依赖于其类型,以最大化期望利润为目标,采用超订的方式应对患者取消预约和爽约行为,当患者发出预约请求时需要立刻决定是否接受该患... 针对服务时间不同的异质患者,研究患者动态到达且存在取消预约和爽约行为的门诊预约策略。假设患者行为依赖于其类型,以最大化期望利润为目标,采用超订的方式应对患者取消预约和爽约行为,当患者发出预约请求时需要立刻决定是否接受该患者。建立动态规划模型刻画患者的预约过程,利用逆推法进行求解以获得最优动态预约策略;通过近似方法降低模型的状态空间维度,并设计启发式算法求解状态向量不依赖于患者类型的动态预约策略。最后,基于蒙特卡洛模拟对启发式算法和动态规划结果进行比较,验证启发式算法的有效性,并分析参数变动对最终结果的影响。 展开更多
关键词 预约策略 医疗服务运营 异质患者 行为特征 动态规划
原文传递
基于多核与众核结构的并行编程模型研究 被引量:1
15
作者 王文义 王晗 《中原工学院学报》 CAS 2014年第3期52-56,共5页
针对并行计算机不同的数据存储方式,分析对比了基于多核和众核体系结构的共享存储并行编程模型和分布式存储并行编程模型,以CUDA和OpenCL为例介绍了基于异构计算机系统的并行编程模型,指出基于异构平台的混合编程在今后的大规模并行应... 针对并行计算机不同的数据存储方式,分析对比了基于多核和众核体系结构的共享存储并行编程模型和分布式存储并行编程模型,以CUDA和OpenCL为例介绍了基于异构计算机系统的并行编程模型,指出基于异构平台的混合编程在今后的大规模并行应用中必将成为主流。 展开更多
关键词 多核 众核 并行编程模型 混合编程 异构编程
下载PDF
Programming bare-metal accelerators with heterogeneous threading models:a case study of Matrix-3000 被引量:1
16
作者 Jianbin FANG Peng ZHANG +4 位作者 Chun HUANG Tao TANG Kai LU Ruibo WANG Zheng WANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2023年第4期509-520,共12页
As the hardware industry moves toward using specialized heterogeneous many-core processors to avoid the effects of the power wall,software developers are finding it hard to deal with the complexity of these systems.In... As the hardware industry moves toward using specialized heterogeneous many-core processors to avoid the effects of the power wall,software developers are finding it hard to deal with the complexity of these systems.In this paper,we share our experience of developing a programming model and its supporting compiler and libraries for Matrix-3000,which is designed for next-generation exascale supercomputers but has a complex memory hierarchy and processor organization.To assist its software development,we have developed a software stack from scratch that includes a low-level programming interface and a high-level OpenCL compiler.Our low-level programming model offers native programming support for using the bare-metal accelerators of Matrix-3000,while the high-level model allows programmers to use the OpenCL programming standard.We detail our design choices and highlight the lessons learned from developing system software to enable the programming of bare-metal accelerators.Our programming models have been deployed in the production environment of an exascale prototype system. 展开更多
关键词 heterogeneous computing Parallel programming models PROGRAMMABILITY COMPILERS Runtime systems
原文传递
一种基于CPU-GPU异构计算的混合编程模型 被引量:2
17
作者 王伟 郭绍忠 +1 位作者 王磊 冯颖 《信息工程大学学报》 2010年第6期674-678,共5页
在分析基于CPU-GPU异构计算模式程序开发面临的主要挑战和当前解决途径的基础上,设计了一种适用于GPU集群环境的、综合利用MPI、OpenMP、CUDA以及OpenGL API开发技术的混合编程模型,重点分析了混合编程模型的两种编程方式的实现原理,搭... 在分析基于CPU-GPU异构计算模式程序开发面临的主要挑战和当前解决途径的基础上,设计了一种适用于GPU集群环境的、综合利用MPI、OpenMP、CUDA以及OpenGL API开发技术的混合编程模型,重点分析了混合编程模型的两种编程方式的实现原理,搭建了相应的实验环境并进行了对比测试。实验结果表明,使用混合编程模型设计的程序具有良好的性能表现和扩展潜力。 展开更多
关键词 GPU 异构计算 混合编程
下载PDF
面向通用计算GPU集群的任务自动分配系统 被引量:2
18
作者 胡新明 盛冲冲 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 2014年第3期103-107,119,共6页
当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的... 当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。 展开更多
关键词 GPU集群 异构 编程模型 任务分配 可移植性 可扩展性
下载PDF
一种异构多核系统的编译方法及实现 被引量:1
19
作者 刘丹丹 杨灿美 +1 位作者 倪素萍 杜学亮 《微电子学与计算机》 CSCD 北大核心 2015年第11期1-5,共5页
面向专用领域计算加速的异构多核处理器近年来得到长足发展,异构多核处理器中集成了多个不同架构的处理器核.由于该类处理器的异构性,其编程方法较传统的同构多核处理器有很大不同,编程者需要就不同架构的处理器核分别编写程序代码并分... 面向专用领域计算加速的异构多核处理器近年来得到长足发展,异构多核处理器中集成了多个不同架构的处理器核.由于该类处理器的异构性,其编程方法较传统的同构多核处理器有很大不同,编程者需要就不同架构的处理器核分别编写程序代码并分别编译,增加了软件开发难度.在分析异构多核处理器体系结构、程序执行模型的基础上,提出了一种异构多核系统的编译方法,并给出系统实现,解决了分别编写程序代码和编译的困难,支持异构多核代码的统一编程,屏蔽底层硬件的异构性,为上层用户开发提供方便. 展开更多
关键词 异构多核 异构编程 编译方法
下载PDF
Efficient fine-grained shared buffer management for multiple OpenCL devices
20
作者 Chang-qing XUN Dong CHEN +1 位作者 Qiang LAN Chun-yuan ZHANG 《Journal of Zhejiang University-Science C(Computers and Electronics)》 SCIE EI 2013年第11期859-872,共14页
OpenCL programming provides full code portability between different hardware platforms,and can serve as a good programming candidate for heterogeneous systems,which typically consist of a host processor and several ac... OpenCL programming provides full code portability between different hardware platforms,and can serve as a good programming candidate for heterogeneous systems,which typically consist of a host processor and several accelerators.However,to make full use of the computing capacity of such a system,programmers are requested to manage diverse OpenCL-enabled devices explicitly,including distributing the workload between different devices and managing data transfer between multiple devices.All these tedious jobs pose a huge challenge for programmers.In this paper,a distributed shared OpenCL memory(DSOM) is presented,which relieves users of having to manage data transfer explicitly,by supporting shared buffers across devices.DSOM allocates shared buffers in the system memory and treats the on-device memory as a software managed virtual cache buffer.To support fine-grained shared buffer management,we designed a kernel parser in DSOM for buffer access range analysis.A basic modified,shared,invalid cache coherency is implemented for DSOM to maintain coherency for cache buffers.In addition,we propose a novel strategy to minimize communication cost between devices by launching each necessary data transfer as early as possible.This strategy enables overlap of data transfer with kernel execution.Our experimental results show that the applicability of our method for buffer access range analysis is good,and the efficiency of DSOM is high. 展开更多
关键词 Shared buffer OPENCL heterogeneous programming Fine grained
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部