期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
一种类数据流驱动的可重构众核流处理器设计 被引量:1
1
作者 许牧 安虹 +1 位作者 汤旭龙 周伟 《小型微型计算机系统》 CSCD 北大核心 2013年第6期1359-1364,共6页
传统的片上多核结构存在着计算资源粒度固定的缺点,无法满足应用在不同阶段对计算资源的差异化需求.针对上述问题,本文设计了运行时逻辑核可调整的可重构众核流处理器及流程序映射方案,以期满足应用各个阶段对计算资源的需求,且不造成... 传统的片上多核结构存在着计算资源粒度固定的缺点,无法满足应用在不同阶段对计算资源的差异化需求.针对上述问题,本文设计了运行时逻辑核可调整的可重构众核流处理器及流程序映射方案,以期满足应用各个阶段对计算资源的需求,且不造成资源浪费.通过在时钟精确软件模拟器上评估不同类型应用的性能表现,分析了处理器主要设计参数对性能的影响.实验结果表明,与具有同样计算资源的固定粒度流处理器相比,本文设计的可重构众核流处理器能够获得10%-30%的性能提升. 展开更多
关键词 可重构 众核处理器 类数据流驱动 流编程模型
下载PDF
PsmArena:Partitioned Shared Memory for NUMA-Awareness in Multithreaded Scientific Applications
2
作者 Zhang Yang Aiqing Zhang Zeyao Mo 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2021年第3期287-295,共9页
The Distributed Shared Memory(DSM)architecture is widely used in today’s computer design to mitigate the ever-widening processing-memory gap,and it inevitably exhibits Non-Uniform Memory Access(NUMA)to shared-memory ... The Distributed Shared Memory(DSM)architecture is widely used in today’s computer design to mitigate the ever-widening processing-memory gap,and it inevitably exhibits Non-Uniform Memory Access(NUMA)to shared-memory parallel applications.Failure to adapt to the NUMA effect can significantly downgrade application performance,especially on today’s manycore platforms with tens to hundreds of cores.However,traditional approaches such as first-touch and memory policy fall short in false page-sharing,fragmentation,or ease of use.In this paper,we propose a partitioned shared-memory approach that allows multithreaded applications to achieve full NUMA-awareness with only minor code changes and develop an accompanying NUMA-aware heap manager which eliminates false page-sharing and minimizes fragmentation.Experiments on a 256-core cc-NUMA computing node show that the proposed approach helps applications to adapt to NUMA with only minor code changes and improves the performance of typical multithreaded scientific applications by up to 4.3 folds with the increased use of cores. 展开更多
关键词 partitioned shared memory Non-Uniform Memory Access(NUMA) heap manager multithread manycore
原文传递
A case study of 3D RTM-TTI algorithm on multicore and many-core platforms
3
作者 张秀霞 Tan Guangming +1 位作者 Chen Mingyu Yao Erlin 《High Technology Letters》 EI CAS 2017年第2期185-190,共6页
3D reverse time migration in tiled transversly isotropic(3D RTM-TTI) is the most precise model for complex seismic imaging.However,vast computing time of 3D RTM-TTI prevents it from being widely used,which is addresse... 3D reverse time migration in tiled transversly isotropic(3D RTM-TTI) is the most precise model for complex seismic imaging.However,vast computing time of 3D RTM-TTI prevents it from being widely used,which is addressed by providing parallel solutions for 3D RTM-TTI on multicores and many-cores.After data parallelism and memory optimization,the hot spot function of 3D RTMTTI gains 35.99 X speedup on two Intel Xeon CPUs,89.75 X speedup on one Intel Xeon Phi,89.92 X speedup on one NVIDIA K20 GPU compared with serial CPU baseline.This study makes RTM-TTI practical in industry.Since the computation pattern in RTM is stencil,the approaches also benefit a wide range of stencil-based applications. 展开更多
关键词 3D RTM-TTI Intel Xeon Phi NVIDIA K20 GPU stencil computing manycore MULTICORE seismic imaging
下载PDF
基于消息传递模型的众核拓扑重配置容错方法
4
作者 吴子旭 付方发 +1 位作者 路禹 王进祥 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第11期2079-2090,共12页
系统故障恢复时间是众核系统容错的一项重要指标.为加快系统故障恢复,在基于消息传递模型的众核系统中提出一种快速的拓扑重配置容错方法.首先根据物理拓扑故障情况为每个核心定义映射区域,利用匈牙利算法快速构建初始解;然后通过限制... 系统故障恢复时间是众核系统容错的一项重要指标.为加快系统故障恢复,在基于消息传递模型的众核系统中提出一种快速的拓扑重配置容错方法.首先根据物理拓扑故障情况为每个核心定义映射区域,利用匈牙利算法快速构建初始解;然后通过限制交错映射的发生,采用禁忌搜索在初始解的基础上快速优化,获得最终重配置映射解;最后根据重配置映射解更新各运算节点上的节点映射关系表完成拓扑重配置,实现众核系统的核级容错.实验结果表明,该方法能够快速找到优化的拓扑重配置方案并成功地完成系统恢复,具有较低的容错时间开销. 展开更多
关键词 众核 容错 拓扑重配置 消息传递接口
下载PDF
阵列众核处理器上的高效归并排序算法 被引量:6
5
作者 石嵩 李宏亮 朱巍 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期362-373,共12页
排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算... 排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算法,通过利用DMA(direct memory access)多缓冲机制提高访存效率、深度平衡归并策略保持众多核心之间的负载均衡、SIMD(single instruction multiple data)归并方法提高归并计算效率以及片上交换归并策略提高片上数据重用率,大幅度提高了阵列众核处理器的排序性能.在异构融合阵列众核处理器DFMC(deeply-fused many-core)原型系统的实验结果表明,算法排序速度达647MKeys/s(million keys per second),其排序效率(排序速度/峰值性能)是NVIDIA GPU上最快的归并排序算法(GTX580平台)的3.3倍,是Intel Xeon Phi上最快的归并排序算法的2.7倍.最后,建立了阵列众核处理器上归并排序算法的性能分析模型,利用该模型分析了主要结构参数与算法性能的关系,对阵列众核处理器的研究有一定的指导意义. 展开更多
关键词 阵列众核 归并排序 排序网络 单指令多数据流 单程序多数据流 片上通信
下载PDF
面向E级超算系统的众核片上存储层次研究 被引量:1
6
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 众核处理器 存储层次 高性能计算 便签式存储器 末级缓存
下载PDF
一种面向蒙特卡洛程序的128核可扩展体系结构
7
作者 张立 黎铁军 张建民 《计算机工程与科学》 CSCD 北大核心 2023年第4期590-598,共9页
蒙特卡洛方法是研究粒子输运问题的重要方法,为蒙特卡洛方法设计定制加速体系结构成为粒子输运模拟的研究热点。分析了一种典型的蒙特卡洛方法代理程序Quicksilver的程序特征,并对存储层次和簇规模等影响可扩展性的结构参数进行了探索,... 蒙特卡洛方法是研究粒子输运问题的重要方法,为蒙特卡洛方法设计定制加速体系结构成为粒子输运模拟的研究热点。分析了一种典型的蒙特卡洛方法代理程序Quicksilver的程序特征,并对存储层次和簇规模等影响可扩展性的结构参数进行了探索,提出了一种面向蒙特卡洛程序的128核可扩展体系结构,在128核配置下实现了相比单核90倍的加速比和70.1%的扩展效率。 展开更多
关键词 蒙特卡洛方法 粒子输运 众核体系结构 可扩展性
下载PDF
快速多极子方法在申威众核处理器上的实现和优化 被引量:3
8
作者 王武 王舒扬 +1 位作者 姜金荣 孟虹松 《计算机工程与科学》 CSCD 北大核心 2019年第7期1161-1167,共7页
快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数... 快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250GFLOPS,即理论峰值性能的32.5%。 展开更多
关键词 快速多极子方法 异构众核处理器 N体问题 性能优化
下载PDF
面向智能计算的国产众核处理器架构研究 被引量:2
9
作者 李宏亮 郑方 +6 位作者 郝子宇 高红光 过锋 唐勇 吕晖 刘鑫 陈芳园 《中国科学:信息科学》 CSCD 北大核心 2019年第3期247-255,共9页
当前人工智能对算力的需求以超摩尔定律的速度增长,算法并行性高、数据重用性强,为处理器体系结构设计带来了更大的设计空间.众核处理器以其强大的片上计算能力、灵活的片上体系结构、高效的片上通信、柔性优化的存储等特性,为人工智能... 当前人工智能对算力的需求以超摩尔定律的速度增长,算法并行性高、数据重用性强,为处理器体系结构设计带来了更大的设计空间.众核处理器以其强大的片上计算能力、灵活的片上体系结构、高效的片上通信、柔性优化的存储等特性,为人工智能提供了更广阔的发展空间.本文在介绍众核处理器发展历史的基础上梳理了主要技术路线,重点论述人工智能应用对国产众核处理器体系结构和关键特性的需求. 展开更多
关键词 众核处理器 智能计算 体系结构 通信机制 存储体系
原文传递
众核处理器上的高性能网络入侵检测系统 被引量:1
10
作者 姜海洋 谢高岗 《高技术通讯》 CAS CSCD 北大核心 2014年第9期935-941,共7页
为提高网络入侵检测系统(NIDS)在互联网流量和网络攻击数量增长下的性能,进行了在多核处理器上利用并行结构提高NIDS处理能力的研究。首先实现了NIDS在TILERA-GX36众核处理器上的数据并行(RTC)和任务并行(SPL)这两种并行机构方法,实验... 为提高网络入侵检测系统(NIDS)在互联网流量和网络攻击数量增长下的性能,进行了在多核处理器上利用并行结构提高NIDS处理能力的研究。首先实现了NIDS在TILERA-GX36众核处理器上的数据并行(RTC)和任务并行(SPL)这两种并行机构方法,实验结果表明众核处理器上丰富的计算资源支持大量并行的NIDS实例,但同时也带来严重的资源竞争和冲突,系统并行化开销大大增加。为此,提出了一种基于共享的RTC方法,即SRTC方法,和已有方法相比,SRTC方法解决了RTC模型内存占用线性增长的问题,同时避免了SPL模型中的线程间通信开销。以开源NIDS软件Snort为基础,在TILERA-GX36众核处理器上对SRTC方法进行了实现和验证,实验结果证明采用SRTC的并行系统获得了类似线性的加速比,当加载超过7000条NIDS真实规则条目时,系统能够处理包长为1K字节的10Gbps的网络流量。 展开更多
关键词 众核处理器 网络入侵检测系统(NIDS) 并行结构
下载PDF
众核处理器研究技术综述和分析
11
作者 宋立国 胡承秀 王亮 《计算机科学》 CSCD 北大核心 2022年第S02期900-906,共7页
处理器正在由单核处理器向众核处理器发展,文章首先介绍了目前众核处理器的发展状况;然后重点从能效、性能和可靠性3个方面,分体系结构、片上存储和软件等不同层次综合分析国外众核处理器最新研究成果;结合后摩尔时代集成电路发展趋势,... 处理器正在由单核处理器向众核处理器发展,文章首先介绍了目前众核处理器的发展状况;然后重点从能效、性能和可靠性3个方面,分体系结构、片上存储和软件等不同层次综合分析国外众核处理器最新研究成果;结合后摩尔时代集成电路发展趋势,指出自适应技术和三维集成技术将是众核处理器发展的重点。文章最后认为,众核处理器未来发展将是不同拓扑结构、软件编程与硬件定义、经典设计与新器件、新工艺的创新融合。 展开更多
关键词 众核处理器 片上网络 存储结构 软件调度
下载PDF
面向磁流体动力学方程组的异构众核全隐求解器研究 被引量:1
12
作者 刘芳芳 陈道琨 +1 位作者 杨超 赵玉文 《数值计算与计算机应用》 2019年第1期34-50,共17页
磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但... 磁流体动力学方程组被广泛应用于受控核聚变装置托卡马克、天体物理、磁流体发电等问题的研究中,其往往具有非线性、多尺度、多物理等特征,大规模数值难度较大.目前国际上对不可压缩流体问题的大规模数值求解主要采用全隐或半隐方法,但都是在同构的超级计算机而不是目前主流的异构众核系统上进行计算.论文面向国产神威"太湖之光"超级计算机,开展面向磁流体动力学方程组的异构众核全隐求解器研究.针对Newton-Krylov这类全隐求解器,提出了面向申威26010众核处理器的异构众核并行算法,并对其核心函数开展了众核并行和优化.对核心函数稀疏矩阵向量乘采用Matrix Free的方法来提升性能,对稀疏三角求解采用基于几何信息的异构众核并行算法,针对其访存密集的特点提出了存储格式、数据读取与计算依赖分离、核间寄存器通信等多种优化方法,对非线性残差计算等stencil类计算及10多个向量函数进行了异构众核并行,该异构众核并行算法可被其它应用软件重用.论文采用二维磁场重联问题进行测试,实验结果表明16进程时加速比可达13.6倍,能够支持高分辨率长时间模拟,并准确捕捉磁场重联现象.另外整体并行扩展性已经达到53万核,强可扩展性并行效率达到了33.8%,弱可扩展性并行效率达到了80.7%. 展开更多
关键词 二维磁场重联 磁流体动力学 异构众核 全隐求解器 神威太湖之光 申威26010处理器
原文传递
众核结构上线程级推测执行能力评估器设计
13
作者 任永青 安虹 孙涛 《小型微型计算机系统》 CSCD 北大核心 2011年第5期1012-1016,共5页
由成百上千处理器核构成的众核处理器在提供大量计算能力的同时,也对如何高效利用资源提出挑战;具有不同并行度的应用对处理器核资源有不同的需求,不合理的分配会造成资源浪费(分配过多)或者限制并行性开发(分配过少).针对众核结构上串... 由成百上千处理器核构成的众核处理器在提供大量计算能力的同时,也对如何高效利用资源提出挑战;具有不同并行度的应用对处理器核资源有不同的需求,不合理的分配会造成资源浪费(分配过多)或者限制并行性开发(分配过少).针对众核结构上串行程序线程级推测执行面临的处理器核资源分配问题,提出一种基于硬件的推测执行能力监测和评估机制,设计三种线程级推测执行能力评估器;该评估器能够根据串行程序推测执行能力的动态变化,对应用分配的处理器核资源数量进行实时调整.实验结果表明,利用一个硬件开销极小的评估器对众核平台上串行程序的线程级推测执行进行资源分配指导,即可使性能和资源利用率达到有效的平衡. 展开更多
关键词 众核处理器 资源利用率 线程级推测 推测执行能力评估器
下载PDF
阵列众核结构上的一种多层分区Hash连接算法
14
作者 石嵩 宁永波 +1 位作者 李宏亮 郑方 《计算机科学》 CSCD 北大核心 2016年第3期18-22,共5页
连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义。阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算。基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Has... 连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义。阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算。基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Hash连接算法。该算法通过多层划分的策略大大降低了主存访问次数,通过分区重排方法有效消除了数据倾斜的影响,获得了很高的性能。在异构融合阵列众核处理器DFMC(Deeply-Fused Many Core)原型系统上的实验结果表明,DFMC上多层分区Hash连接算法的性能是CPU-GPU耦合结构上最快的连接算法的8.0倍,表明利用阵列众核处理器加速数据查询应用具有优势。 展开更多
关键词 阵列众核 Hash连接 数据倾斜 并行算法
下载PDF
众核阵列非满配时的并行编程方法
15
作者 王丽一 郑岩 +1 位作者 李岱峰 王俊 《计算机应用与软件》 CSCD 北大核心 2012年第10期123-127,共5页
研究众核阵列非满配时逻辑线程映射到物理线程的方法。在此基础上提出应用于非满配众核阵列的并行编程方法,此方法也可以与MPI并行编程相结合,应用于大规模并行集群系统。
关键词 众核 逻辑线程 物理线程 并行编程
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部