期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
面向高性能计算的众核处理器结构级高能效技术 被引量:17
1
作者 郑方 张昆 +7 位作者 邬贵明 高红光 唐勇 吕晖 过锋 李宏亮 谢向辉 陈左宁 《计算机学报》 EI CSCD 北大核心 2014年第10期2176-2186,共11页
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该... 随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 展开更多
关键词 处理器 结构优化 能效 高性能计算
下载PDF
一种支持细粒度并行的SDN虚拟化编程框架 被引量:15
2
作者 宋平 刘轶 +3 位作者 刘驰 张晶晶 钱德沛 郝沁汾 《软件学报》 EI CSCD 北大核心 2014年第10期2220-2234,共15页
软件定义网络(software defined network,简称SDN)通过集中式的控制器提高了网络的可编程性,成为近年来网络领域非常热门的话题.以Openflow网络为代表的软件定义网络将逻辑控制与数据转发相隔离,为网络虚拟化技术提供了良好的平台.集中... 软件定义网络(software defined network,简称SDN)通过集中式的控制器提高了网络的可编程性,成为近年来网络领域非常热门的话题.以Openflow网络为代表的软件定义网络将逻辑控制与数据转发相隔离,为网络虚拟化技术提供了良好的平台.集中式的抽象与控制使得SDN虚拟化框架的处理效率成为主要瓶颈.现有的SDN虚拟化框架由于缺乏对细粒度并行的支持,为编程人员充分利用多核/众核资源、控制更大规模的网络带来了极大的挑战.为了提高SDN虚拟化框架的处理效率,提出一种新的SDN虚拟化编程框架,通过新颖的API和运行时,在框架内部支持细粒度的并行处理.该框架通过对网络中流和网络资源进行抽象,使开发人员可以直接通过划分流空间来定义不同的虚拟网络,利用无锁的编程方式对共享的网络资源和流进行操作.实验结果表明,该框架在逻辑控制的执行效率方面具有良好的可扩展性,可以创建出更大规模的虚拟网络,并对其进行更为复杂的控制. 展开更多
关键词 SDN虚拟化 事件编程 细粒度并行 处理器
下载PDF
众核处理器系统核资源动态分组的自适应调度算法 被引量:14
3
作者 曹仰杰 钱德沛 +1 位作者 伍卫国 董小社 《软件学报》 EI CSCD 北大核心 2012年第2期240-252,共13页
针对众核处理器系统的核资源优化使用问题,提出了一种支持核资源动态分组的自适应调度算法CASM(core-partitioned adaptive scheduling for many-core systems).该算法通过对任务簇的拆分与合并,动态构建可弹性分区的核逻辑组,实现核资... 针对众核处理器系统的核资源优化使用问题,提出了一种支持核资源动态分组的自适应调度算法CASM(core-partitioned adaptive scheduling for many-core systems).该算法通过对任务簇的拆分与合并,动态构建可弹性分区的核逻辑组,实现核资源的隔离优化访问.为了平衡核资源利用率及任务调度效率,CASM算法针对任务簇间和簇内的不同特点,分别采用公平性较好的均衡调度算法和资源利用率较高的自适应调度算法.在线竞争理论分析表明,CASM算法的任务执行时间在线竞争比为常数2,其性能可扩展性较好.实验结果表明,与WS(work-stealing),AGDEQ(adaptive greedy dynamic equi-partitioning)和EQUI?EQUI算法相比,CASM算法使任务集运行时间分别减少了近46%,32%和15%.在相同能耗情况下,CASM算法大幅度地提升了系统吞吐量. 展开更多
关键词 处理器 分组调度 自适应调度 竞争分析 高效能计算
下载PDF
一种面向高性能计算的自主众核处理器结构 被引量:12
4
作者 郑方 许勇 +2 位作者 李宏亮 谢向辉 陈左宁 《中国科学:信息科学》 CSCD 北大核心 2015年第4期523-534,共12页
随着半导体技术进步,众核处理器已广泛应用于高性能计算领域.近年来,在国家"863"计划、"核高基"重大专项等项目的支持下,我国高性能众核CPU的研发水平也取得了长足进步.本文介绍一种面向高性能计算的国产片上异构... 随着半导体技术进步,众核处理器已广泛应用于高性能计算领域.近年来,在国家"863"计划、"核高基"重大专项等项目的支持下,我国高性能众核CPU的研发水平也取得了长足进步.本文介绍一种面向高性能计算的国产片上异构众核处理器结构,通过统一指令系统、统一执行模型和支持一致性的主存共享,实现异构核心的深度融合.本文主要介绍了该处理器面向"存储墙"、"功耗墙"和"可靠性墙"的优化技术体系.该处理器已完成集成了256个运算核心和4个管理核心的原型芯片设计,峰值性能超过1 TFlops. 展开更多
关键词 处理器 异构芯片 访存性能 能效 可靠性
原文传递
E级计算的几个问题 被引量:9
5
作者 钱德沛 王锐 《中国科学:信息科学》 CSCD 北大核心 2020年第9期1303-1326,共24页
过去20余年,在国家科技计划持续支持下,中国的高性能计算事业得到长足发展,目前,正在向EFlops级(百亿亿次级,简称E级)高性能计算机的目标冲刺.本文简要回顾了我国高性能计算发展的历史,针对当前E级计算所遇到的困难,从体系结构、处理器... 过去20余年,在国家科技计划持续支持下,中国的高性能计算事业得到长足发展,目前,正在向EFlops级(百亿亿次级,简称E级)高性能计算机的目标冲刺.本文简要回顾了我国高性能计算发展的历史,针对当前E级计算所遇到的困难,从体系结构、处理器、互连网络、并行操作系统、并行编程、算法和可靠性等7个方面,探讨了需要重点研究和解决的技术问题. 展开更多
关键词 E级计算机 异构体系结构 处理器 互连网 并行编程
原文传递
BFS算法与众核处理器的适应性研究 被引量:7
6
作者 叶楠 郝子宇 +1 位作者 郑方 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1187-1197,共11页
以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search,BFS)算法为代表的图计算的... 以图计算为代表的数据密集型应用获得越来越广泛的关注,而传统的高性能计算机处理这类应用的效率较低.面向未来高性能计算机体系结构要有效支持数据密集型计算,深入研究以广度优先搜索(breadth-first search,BFS)算法为代表的图计算的典型特征,设计实现轻量级启发式切换BFS算法,该算法通过基本搜索方式的自动切换,避免冗余内存访问,提高搜索效率;针对BFS算法的离散随机数据访问特征以及众核处理器执行机制,建立面向BFS算法的众核处理器体系结构分析模型;全面、深入研究了BFS算法在典型众核处理器上的运行特征和性能变化趋势.测试结果表明:Cache命中率、内存带宽、流水线利用效率等相关参数均处于较低水平,无法完全满足BFS算法的需求,因此需要能够支持大量离散随机访问和简单执行机制的新型众核处理器体系结构. 展开更多
关键词 广度优先搜索算法 处理器 体系结构 分析模型 协同研究
下载PDF
神威超级计算机运行时故障定位方法
7
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 处理器
下载PDF
面向SW26010Pro处理器的全局符号重定位优化
8
作者 钱宏 王飞 +3 位作者 刘沙 郑天宇 宋佳伟 安虹 《计算机系统应用》 2024年第2期62-71,共10页
申威异构众核处理器运算核心访问主存的延迟很大,程序中应尽量避免运算核心代码访问主存的操作.全局偏移表存放程序中全局变量和函数的地址,不适合保存在珍稀的运算核心局部存储空间中,并且其访问模式通常比较离散,因而也不适合对其做Ca... 申威异构众核处理器运算核心访问主存的延迟很大,程序中应尽量避免运算核心代码访问主存的操作.全局偏移表存放程序中全局变量和函数的地址,不适合保存在珍稀的运算核心局部存储空间中,并且其访问模式通常比较离散,因而也不适合对其做Cache预取,访问全局偏移表引入的访问主存操作对程序性能影响较大.本文针对异构众核程序静态链接与动态链接的使用场景,分析链接器relaxation优化的使用限制,通过“gp基地址+扩展偏移”的方法实现避免访问主存操作的全局符号重定位优化.实验结果表明,该重定位优化方法能够以增加少量代码为代价,在运算核心代码调用函数与访问全局变量时有效避免访问全局偏移表引入的访问主存的操作,提高众核程序的运行性能. 展开更多
关键词 处理器 全局偏移表 重定位 链接器优化 性能
下载PDF
国产神威环境下Athread代码生成工具的设计与开发
9
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 处理器 神威·太湖之光 高性能计算
下载PDF
同构多核/众核处理器任务分配自适应模拟退火算法 被引量:6
10
作者 闫乔 覃志东 +1 位作者 王绍宇 闫红曼 《计算机科学》 CSCD 北大核心 2014年第6期18-21,53,共5页
随着多核/众核处理器核心数快速增加,任务分配解空间急剧增大,降低近似解的相对偏差越来越难。提出一种自适应模拟退火算法,建立了模拟退火算法中参数与优化环境任务数和核心数的关系。核心数的增加不但可以有效降低近似解的相对偏差,... 随着多核/众核处理器核心数快速增加,任务分配解空间急剧增大,降低近似解的相对偏差越来越难。提出一种自适应模拟退火算法,建立了模拟退火算法中参数与优化环境任务数和核心数的关系。核心数的增加不但可以有效降低近似解的相对偏差,而且使任务分配算法具有较高的环境自适应能力。与较近研究成果相比较,在16核心时,自适应模拟退火算法迭代次数增加41%,相对偏差降低86%。 展开更多
关键词 处理器 模拟退火算法 任务分配
下载PDF
面向众核处理器的阴阳K-means算法优化
11
作者 周天阳 王庆林 +4 位作者 李荣春 梅松竹 尹尚飞 郝若晨 刘杰 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算... 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 展开更多
关键词 K-MEANS 非一致内存访问 向量化 处理器 性能优化
下载PDF
面向神威众核超算系统的并行计算模型研究 被引量:2
12
作者 高剑刚 刘鑫 +4 位作者 李芳 刘勇 彭达佳 陈鑫 陈德训 《计算机学报》 EI CAS CSCD 北大核心 2023年第7期1339-1349,共11页
基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之... 基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之光”和神威E级原型系统的众核体系结构特点,提出P-PALN(Parallel-Parallel Access via LDM&NOC)并行计算模型,对于计算节点间的并行,该模型沿用BSP/LogP模型描述;对于计算节点内的众核并行,该模型提供私有存储访问和片上阵列通信的众核并行架构的有效描述PALN,能够协助用户进行众核并行算法设计,并在申威众核处理器硬件设计中指导参数的优化.实验结果表明,该模型可有效指导硬件设计和用户众核编程,从而提高系统和应用的性能. 展开更多
关键词 处理器 并行计算模型 P-PALN PALN 片上通信
下载PDF
众核处理器和众核集群的并行模拟 被引量:4
13
作者 吕慧伟 程元 +3 位作者 白露 陈明宇 范东睿 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2013年第5期1110-1117,共8页
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行... 模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 展开更多
关键词 并行模拟 处理器 集群 模拟器 MPI Pthreads混合编程
下载PDF
面向E级超算系统的众核片上存储层次研究 被引量:1
14
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 处理器 存储层次 高性能计算 便签式存储器 末级缓存
下载PDF
一种针对片上众核结构共享末级缓存的改进的LFU替换算法 被引量:5
15
作者 张轮凯 宋风龙 王达 《计算机应用与软件》 CSCD 北大核心 2013年第1期1-6,10,共7页
为了得到更高的吞吐率和性能功耗比,众核处理器摒弃了复杂的乱序处理器核,而在芯片内集成了大量的轻量级顺序处理器核。为了更好地支持核间数据共享,并减少访问片外存储器带来的开销,众核处理器往往采用共享的末级缓存LLC(Last LevelCac... 为了得到更高的吞吐率和性能功耗比,众核处理器摒弃了复杂的乱序处理器核,而在芯片内集成了大量的轻量级顺序处理器核。为了更好地支持核间数据共享,并减少访问片外存储器带来的开销,众核处理器往往采用共享的末级缓存LLC(Last LevelCache)。因为需要对为数众多相对独立的访问请求作出响应,因此相对于传统多核处理器的末级片内缓存,众核处理器的末级片内缓存更容易产生抖动现象。传统的最久未使用LRU(Least Recent Used)高速缓存替换策略在这种情况下往往无能为力,而几种最新提出的高速缓存替换策略也见效甚微。基于传统的最不经常使用LFU(Least Frequent Used)替换算法,提出一种改进的高速缓存替换算法。相对于LFU替换算法,该算法获取信息的粒度更粗,并且可以掌握更加全局的信息,而这些优势使得该算法更适合作为众核处理器末级片内缓存的替换算法。实验结果表明,在一个64核的众核处理器上,该替换算法可以有效地缓解末级片内缓存的抖动现象,同时该算法实现需要的硬件开销很小。 展开更多
关键词 处理器 末级缓存 替换算法
下载PDF
多核处理器结构与核间通信的CMC总线设计 被引量:3
16
作者 黄志钢 盛肖炜 《沈阳理工大学学报》 CAS 2012年第6期70-75,91,共7页
CMC(Core Memory Core)总线是为多核处理器或众核处理器的内部通信设计的一种高效解决方案。目前多核处理器以其性能优势取代了单核处理器,多核处理器的体系结构仍有很多的关键技术亟待解决,包括核间通信问题。讨论了目前多核处理器中... CMC(Core Memory Core)总线是为多核处理器或众核处理器的内部通信设计的一种高效解决方案。目前多核处理器以其性能优势取代了单核处理器,多核处理器的体系结构仍有很多的关键技术亟待解决,包括核间通信问题。讨论了目前多核处理器中使用的核间通讯技术,分析了优缺点,在此基础上提出了CMC总线。CMC总线的设计目标为只需一根握手信号线,简单的硬件逻辑,并为软件提供必要的控制接口。最后利用Modelsim SE仿真软件对CMC总线的读写进行仿真,验证了该总线作为一种高效的多核处理器核间通信方案的可行性。 展开更多
关键词 处理器 处理器 间通信 片上通信 CMC总线
下载PDF
针对SW26010众核处理器的单精度矩阵乘算法
17
作者 武铮 许乐 +2 位作者 安虹 金旭 文可 《小型微型计算机系统》 CSCD 北大核心 2023年第4期673-681,共9页
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW... 矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%. 展开更多
关键词 处理器 矩阵乘 计算机系统结构 高性能计算 并行算法
下载PDF
众核网络处理器下IPSec VPN系统设计与实现 被引量:4
18
作者 王建 陈亮 胡康 《西安工程大学学报》 CAS 2016年第2期230-235,共6页
针对网络带宽的不断增加及数据包在网络传输过程中的安全问题,借助众核网络处理器作为硬件平台,设计一种基于IPSec VPN技术的加解密系统,介绍了数据包的获取和负载均衡、数据包的封装格式及加解密方式的设计过程.同时实现了基于Tilera... 针对网络带宽的不断增加及数据包在网络传输过程中的安全问题,借助众核网络处理器作为硬件平台,设计一种基于IPSec VPN技术的加解密系统,介绍了数据包的获取和负载均衡、数据包的封装格式及加解密方式的设计过程.同时实现了基于Tilera众核网络处理器的IPSec VPN系统,满足对数据包的并行处理.实验结果表明,对于不同大小负载的数据包,系统均满足10Gbps的加解密处理能力. 展开更多
关键词 处理器 IPSEC VPN 网络安全 并行计算
下载PDF
众核处理器访存链路接口的FPGA验证 被引量:3
19
作者 周宏伟 徐实 +4 位作者 王忠奕 杨乾明 冯权友 邓让钰 窦强 《国防科技大学学报》 EI CAS CSCD 北大核心 2018年第3期176-182,共7页
面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User ... 面向众核处理器提出一种访存链路接口的现场可编程门阵列(Field-Programmable Gate Array,FPGA)验证平台,用于对处理器访存链路关键部件进行功能及可靠性测试。提出片上读写激励自动产生与检查机制、以太网接口硬件用户数据报协议(User Datagram Protocol,UDP)协议栈和FPGA芯片间多通道并行链路三项关键技术并进行设计实现。实验结果表明提出的各项关键技术功能正确,不仅丰富了功能验证中随机激励产生及结果验证的手段,而且实现了对链路数据检错和多lane间延迟偏斜纠正逻辑的可靠性测试与评估。经过该平台验证的访存链路接口在实际芯片中通过了功能正确性测试,证明了验证的有效性。 展开更多
关键词 处理器 访存 链路 现场可编程门阵列 验证
下载PDF
申威众核处理器的并行NSGA-Ⅱ算法 被引量:3
20
作者 沈焕学 郑凯 +4 位作者 刘垚 王肃 刘艳 赵瑞祥 周谦豪 《计算机工程与应用》 CSCD 北大核心 2018年第17期35-40,共6页
非支配排序遗传算法(NSGA-Ⅱ)在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算"神威·太湖之光"... 非支配排序遗传算法(NSGA-Ⅱ)在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算"神威·太湖之光"的申威众核处理器平台设计了并行NSGA-Ⅱ算法(PNSGA-Ⅱ),实现了算法基于主核的一级并行和基于主/从核的二级并行。在典型测试函数集上的实验表明,在不影响解的质量前提下,PNSGA-Ⅱ算法不仅大大加快了执行速度,同时算法的收敛速度也更快。 展开更多
关键词 非支配排序遗传算法 多目标优化 并行遗传算法 处理器 神威·太湖之光
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部