期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
多核处理器的结构设计研究 被引量:24
1
作者 何军 王飙 《计算机工程》 CAS CSCD 北大核心 2007年第16期208-210,共3页
围绕如何进行多核处理器的结构设计,提高处理器性能这一问题,结合传统多处理机设计原理对多核处理器结构设计进行了研究,并对当前主要商业多核处理器进行了研究,揭示了其发展趋势,探索了未来多核处理器设计的发展方向。
关键词 多核处理器 ILP TLP 处理器结构
下载PDF
龙芯3号互联系统的设计与实现 被引量:22
2
作者 王焕东 高翔 +1 位作者 陈云霁 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2008年第12期2001-2010,共10页
龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙... 龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙芯3号的互联结构中还设置了软件路由配置机制,可以在板级直接构筑中等规模的CC-NUMA系统和更大规模的NCC-NUMA系统,提供高效的通信机制.介绍了基于龙芯3号的多处理器系统互联架构.采用了双层可伸缩互联结构:片内由二维Mesh连接多个结点,结点内由交叉开关连接多个处理器核和二级缓存模块.片间无需额外硬件支持即可通过支持缓存一致性的HyperTransport接口实现16核的多处理器系统.利用层次化目录技术,龙芯3号还可以支持更大规模的多处理器系统.龙芯3号的互联架构为搭建简洁、高效、灵活、高度可扩展的共享存储多处理器系统提供了有力支持. 展开更多
关键词 龙芯3号 多核 多片 体系结构 互联 处理器
下载PDF
多核处理器——技术、趋势和挑战 被引量:20
3
作者 彭晓明 郭浩然 庞建民 《计算机科学》 CSCD 北大核心 2012年第S3期320-326,共7页
多核处理器已经成为当前微处理器技术发展的重要方向。介绍了多核处理器的起源和发展现状,分析了多核处理器技术的发展趋势。重点讨论了多核处理器技术涉及的片上网络、存储结构设计、编程接口以及资源管理等关键技术;在此基础上,进一... 多核处理器已经成为当前微处理器技术发展的重要方向。介绍了多核处理器的起源和发展现状,分析了多核处理器技术的发展趋势。重点讨论了多核处理器技术涉及的片上网络、存储结构设计、编程接口以及资源管理等关键技术;在此基础上,进一步探讨了多核处理器的发展所面临的主要挑战。 展开更多
关键词 多核处理器 体系结构 片上网络 存储结构
下载PDF
多核结构片上网络性能-能耗分析及优化方法 被引量:11
4
作者 张帅 宋风龙 +2 位作者 王栋 刘志勇 范东睿 《计算机学报》 EI CSCD 北大核心 2013年第5期988-1003,共16页
文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性... 文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性;第三,文中提出了一种基于该性能-能耗模型的性能-能耗优化方法,通过采集程序的通信模型、访存消息数量等数据选择适当的频率和网络节点数来获得片上网络能耗最低值或处理器性能最大值.最后,文中采用8个PARSEC并行程序验证前述模型的准确性并评价性能-能耗优化方法,结果显示文中性能-能耗模型相比传统模型更加精确吻合实验测量结果,性能-能耗优化方法也有效适用于不同种类的并行程序. 展开更多
关键词 多核 片上网络 高能效 能耗优化
下载PDF
高性能DSP的发展现状与未来趋势 被引量:11
5
作者 绳伟光 蒋剑飞 何卫锋 《中国集成电路》 2011年第4期20-25,共6页
分析了当前主流DSP厂商和科研机构的高性能DSP产品的现状及发展趋势。将高性能DSP产品按照体系结构的不同归纳为片上多核、阵列结构、流体系结构等几类,对各类DSP的结构特点与适用领域进行了分析。基于上述分析对未来高性能DSP产品的发... 分析了当前主流DSP厂商和科研机构的高性能DSP产品的现状及发展趋势。将高性能DSP产品按照体系结构的不同归纳为片上多核、阵列结构、流体系结构等几类,对各类DSP的结构特点与适用领域进行了分析。基于上述分析对未来高性能DSP产品的发展趋势进行了研讨,以供相关产品设计与应用开发人员参考。 展开更多
关键词 DSP 高性能 多核 阵列结构 流体系结构
下载PDF
面向大数据的内存数据管理研究现状与展望 被引量:11
6
作者 嵇智源 潘巍 《计算机工程与设计》 CSCD 北大核心 2014年第10期3499-3506,共8页
对面向大数据的内存数据管理技术的相关研究进行综述。梳理大数据环境下数据管理技术发展的脉络和格局的变化;分析新环境下的内存数据管理技术面临的发展机遇与研究挑战;介绍相关的前沿研究,其中包括分布式编程模型、混合存储体系结构... 对面向大数据的内存数据管理技术的相关研究进行综述。梳理大数据环境下数据管理技术发展的脉络和格局的变化;分析新环境下的内存数据管理技术面临的发展机遇与研究挑战;介绍相关的前沿研究,其中包括分布式编程模型、混合存储体系结构、内存数据管理等;给出技术和管理上的发展展望。 展开更多
关键词 大数据 内存计算 存储级内存 多核 混合存储体系
下载PDF
并行机器学习算法基础体系前沿进展综述 被引量:10
7
作者 刘斌 何进荣 +1 位作者 耿耀君 王最 《计算机工程与应用》 CSCD 北大核心 2017年第11期31-38,89,共9页
大数据环境下,机器学习算法受到前所未有的重视。总结和分析了传统机器学习算法在海量数据场景下出现的若干问题,基于当代并行机分类回顾了国内外并行机器学习算法的研究现状,并归纳总结了并行机器学习算法在各种基础体系下存在的问题... 大数据环境下,机器学习算法受到前所未有的重视。总结和分析了传统机器学习算法在海量数据场景下出现的若干问题,基于当代并行机分类回顾了国内外并行机器学习算法的研究现状,并归纳总结了并行机器学习算法在各种基础体系下存在的问题。针对大数据环境下并行机器学习算法进行了简要的总结,并对其发展趋势作了展望。 展开更多
关键词 并行计算 机器学习算法 多核 集群 混合体系
下载PDF
多核操作系统发展综述 被引量:10
8
作者 李彦冬 雷航 《计算机应用研究》 CSCD 北大核心 2011年第9期3215-3219,共5页
对多核操作系统的发展状况进行了综述,指出了多核操作系统的发展滞后于多核技术发展的现状,介绍了多核操作系统的起源和国内外研究状况,分析了多核操作系统研究中面临的一些主要问题及已有的研究成果。最后,对多核操作系统的一些研究方... 对多核操作系统的发展状况进行了综述,指出了多核操作系统的发展滞后于多核技术发展的现状,介绍了多核操作系统的起源和国内外研究状况,分析了多核操作系统研究中面临的一些主要问题及已有的研究成果。最后,对多核操作系统的一些研究方法进行了总结。 展开更多
关键词 多核操作系统 操作系统模型 任务调度 存储器管理 内核同步
下载PDF
多核实时线程间干扰分析及WCET估值 被引量:9
9
作者 陈芳园 张冬松 王志英 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1372-1378,共7页
在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰.多核结构下WCET估值需要考虑并行线程间在共享Cache上的干扰.针对当前典型的共享Cache和共享总线的多核结构,本... 在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰.多核结构下WCET估值需要考虑并行线程间在共享Cache上的干扰.针对当前典型的共享Cache和共享总线的多核结构,本文提出了一种迭代的WCET估值分析方法.考虑共享总线对共享Cache访问的时序影响,基于该时序分析线程间在共享Cache上的干扰,得到较精确的WCET估值.理论分析证明了该方法的有效性,实验结果表明本文的分析方法较之当前的两种方法分别可以提高21%和14%的精确度. 展开更多
关键词 多核体系结构 共享CACHE 共享总线 干扰 WCET
下载PDF
走进多核时代 被引量:8
10
作者 李晓明 王韬 +1 位作者 刘东 杜江凌 《计算机科学与探索》 CSCD 2008年第6期561-570,共10页
对多核技术的必然以及发展趋势进行了研究,并对多核技术的含义进行了阐述;报告了在多核技术方面人们关心的主要问题以及现状,指出了多核技术发展可能出现的误区和所面临的挑战。
关键词 多核 计算机系统结构 程序设计模型
下载PDF
一种支持多种访存技术的CBEA片上多核MPI并行编程模型 被引量:6
11
作者 冯国富 董小社 +2 位作者 胡冰 王旭昊 王恩东 《计算机学报》 EI CSCD 北大核心 2008年第11期1965-1974,共10页
现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI... 现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI并行编程模型,将通信分解在PPE(PowerPC Processing Element)上,拓宽模型的适用范围;在统一访存接口下,通过运行时访存剖分信息指导选择和优化访存以提高计算效率.实验结果表明,文中提出的编程模型支持多种访存模式并具有很好的并行加速比,可获得较同类相关技术30%-50%左右的性能提升. 展开更多
关键词 异构多核 CBE架构 并行编程模型 MPI 访存技术 剖分优化
下载PDF
基于多核DSP互联架构的SAR处理研究与设计 被引量:6
12
作者 张强 冯仰松 郭朋 《电子技术应用》 北大核心 2016年第1期37-39,43,共4页
提出了一种基于多核DSP互联架构的SAR成像处理方案。首先,介绍了一种基于方位子块插值的PFA实时成像算法。其次,研究了TI多核DSP TMS320C6678的处理性能,介绍了一种典型的RapidIO互联架构,并进一步提出基于该架构的SAR成像处理方案。最... 提出了一种基于多核DSP互联架构的SAR成像处理方案。首先,介绍了一种基于方位子块插值的PFA实时成像算法。其次,研究了TI多核DSP TMS320C6678的处理性能,介绍了一种典型的RapidIO互联架构,并进一步提出基于该架构的SAR成像处理方案。最后,通过给出SAR成像结果并对比传统解决方案,证明了该处理方案的有效性和先进性。 展开更多
关键词 多核DSP 互联架构 RAPIDIO 合成孔径雷达 极坐标格式算法
下载PDF
面向云计算的多核处理器存储和网络子系统优化设计 被引量:6
13
作者 苏文 王焕东 +1 位作者 台运方 王靖 《高技术通讯》 CAS CSCD 北大核心 2013年第4期360-367,共8页
针对传统多核处理器设计缺乏对虚拟机和典型云服务的支持的问题,分析了云计算数据中心和虚拟机的基本架构和特点,指出数据传输、网络性能、I/O虚拟化是一直未被关注的影响系统性能的关键因素,进而提出了一种改进的多核处理器设计方案。... 针对传统多核处理器设计缺乏对虚拟机和典型云服务的支持的问题,分析了云计算数据中心和虚拟机的基本架构和特点,指出数据传输、网络性能、I/O虚拟化是一直未被关注的影响系统性能的关键因素,进而提出了一种改进的多核处理器设计方案。该方案通过采用片上内存拷贝引擎、改进直接内存访问(DMA)设计、改进直接缓存访问(DCA)设计和采用快速地址转换和远程内存访问(RDMA)技术,来较大地提高存储系统、网络、I/O的性能和系统的并行性。实验表明,该方案实现的单核800MHz处理器千兆以太网络TCP传输带宽较传统方案提高48.2%并达到峰值800Mbps,内存拷贝操作加速比达到14倍以上,快速傅立叶变换(FFT)和矩阵乘法加速比达到2倍以上,同时系统高速缓存效率显著提高。 展开更多
关键词 云计算 多核处理器 网络优化 虚拟机 计算机体系结构
下载PDF
面向IMA应用的多核处理系统研究与实现 被引量:5
14
作者 王卫东 邸海涛 +1 位作者 张伟栋 范超 《微电子学与计算机》 北大核心 2019年第6期10-14,共5页
与单核处理器相比较,多核处理器在性能、功耗、体积、重量以及成本各方面都有绝对的优势,这使得多核处理器在机载嵌入式系统中的应用成为必然趋势.本文在简单分析了IMA实时信息处理需求之后,介绍了系统体系架构设计,重点论述了多核处理... 与单核处理器相比较,多核处理器在性能、功耗、体积、重量以及成本各方面都有绝对的优势,这使得多核处理器在机载嵌入式系统中的应用成为必然趋势.本文在简单分析了IMA实时信息处理需求之后,介绍了系统体系架构设计,重点论述了多核处理节点体系架构、多核应用模式以及单核等价虚拟机模型的设计与实现,最后简单介绍了多核处理系统的测试与验证工作,验证工作表明了研究工作的正确性. 展开更多
关键词 综合化航电系统 多核处理器 多核应用模式 体系架构 虚拟机
下载PDF
一种六边形循环分块的Jacobi计算优化方法 被引量:1
15
作者 屈彬 刘松 +2 位作者 张增源 马洁 伍卫国 《软件学报》 EI CSCD 北大核心 2024年第8期3721-3738,共18页
Jacobi计算是一种模板计算,在科学计算领域具有广泛的应用.围绕Jacobi计算的性能优化是一个经典的课题,其中循环分块是一种较有效的优化方法.现有的循环分块主要关注分块对并行通信和程序局部性的影响,缺少对负载均衡和向量化等其他因... Jacobi计算是一种模板计算,在科学计算领域具有广泛的应用.围绕Jacobi计算的性能优化是一个经典的课题,其中循环分块是一种较有效的优化方法.现有的循环分块主要关注分块对并行通信和程序局部性的影响,缺少对负载均衡和向量化等其他因素的考虑.面向多核计算架构,分析比较不同分块方法,并选择一种先进的六边形分块作为加速Jacobi计算的主要方法.在分块大小选择上,综合考虑分块对程序向量化效率、局部性和计算核负载均衡等多方面的影响,提出一种六边形分块大小选择算法Hexagon_TSS.实验结果表明所提算法相对于原始串行程序计算方法,最好情况可将L1数据缓存失效率降低至其5.46%,最大加速比可达24.48,并且具有良好的可扩展性. 展开更多
关键词 Jacobi计算 六边形分块方法 分块大小选择 性能优化 多核架构
下载PDF
最优潮流中有向无环图的并行数值分解算法 被引量:5
16
作者 李佩杰 韦化 +1 位作者 李滨 阳育德 《电力系统自动化》 EI CSCD 北大核心 2012年第19期66-72,共7页
多核架构的构成是包括云计算在内的多种并行模式的硬件基础,而早期数值分解的一些细粒度并行算法在这种新架构下的效果不够理想。文中基于有向无环图的思想,通过对超级节点分块,将数值分解拆成大量的小任务异步执行,减少了多核架构带宽... 多核架构的构成是包括云计算在内的多种并行模式的硬件基础,而早期数值分解的一些细粒度并行算法在这种新架构下的效果不够理想。文中基于有向无环图的思想,通过对超级节点分块,将数值分解拆成大量的小任务异步执行,减少了多核架构带宽的影响,提高了并行效率,充分利用了多核的计算能力。5个大规模系统的最优潮流计算结果表明,所提出的方法加速效果显著,具有广阔的应用前景。 展开更多
关键词 最优潮流 多核架构 并行数值分解 有向无环图
下载PDF
基于多核ARM体系结构的基础函数优化方法 被引量:5
17
作者 贺爱香 顾乃杰 苏俊杰 《计算机工程》 CAS CSCD 北大核心 2018年第5期47-52,59,共7页
为充分利用嵌入式多核ARM微处理器体积小、功耗低、成本低、性能高的优点,以此提高程序响应速度,研究ARM体系结构及基于该体系结构基础函数的优化问题。基于ARM Cortex-A72平台,结合ARM v8体系结构特点,对Bionic库中字符串和内存处理函... 为充分利用嵌入式多核ARM微处理器体积小、功耗低、成本低、性能高的优点,以此提高程序响应速度,研究ARM体系结构及基于该体系结构基础函数的优化问题。基于ARM Cortex-A72平台,结合ARM v8体系结构特点,对Bionic库中字符串和内存处理函数进行分析。实验结果表明,采用整字处理、循环展开、特殊指令等技术进行程序级优化后,Bionic库中常用基础函数的性能在ARM Cortex-A72平台上均有不同程度的提升。 展开更多
关键词 多核ARM 体系结构 整字处理 循环展开 特殊指令
下载PDF
基于双核处理器平台的数控系统软件架构设计 被引量:4
18
作者 郑玉虎 王品 陆小虎 《组合机床与自动化加工技术》 北大核心 2013年第8期62-65,共4页
针对单核处理器平台上数控系统提升性能和扩展功能方面存在的问题,研究了双核处理器平台上数控系统软件设计的一些理论问题。首先基于RTCore实时操作系统研究了双核平台上数控系统的线程模型设计方案,探讨了线程在核心上的分配方法;然... 针对单核处理器平台上数控系统提升性能和扩展功能方面存在的问题,研究了双核处理器平台上数控系统软件设计的一些理论问题。首先基于RTCore实时操作系统研究了双核平台上数控系统的线程模型设计方案,探讨了线程在核心上的分配方法;然后采用RM算法判定多个周期性实时任务的可调度性,并根据判定结果和负载均衡情况进行线程模型设计;最后研究了中断管理相关问题,提出了根据中断的重要性不同而分配到不同核心上的方法。提出的问题和方法对于设计基于双核和多核处理器平台的数控系统软件具有一定参考意义和实用价值。 展开更多
关键词 实时 双核 多核 RM算法 数控 架构
下载PDF
用于MIMO检测的基于NoC的多核动态可重构架构
19
作者 范文杰 周牧也 +8 位作者 朱凌晓 李世平 陈铠 邓松峰 何国强 冯书谊 宋文清 李丽 傅玉祥 《现代电子技术》 北大核心 2024年第21期1-6,共6页
随着无线通信技术的发展,实现多输入多输出(MIMO)系统检测性能与复杂度之间的最优权衡日益困难,深度学习DL为此提供了新方向。文中提出基于片上网络(NoC)的多核动态可重构架构MCDBP,以提高基于DL的MIMO检测算法的性能,并增强架构的可编... 随着无线通信技术的发展,实现多输入多输出(MIMO)系统检测性能与复杂度之间的最优权衡日益困难,深度学习DL为此提供了新方向。文中提出基于片上网络(NoC)的多核动态可重构架构MCDBP,以提高基于DL的MIMO检测算法的性能,并增强架构的可编程性和扩展性。MCDBP通过集成轻量级计算内核及片上网络互连,并行处理矢量-矩阵乘法、常数-矢量乘法、矢量点积、矢量加法等大多数深度展开网络的基本运算,有效提高复杂MIMO检测性能。架构的创新在于可重构的处理元件PE设计,可以依据DL驱动的MIMO检测需求动态调整。该设计对基于DL的MIMO检测算法共性进行深入分析,支持多种基本运算模式,展现极高灵活性。实验结果显示,MCDBP在执行基于DL的MIMO检测算法时,与通用CPU相比,可以实现12.66~22.98的加速比,算法性能有所提高,可以适应不同应用场景。 展开更多
关键词 无线通信 MIMO检测 深度学习 数据驱动网络 模型驱动网络 NOC 可重构 多核架构
下载PDF
基于多核的安全网关设计与实现 被引量:3
20
作者 王智民 杨聪毅 《信息安全与通信保密》 2009年第6期101-104,共4页
传统的安全网关大多基于单核系统开发,受限于硬件发展的瓶颈,单核难以满足日益增长的网络性能要求。该文提出了一种基于多核的安全网关的设计模型,并根据此模型实现了一款安全网关,经过测试表明,此款安全网关的实现与通用安全网关相比... 传统的安全网关大多基于单核系统开发,受限于硬件发展的瓶颈,单核难以满足日益增长的网络性能要求。该文提出了一种基于多核的安全网关的设计模型,并根据此模型实现了一款安全网关,经过测试表明,此款安全网关的实现与通用安全网关相比性能优异,满足高性能网络安全的需要。 展开更多
关键词 安全网关 多核 并行处理 架构
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部