期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
OpenMP并行程序的编译器优化 被引量:13
1
作者 张平 李清宝 赵荣彩 《计算机工程》 EI CAS CSCD 北大核心 2006年第24期37-40,共4页
OpemMP标准以其良好的可移植性和易用性被广泛应用于并行程序设计。该文讨论了OpenMP并行程序的编译器优化算法,在编译过程中通过并行区合并和扩展,实现并行区重构,并在并行区中实现了基于跨处理器相关图的barrier同步优化。分析验证表... OpemMP标准以其良好的可移植性和易用性被广泛应用于并行程序设计。该文讨论了OpenMP并行程序的编译器优化算法,在编译过程中通过并行区合并和扩展,实现并行区重构,并在并行区中实现了基于跨处理器相关图的barrier同步优化。分析验证表明,这些优化策略减少了并行区和barrier同步的数目,有效地提高了OpenMP程序的并行性能。 展开更多
关键词 跨处理器相关 barrier同步 并行区重构 数据相关图
下载PDF
LogP模型的改进与FFT算法的优化设计 被引量:7
2
作者 李晓峰 寿标 《计算机研究与发展》 EI CSCD 北大核心 1996年第6期438-444,共7页
作为大规模并行机上的并行计算模型,LogP为我们提供了独立于具体系统的算法设计依据。虽然它可以精确地调度通信与计算,但却陷入了繁杂的细节设计,导致实际结果和设计期望相去甚远。我们从算法设计和模型概括两方面对它进行了改... 作为大规模并行机上的并行计算模型,LogP为我们提供了独立于具体系统的算法设计依据。虽然它可以精确地调度通信与计算,但却陷入了繁杂的细节设计,导致实际结果和设计期望相去甚远。我们从算法设计和模型概括两方面对它进行了改进,将路障同步和长消息引入LogP模型,既更好地发挥了并行机的效率,又使得实际结果接近设计期望。 展开更多
关键词 并行计算机 LOGP模型 FFT算法 优化设计
下载PDF
共享内存结构并行程序的编译器优化 被引量:1
3
作者 张平 李清宝 赵荣彩 《计算机工程与应用》 CSCD 北大核心 2006年第1期13-16,共4页
共享内存结构上的程序自动并行化通常实现循环级并行,采用fork-join执行模式,并行性能有待提高。论文结合fork-join和SPMD两种执行模式的优势,在并行化编译过程中通过并行区合并和扩展,实现fork-join和SPMD混合执行模式,并在SPMD并行区... 共享内存结构上的程序自动并行化通常实现循环级并行,采用fork-join执行模式,并行性能有待提高。论文结合fork-join和SPMD两种执行模式的优势,在并行化编译过程中通过并行区合并和扩展,实现fork-join和SPMD混合执行模式,并在SPMD并行区中实现了基于跨处理器相关图的barrier同步优化。分析验证表明,这些优化策略减少了并行区和barrier同步的数目,有效地提高了生成并行程序的性能。 展开更多
关键词 跨处理器相关 barrier同步 SPMD并行区 数据相关图
下载PDF
面向流处理结构的Barrier同步实现 被引量:1
4
作者 黄万荣 唐玉华 易晓东 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期245-250,共6页
Barrier同步操作是能够直接影响处理器性能的一类操作.针对流处理器体系结构,提出并实现了2种软件同步机制和1种硬件同步机制,即基于互斥计数器的Barrier同步、基于共享状态寄存器的Lock-free Barrier同步和基于专用硬件管理单元的Barr... Barrier同步操作是能够直接影响处理器性能的一类操作.针对流处理器体系结构,提出并实现了2种软件同步机制和1种硬件同步机制,即基于互斥计数器的Barrier同步、基于共享状态寄存器的Lock-free Barrier同步和基于专用硬件管理单元的Barrier同步;在一款流处理器原型系统中测试并分析了在不同负载规模、不同负载分布、典型应用情况下3种同步机制的性能.结果表明,基于专用硬件管理单元的Barrier同步机制性能更优. 展开更多
关键词 barrier同步 流处理器 软件方法 硬件机制 性能评估
下载PDF
Half Vector Message Pipelining Optimization of Barrier Synchronization Problems
5
作者 韩天舒 胡铭曾 +1 位作者 李晓明 丁雪梅 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 1999年第1期50-53,共4页
Communication optimization is very important for imporoving performance of parallel programs A communication optimization method called HVMP(Half Vector Message Ripelining) is presented. In comparison with the widelyu... Communication optimization is very important for imporoving performance of parallel programs A communication optimization method called HVMP(Half Vector Message Ripelining) is presented. In comparison with the widelyused vector message pipelining, HVMP can get better tradeoff between reducing and hiding communication overhead,and eliminate the communication barrier of barrier synchronization problems[1]. For parallel Systems with low bandwidth such as cluster of workstations and barrier synchronization problems with large amount of communication, HVMPmethod can get good performance. 展开更多
关键词 Data parallel barrier synchronization communication OPTIMIZATION method HALF VECTOR MESSAGE PIPELINING
下载PDF
一种针对栅栏同步的GPGPU微架构优化设计
6
作者 贾世伟 张玉明 +1 位作者 田泽 秦翔 《固体电子学研究与进展》 CAS 北大核心 2023年第1期70-77,共8页
为了降低通用图形处理器(GPGPU)中栅栏同步开销对程序性能产生的不良影响,提出了一种GPGPU微架构优化设计。该设计在线程束调度模块中,根据栅栏同步开销决定各线程束的调度顺序,确保高栅栏同步开销的线程束能够优先调度执行。在一级数... 为了降低通用图形处理器(GPGPU)中栅栏同步开销对程序性能产生的不良影响,提出了一种GPGPU微架构优化设计。该设计在线程束调度模块中,根据栅栏同步开销决定各线程束的调度顺序,确保高栅栏同步开销的线程束能够优先调度执行。在一级数据缓存模块中,结合数据缓存缺失率与栅栏同步状态来共同决定各访存请求是否需要执行旁路操作,由此在不损害数据局域性开发的前提下,降低数据缓存阻塞周期对栅栏同步产生的影响。两种子模块优化设计均能够降低栅栏同步开销。实验结果表明,相比基准GPGPU架构与当前现有的栅栏同步优化策略,本设计在栅栏同步密集类程序中分别带来了4.15%、4.13%与2.62%的每周期指令数提升,证明了优化设计的有效性与实用性。 展开更多
关键词 通用图形处理器 栅栏同步 线程束调度 一级数据缓存 缓存旁路 性能
下载PDF
基于远程过程调用和壁垒同步的分布式离散事件仿真模型 被引量:1
7
作者 陈优子 陈俊延 王彤 《计算机应用》 CSCD 北大核心 2011年第5期1413-1416,共4页
针对多处理器高数据量情况的并行离散事件仿真提出了一种高效的仿真模型。仿真采用时间步进的推进方式,运用远程过程调用(RPC)分布调用机制实现仿真成员之间的互操作。仿真中采用壁垒同步机制保证仿真推进时的时间同步,以确保因果关系... 针对多处理器高数据量情况的并行离散事件仿真提出了一种高效的仿真模型。仿真采用时间步进的推进方式,运用远程过程调用(RPC)分布调用机制实现仿真成员之间的互操作。仿真中采用壁垒同步机制保证仿真推进时的时间同步,以确保因果关系正确。实践证明,在保证了仿真准确性的前提下,该模型可对传输层和网络层协议进行仿真测试,能够对大数据量进行准确实时的处理,并在一定程度上提高了仿真效率。 展开更多
关键词 并行离散事件仿真 远程过程调用机制 保守策略 时间单位推进 壁垒同步
下载PDF
基于相关性分析的障碍同步消除算法
8
作者 郭克榕 唐新春 《计算机学报》 EI CSCD 北大核心 1998年第S1期207-212,共6页
同步控制是并行执行中的主要开销源之一.本文以Fortran77串行程序自动转换为MPPFortran并行程序为背景,提出了一种减少数据并行程序中障碍同步开销的优化算法.根据数据并行程序中显式的数据分布与工作划分,处理机间的相关性分析可... 同步控制是并行执行中的主要开销源之一.本文以Fortran77串行程序自动转换为MPPFortran并行程序为背景,提出了一种减少数据并行程序中障碍同步开销的优化算法.根据数据并行程序中显式的数据分布与工作划分,处理机间的相关性分析可用于消除程序中不必要的障碍同步,改善程序的并行性能.我们使用一组标准测试程序对算法的有效性进行了测试,测试结果表明平均26%的障碍同步可消除.算法的基本思想同样适用于其它数据并行语言程序的障碍同步优化. 展开更多
关键词 数据并行 障碍同步 相关性分析 数据分布 工作划分
下载PDF
基于分布式模拟机制的片上网络硬件模拟系统 被引量:1
9
作者 彭毅 安虹 +3 位作者 金旭 程亦超 迟孟贤 孙荪 《计算机工程》 CAS CSCD 北大核心 2016年第5期71-79,共9页
针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自... 针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自行处理,从而提高模拟速度。基于该机制,设计并实现片上网络硬件模拟系统。实验结果表明,该系统能达到与业界权威BookSim模拟器同级别的模拟精度,模拟速度可达BookSim模拟器的200倍,相比DART模拟器能获得21%的速度提升,并且具有较好的扩展性。 展开更多
关键词 片上网络 分布式模拟 现场可编程门阵列 多核处理器 时钟精确 动态路障同步
下载PDF
在蠕虫洞路径网络中用多目标蠕虫的快速屏蔽同步
10
作者 杨献宁 张微 《计算机应用与软件》 CSCD 北大核心 2004年第6期45-46,83,共3页
过去一直用点对点单点传送信息取得屏蔽同步。为了减小屏蔽同步成本 ,近来已提出用多目标蠕虫的方法。本文提出两种快速多目标蠕虫法 ,即对分法和探索法。他们适用于在蠕虫洞路径网络中的完全屏蔽操作或任意部分的屏蔽操作。将这两种方... 过去一直用点对点单点传送信息取得屏蔽同步。为了减小屏蔽同步成本 ,近来已提出用多目标蠕虫的方法。本文提出两种快速多目标蠕虫法 ,即对分法和探索法。他们适用于在蠕虫洞路径网络中的完全屏蔽操作或任意部分的屏蔽操作。将这两种方法结合起来 ,得到对分探索法 。 展开更多
关键词 屏蔽同步 多目标蠕虫 探索蠕虫 对分法 蠕虫洞路径
下载PDF
辅助磁障永磁同步电动机的电磁分析与参数优化 被引量:1
11
作者 王秀平 杨楮涵 曲春雨 《微电机》 2022年第2期28-36,共9页
辅助磁障永磁同步电动机既具有永磁同步电动机高功率密度、高效率、高功率因数等优势,又兼具同步磁阻电机的宽调速范围、无高温退磁等优点,在调速驱动领域具有广阔的应用前景。在优化辅助磁障永磁同步电动机磁障形状、周边磁桥形状、磁... 辅助磁障永磁同步电动机既具有永磁同步电动机高功率密度、高效率、高功率因数等优势,又兼具同步磁阻电机的宽调速范围、无高温退磁等优点,在调速驱动领域具有广阔的应用前景。在优化辅助磁障永磁同步电动机磁障形状、周边磁桥形状、磁障层数和永磁体占比的基础上,将其与“一”字型和“V”字型内置式永磁同步电动机进行对比分析,借助二维有限元仿真软件对三种结构的负载转矩、转矩脉动、损耗及效率等运行性能进行全面对比。以减小齿槽转矩有效值、减小空载反电势谐波含量和提高负载转矩有效值为目标对辅助磁障永磁同步电动机进行转子结构优化,对辅助磁障永磁同步电机的推广应用具有一定的参考价值。 展开更多
关键词 永磁同步电动机 内置式永磁同步电动机 转矩脉动 参数优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部