期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
众核体系结构对Cilk语言的硬件支持及评测研究
被引量:
7
1
作者
龙国平
张军超
范东睿
《计算机学报》
EI
CSCD
北大核心
2008年第11期1975-1985,共11页
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和...
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽.
展开更多
关键词
众
核体
系
结构
Cilk
域一致性
编程模型
存储模型
下载PDF
职称材料
迭代方法中基于渐近规模的通信与计算比分析
被引量:
6
2
作者
徐小文
莫则尧
武林平
《计算机学报》
EI
CSCD
北大核心
2013年第4期782-789,共8页
迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法.大量实际应用表明,迭代方法通常具有较高的通信与计算比,只有在粗粒度并行下才能取得较好的并行可扩展性能.而实际应用大规模计算的需求和当前多核/众核体系结构的发展...
迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法.大量实际应用表明,迭代方法通常具有较高的通信与计算比,只有在粗粒度并行下才能取得较好的并行可扩展性能.而实际应用大规模计算的需求和当前多核/众核体系结构的发展趋势要求迭代方法具备细粒度并行可扩展能力.文中引入渐近规模,即满足加速条件的计算规模下界,来反映并行迭代方法适应细粒度并行的能力,并由此刻画通信与计算比.基于矩阵的稀疏模式及其通信模式、机器的通信参数和迭代方法的基本运算,给出了渐近规模的理论预测公式.在一台包含128个双路4核计算节点的并行机上,分别基于纯进程并行(MPI)和进程/线程混合并行(MPI/OpenMP),以实际应用中3种常用迭代方法Jacobi、CG、BiCGSTAB为例,分析其渐近规模.并行可扩展性测试表明了渐近规模用于刻画迭代方法通信与计算比的准确性.对于纯进程情形,给出了渐近规模的理论预测与实际测试的对比,表明了理论预测结果的正确性.最后,基于这些结果,从迭代方法的算法设计和并行实现等方面讨论了面向未来更大规模的计算系统,降低通信与计算比的途径.
展开更多
关键词
迭代方法
通信与计算比
并行可扩展
渐近规模
多核
众
核体
系
结构
下载PDF
职称材料
LU分解在Godson-Tv1众核体系结构上的并行化研究
被引量:
2
3
作者
龙国平
范东睿
《计算机学报》
EI
CSCD
北大核心
2009年第11期2157-2167,共11页
随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新型众核体系结构特征的工作还不多.文章从负载均...
随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新型众核体系结构特征的工作还不多.文章从负载均衡、延迟容忍和性能分析模型3个方面系统研究了LU分解在众核体系结构上的并行化问题.该文的贡献在于:首先,针对二维卷帘负载分配方案难以达到良好负载均衡的缺点,提出一种新的"之"字形分配方案,实验表明不经任何优化的情况下性能比前者提高20%,优化后达到了40%;其次,提出了一个性能加速比的分析模型,并用实验定量研究了实测性能加速比和理论值之间的差距,发现在合理利用片上存储优化访存延迟,并恰当选择矩阵分块参数的情况下,实测加速效果能比较接近理论值;通过实验还证明实测性能难以达到理论预测值的两个主要原因:访存带宽有限和片上网络的资源竞争.
展开更多
关键词
众
核体
系
结构
LU分解
并行化
延迟容忍
性能模型
下载PDF
职称材料
一种面向蒙特卡洛程序的128核可扩展体系结构
4
作者
张立
黎铁军
张建民
《计算机工程与科学》
CSCD
北大核心
2023年第4期590-598,共9页
蒙特卡洛方法是研究粒子输运问题的重要方法,为蒙特卡洛方法设计定制加速体系结构成为粒子输运模拟的研究热点。分析了一种典型的蒙特卡洛方法代理程序Quicksilver的程序特征,并对存储层次和簇规模等影响可扩展性的结构参数进行了探索,...
蒙特卡洛方法是研究粒子输运问题的重要方法,为蒙特卡洛方法设计定制加速体系结构成为粒子输运模拟的研究热点。分析了一种典型的蒙特卡洛方法代理程序Quicksilver的程序特征,并对存储层次和簇规模等影响可扩展性的结构参数进行了探索,提出了一种面向蒙特卡洛程序的128核可扩展体系结构,在128核配置下实现了相比单核90倍的加速比和70.1%的扩展效率。
展开更多
关键词
蒙特卡洛方法
粒子输运
众
核体
系
结构
可扩展性
簇
下载PDF
职称材料
题名
众核体系结构对Cilk语言的硬件支持及评测研究
被引量:
7
1
作者
龙国平
张军超
范东睿
机构
中国科学院计算技术研究所系统结构重点实验室
出处
《计算机学报》
EI
CSCD
北大核心
2008年第11期1975-1985,共11页
基金
国家"九七三"重点基础研究发展规划项目基金(2005CB321600)
国家自然科学基金重点项目(60736012)资助.
文摘
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽.
关键词
众
核体
系
结构
Cilk
域一致性
编程模型
存储模型
Keywords
many-core architecture
Cilk
scope consistency
programming model
memory model
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
迭代方法中基于渐近规模的通信与计算比分析
被引量:
6
2
作者
徐小文
莫则尧
武林平
机构
北京应用物理与计算数学研究所
出处
《计算机学报》
EI
CSCD
北大核心
2013年第4期782-789,共8页
基金
国家"九七三"重点基础研究发展规划项目基金(2011CB309702)
国家"八六三"高技术研究发展计划项目基金(2012AA01A309)资助~~
文摘
迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法.大量实际应用表明,迭代方法通常具有较高的通信与计算比,只有在粗粒度并行下才能取得较好的并行可扩展性能.而实际应用大规模计算的需求和当前多核/众核体系结构的发展趋势要求迭代方法具备细粒度并行可扩展能力.文中引入渐近规模,即满足加速条件的计算规模下界,来反映并行迭代方法适应细粒度并行的能力,并由此刻画通信与计算比.基于矩阵的稀疏模式及其通信模式、机器的通信参数和迭代方法的基本运算,给出了渐近规模的理论预测公式.在一台包含128个双路4核计算节点的并行机上,分别基于纯进程并行(MPI)和进程/线程混合并行(MPI/OpenMP),以实际应用中3种常用迭代方法Jacobi、CG、BiCGSTAB为例,分析其渐近规模.并行可扩展性测试表明了渐近规模用于刻画迭代方法通信与计算比的准确性.对于纯进程情形,给出了渐近规模的理论预测与实际测试的对比,表明了理论预测结果的正确性.最后,基于这些结果,从迭代方法的算法设计和并行实现等方面讨论了面向未来更大规模的计算系统,降低通信与计算比的途径.
关键词
迭代方法
通信与计算比
并行可扩展
渐近规模
多核
众
核体
系
结构
Keywords
iterative method
communication-to-computation parallel scalability asymptoticsize
multi/many-cores
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
LU分解在Godson-Tv1众核体系结构上的并行化研究
被引量:
2
3
作者
龙国平
范东睿
机构
中国科学院计算技术研究所系统结构重点实验室
出处
《计算机学报》
EI
CSCD
北大核心
2009年第11期2157-2167,共11页
基金
国家"九七三"重点基础研究发展规划项目基金(2005CB321600)
国家自然科学基金重点项目(60736012)
+1 种基金
国家"八六三"高技术研究发展计划项目基金(2009AA01Z103)
国家杰出青年科学基金和北京市自然科学基金(4092044)资助
文摘
随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新型众核体系结构特征的工作还不多.文章从负载均衡、延迟容忍和性能分析模型3个方面系统研究了LU分解在众核体系结构上的并行化问题.该文的贡献在于:首先,针对二维卷帘负载分配方案难以达到良好负载均衡的缺点,提出一种新的"之"字形分配方案,实验表明不经任何优化的情况下性能比前者提高20%,优化后达到了40%;其次,提出了一个性能加速比的分析模型,并用实验定量研究了实测性能加速比和理论值之间的差距,发现在合理利用片上存储优化访存延迟,并恰当选择矩阵分块参数的情况下,实测加速效果能比较接近理论值;通过实验还证明实测性能难以达到理论预测值的两个主要原因:访存带宽有限和片上网络的资源竞争.
关键词
众
核体
系
结构
LU分解
并行化
延迟容忍
性能模型
Keywords
many-core architecture
LU decomposition
parallelization
latency tolerance
performance model
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种面向蒙特卡洛程序的128核可扩展体系结构
4
作者
张立
黎铁军
张建民
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2023年第4期590-598,共9页
基金
国家重点研发计划(2022YFB2803405)
国家自然科学基金(62072464)
装备预先研究项目(31511010101)。
文摘
蒙特卡洛方法是研究粒子输运问题的重要方法,为蒙特卡洛方法设计定制加速体系结构成为粒子输运模拟的研究热点。分析了一种典型的蒙特卡洛方法代理程序Quicksilver的程序特征,并对存储层次和簇规模等影响可扩展性的结构参数进行了探索,提出了一种面向蒙特卡洛程序的128核可扩展体系结构,在128核配置下实现了相比单核90倍的加速比和70.1%的扩展效率。
关键词
蒙特卡洛方法
粒子输运
众
核体
系
结构
可扩展性
簇
Keywords
Monte Carlo method
particle transport
manycore architecture
scalability
cluster
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
众核体系结构对Cilk语言的硬件支持及评测研究
龙国平
张军超
范东睿
《计算机学报》
EI
CSCD
北大核心
2008
7
下载PDF
职称材料
2
迭代方法中基于渐近规模的通信与计算比分析
徐小文
莫则尧
武林平
《计算机学报》
EI
CSCD
北大核心
2013
6
下载PDF
职称材料
3
LU分解在Godson-Tv1众核体系结构上的并行化研究
龙国平
范东睿
《计算机学报》
EI
CSCD
北大核心
2009
2
下载PDF
职称材料
4
一种面向蒙特卡洛程序的128核可扩展体系结构
张立
黎铁军
张建民
《计算机工程与科学》
CSCD
北大核心
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部