期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于龙芯3A2000处理器的高性能Goto BLAS库的实现
被引量:
1
1
作者
张华亮
黄启印
吴少校
《高技术通讯》
CAS
CSCD
北大核心
2016年第10期825-832,共8页
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方...
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。
展开更多
关键词
goto
blas
性能优化
LINPACK
矩阵运算
数据预取
下载PDF
职称材料
题名
基于龙芯3A2000处理器的高性能Goto BLAS库的实现
被引量:
1
1
作者
张华亮
黄启印
吴少校
机构
中国科学院计算技术研究所计算机体系结构国家重点实验室
中国科学院大学
龙芯中科技术有限公司
出处
《高技术通讯》
CAS
CSCD
北大核心
2016年第10期825-832,共8页
基金
"核高基"科技重大专项课题(2014ZX01020201)
863计划(2012AA012202
2013AA014301)资助项目
文摘
用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。
关键词
goto
blas
性能优化
LINPACK
矩阵运算
数据预取
Keywords
goto
blas
performance
optimization
Linpack
matrix
operations
data
prefetching
分类号
TP332 [自动化与计算机技术—计算机系统结构]
TP306 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于龙芯3A2000处理器的高性能Goto BLAS库的实现
张华亮
黄启印
吴少校
《高技术通讯》
CAS
CSCD
北大核心
2016
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部