期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
1
作者
胡怡
陈道琨
+5 位作者
杨超
刘芳芳
马文静
尹万旺
袁欣辉
林蓉芬
《软件学报》
EI
CSCD
北大核心
2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数...
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果.
展开更多
关键词
BLAS
1级
BLAS
2级
访存带宽
SW26010-Pro众核处理器
RMA通信
点对点同步
自适应优化
下载PDF
职称材料
NVIDIA Tegra K1异构计算平台访存优化研究
被引量:
3
2
作者
梁军
李威
+1 位作者
肖琳
徐歆恺
《计算机工程》
CAS
CSCD
北大核心
2016年第12期44-49,共6页
在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和...
在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上的实现和访存性能优化进行研究。实验结果表明,采用优化方法后的矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上取得了较大的访存性能提升,并且具有较好的实时性。
展开更多
关键词
GPU优化
访存带宽
数据本地化
向量化
合并访问
拉普拉斯滤波算法
下载PDF
职称材料
雷达系统高速大容量Flash存储器平台管理的设计和应用
被引量:
2
3
作者
马崇鹤
赵凤军
冯杰
《电子器件》
CAS
北大核心
2016年第6期1407-1415,共9页
针对雷达系统对记录设备通信带宽、容量及性能不断增长的需求,提出了一种基于Flash固态存储器设计的模块化平台管理架构。在分析地址管理和状态管理的基础上,通过设计一种缓存策略和有效流水记录方式实现高访存带宽,对比坏块处理信息形...
针对雷达系统对记录设备通信带宽、容量及性能不断增长的需求,提出了一种基于Flash固态存储器设计的模块化平台管理架构。在分析地址管理和状态管理的基础上,通过设计一种缓存策略和有效流水记录方式实现高访存带宽,对比坏块处理信息形式选择合理处理方式,根据系统文件特点提出两种损耗均衡方法,并实现了单板256 Gbyte、访存带宽600 Mbyte/s的记录器产品。实验证明,设计实现的模块化平台管理架构对Flash存储器管理的有效性和可靠性有很大提升。
展开更多
关键词
Flash固态存储器
平台管理
访存带宽
坏块处理
损耗均衡
下载PDF
职称材料
题名
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
1
作者
胡怡
陈道琨
杨超
刘芳芳
马文静
尹万旺
袁欣辉
林蓉芬
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院大学
北京大学数学科学学院
国家并行计算机工程技术研究中心
出处
《软件学报》
EI
CSCD
北大核心
2023年第9期4421-4436,共16页
基金
国家重点研发计划(2020YFB0204601)。
文摘
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果.
关键词
BLAS
1级
BLAS
2级
访存带宽
SW26010-Pro众核处理器
RMA通信
点对点同步
自适应优化
Keywords
level
1
BLAS
level
2
BLAS
memory
access
bandwidth
Sunway
26010-Pro
many-core
processor
RMA
communication
point-to-point
synchronization
adaptive
optimization
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
NVIDIA Tegra K1异构计算平台访存优化研究
被引量:
3
2
作者
梁军
李威
肖琳
徐歆恺
机构
北京联合大学电子信息技术实验实训基地
北京联合大学自动化学院
北京联合大学应用科技学院
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第12期44-49,共6页
基金
国家自然科学基金重大研究计划项目(91420202)
北京市教育委员会科技计划面上项目(SQKM201411417010
KM201511417003)
文摘
在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上的实现和访存性能优化进行研究。实验结果表明,采用优化方法后的矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上取得了较大的访存性能提升,并且具有较好的实时性。
关键词
GPU优化
访存带宽
数据本地化
向量化
合并访问
拉普拉斯滤波算法
Keywords
GPU
optimization
memory
access
bandwidth
data
localization
vectorization
coalesced
access
Laplace
filtering
algorithm
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
雷达系统高速大容量Flash存储器平台管理的设计和应用
被引量:
2
3
作者
马崇鹤
赵凤军
冯杰
机构
中国科学院电子学研究所
出处
《电子器件》
CAS
北大核心
2016年第6期1407-1415,共9页
文摘
针对雷达系统对记录设备通信带宽、容量及性能不断增长的需求,提出了一种基于Flash固态存储器设计的模块化平台管理架构。在分析地址管理和状态管理的基础上,通过设计一种缓存策略和有效流水记录方式实现高访存带宽,对比坏块处理信息形式选择合理处理方式,根据系统文件特点提出两种损耗均衡方法,并实现了单板256 Gbyte、访存带宽600 Mbyte/s的记录器产品。实验证明,设计实现的模块化平台管理架构对Flash存储器管理的有效性和可靠性有很大提升。
关键词
Flash固态存储器
平台管理
访存带宽
坏块处理
损耗均衡
Keywords
flash
solid-state
memory
management
platform
memory
access
bandwidth
bad
blocks
management
wear
leveling
分类号
TP333 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
胡怡
陈道琨
杨超
刘芳芳
马文静
尹万旺
袁欣辉
林蓉芬
《软件学报》
EI
CSCD
北大核心
2023
0
下载PDF
职称材料
2
NVIDIA Tegra K1异构计算平台访存优化研究
梁军
李威
肖琳
徐歆恺
《计算机工程》
CAS
CSCD
北大核心
2016
3
下载PDF
职称材料
3
雷达系统高速大容量Flash存储器平台管理的设计和应用
马崇鹤
赵凤军
冯杰
《电子器件》
CAS
北大核心
2016
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部