期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于CUDA技术的卷积神经网络识别算法
被引量:
9
1
作者
张佳康
陈庆奎
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP...
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
展开更多
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
下载PDF
职称材料
面向DCU非一致控制流的编译优化
被引量:
2
2
作者
杨小艺
赵荣彩
+2 位作者
王洪生
韩林
徐坤坤
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化...
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
展开更多
关键词
DCU
单指令多线程
线程束分化
复杂控制流
编译优化
下载PDF
职称材料
基于多GPU的Harris角点检测并行算法
被引量:
13
3
作者
肖汉
周清雷
张祖勋
《武汉大学学报(信息科学版)》
EI
CSCD
北大核心
2012年第7期876-881,共6页
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共...
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。
展开更多
关键词
图形处理器
统一计算设备架构
单指令多线程
角点检测
HARRIS算子
原文传递
题名
基于CUDA技术的卷积神经网络识别算法
被引量:
9
1
作者
张佳康
陈庆奎
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
基金
国家自然科学基金资助项目(60573108)
上海教委发展基金资助项目(09YZ428)
+1 种基金
上海教委科研创新基金资助重点项目(08ZZ76)
上海市重点学科建设基金资助项目(S30501)
文摘
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
Keywords
stream
processor
single
-
instruction
multiple
-
thread
(
simt
)
GTX200
hardware
architecture
Compute
Unified
Device
Architecture(CUDA)
technology
Convolutional
Neural
Networks(CNNs)
分类号
TP193 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
面向DCU非一致控制流的编译优化
被引量:
2
2
作者
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
机构
郑州大学计算机与人工智能学院
国家超级计算郑州中心
出处
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
基金
河南省重大科技专项(221100210600)。
文摘
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
关键词
DCU
单指令多线程
线程束分化
复杂控制流
编译优化
Keywords
Deep
Computer
Unit(DCU)
single
instruction
multiple
thread
(
simt
)
warp
divergence
complex
control
flow
compilation
optimization
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于多GPU的Harris角点检测并行算法
被引量:
13
3
作者
肖汉
周清雷
张祖勋
机构
郑州大学信息工程学院
郑州师范学院信息科学与技术学院
武汉大学遥感信息工程学院
出处
《武汉大学学报(信息科学版)》
EI
CSCD
北大核心
2012年第7期876-881,共6页
基金
国家自然科学基金资助项目(41071233)
国家863计划资助项目(2009AA122002)
+1 种基金
中国博士后科学基金资助项目(2012M510110)
河南省高等学校青年骨干教师资助项目(2009GGJS-167)
文摘
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。
关键词
图形处理器
统一计算设备架构
单指令多线程
角点检测
HARRIS算子
Keywords
graphic
processing
unit
(GPU)
compute
unified
device
architecture
(CUDA)
single
instruction
multiple
thread
(
simt
)
corner
detection
Harris
operator
分类号
P237.3 [天文地球—摄影测量与遥感]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于CUDA技术的卷积神经网络识别算法
张佳康
陈庆奎
《计算机工程》
CAS
CSCD
北大核心
2010
9
下载PDF
职称材料
2
面向DCU非一致控制流的编译优化
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
《计算机应用》
CSCD
北大核心
2023
2
下载PDF
职称材料
3
基于多GPU的Harris角点检测并行算法
肖汉
周清雷
张祖勋
《武汉大学学报(信息科学版)》
EI
CSCD
北大核心
2012
13
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部