期刊文献+
共找到319篇文章
< 1 2 16 >
每页显示 20 50 100
基于GPU的电力系统并行潮流计算的实现 被引量:34
1
作者 夏俊峰 杨帆 +1 位作者 李静 郑秀玉 《电力系统保护与控制》 EI CSCD 北大核心 2010年第18期100-103,110,共5页
在研究GPU通用计算方法和潮流计算算法的基础上,针对GPU计算密集、高度并行化等特点,对潮流计算牛顿法进行了适当的简化,并应用统一计算设备架构(Compute Unified Device Architecture,CUDA)的开发平台,提出了一种基于GPU的并行潮流计... 在研究GPU通用计算方法和潮流计算算法的基础上,针对GPU计算密集、高度并行化等特点,对潮流计算牛顿法进行了适当的简化,并应用统一计算设备架构(Compute Unified Device Architecture,CUDA)的开发平台,提出了一种基于GPU的并行潮流计算程序的设计方法。仿真计算结果表明此算法可行,并具有较高的计算效率,为电力系统并行潮流计算的研究提供了一种可行的方法。 展开更多
关键词 潮流计算 并行计算 GPU通用计算 统一计算设备架构 牛顿法
下载PDF
使用TensorRT进行深度学习推理 被引量:23
2
作者 周立君 刘宇 +2 位作者 白璐 刘飞 王亚伟 《应用光学》 CAS CSCD 北大核心 2020年第2期337-341,共5页
TensorRT是一个高性能的深度学习推理平台。它包括一个深度学习推理优化器和运行时为深度学习推理应用程序提供低延迟和高吞吐量。给出了一个使用TensorRT快速构建计算管道的例子,实现通过TensorRT执行智能视频分析的典型应用。该示例... TensorRT是一个高性能的深度学习推理平台。它包括一个深度学习推理优化器和运行时为深度学习推理应用程序提供低延迟和高吞吐量。给出了一个使用TensorRT快速构建计算管道的例子,实现通过TensorRT执行智能视频分析的典型应用。该示例演示了使用片上解码器进行解码、使用片上标量进行视频缩放和GPU计算的4个并发视频流。为了演示的简单性,只有一个通道使用NVIDIA TensorRT执行对象标识,并在标识的对象周围生成包围框。该示例还使用视频转换器函数进行各种格式转换,使用EGLImage来演示缓冲区共享和图像显示。最后采用GPU卡V100对ResNet网络进行TensorRT加速性能的实际测试,结果表明TensorRT能够使吞吐量提升大约15倍。 展开更多
关键词 TensorRT 深度学习推理 对象检测 统一计算设备架构
下载PDF
遥感影像CVA变化检测的CUDA并行算法设计 被引量:19
3
作者 常方正 赵银娣 刘善磊 《遥感学报》 EI CSCD 北大核心 2016年第1期114-128,共15页
随着遥感影像数据量以及复杂程度的日益增加,遥感图像的快速处理成为实际应用过程中亟需解决的问题。为了实现遥感影像的实时变化检测,针对基于变化矢量分析CVA的变化检测算法,设计了一种基于统一计算设备构架CUDA的并行处理模型。首先... 随着遥感影像数据量以及复杂程度的日益增加,遥感图像的快速处理成为实际应用过程中亟需解决的问题。为了实现遥感影像的实时变化检测,针对基于变化矢量分析CVA的变化检测算法,设计了一种基于统一计算设备构架CUDA的并行处理模型。首先利用地理空间数据提取库GDAL实现大数据量遥感影像的分块读取、操作和保存;其次将基于变化矢量分析的变化检测过程分为变化强度检测、映射表构建和变化方向检测,并借助CUDA C将变化矢量分析算法的3个步骤嵌入到CPU和GPU组成的异构平台上进行实验;最后利用该模型对不同数据量的遥感影像进行CVA变化检测并作对比分析。实验结果表明:与CPU串行相比,基于GPU/CUDA的遥感影像CVA的变化检测速度提高了10倍左右;在一定程度上,达到了实时变化检测的效果。 展开更多
关键词 遥感影像 变化检测 变化矢量分析 并行计算 统一计算设备构架
原文传递
基于CUDA的超声B模式成像 被引量:16
4
作者 夏春兰 石丹 刘东权 《计算机应用研究》 CSCD 北大核心 2011年第6期2011-2015,共5页
超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但由于从聚焦的射频信号(radio-frequency,RF)到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现... 超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但由于从聚焦的射频信号(radio-frequency,RF)到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现过程中通常依赖于复杂的硬件,这大大加大了实现难度及成本。为此提出了一种基于NVID IA公司统一计算设备架构(compute unified device architecture,CUDA)的超声B模式成像的并行实现,利用图形处理单元(graphic processing unit,GPU)并行计算实现从RF到B模式图像过程中的卷积计算、正交解调、包络检测、数据压缩及扫描转换等处理。临床活体组织数据上的实验表明,针对由规模为191×9344的RF数据得到648×512的B模式图像,基于CUDA的并行实现与基于CPU的实现相比,在保证得到相同质量的B模式图像的前提下,速度提高了69倍。 展开更多
关键词 高性能并行计算 超声B模式成像 图形处理器 图像并行处理算法 统一计算设备架构
下载PDF
基于GPU的稀疏矩阵向量乘优化 被引量:13
5
作者 白洪涛 欧阳丹彤 +2 位作者 李熙铭 李亭 何丽莉 《计算机科学》 CSCD 北大核心 2010年第8期168-171,181,共5页
针对稀疏矩阵运算难以发挥图形处理器的强大运算能力的现状,基于图形处理器的统一计算架构,在线程映射、数据复用等方面研究了一系列并行计算优化方法,从而完成了一种行压缩存储表示下的稀疏矩阵向量乘并行算法。这些优化方法包括:(1)利... 针对稀疏矩阵运算难以发挥图形处理器的强大运算能力的现状,基于图形处理器的统一计算架构,在线程映射、数据复用等方面研究了一系列并行计算优化方法,从而完成了一种行压缩存储表示下的稀疏矩阵向量乘并行算法。这些优化方法包括:(1)利用Warp内线程天然同步特性,Half-warp完成结果向量一个元素的计算;(2)取整读取数据,实现合并访问;(3)输入向量放入纹理存储器,数据复用;(4)申请分页锁定内存,加速数据传输;(5)使用共享存储器,加速数据存取。实验分析表明,提出的各种手段起到了优化的作用。与已有的CUDPP和SpMV library中的CSR-vector算法相比,本算法获得了更高的存储器带宽和浮点运算吞吐量;整体性能比CPU串行执行版本快了3倍以上。 展开更多
关键词 稀疏矩阵 行压缩存储 图形处理器 统一计算架构 优化策略
下载PDF
基于CUDA的高速并行高斯滤波算法 被引量:10
6
作者 卢文龙 王建军 刘晓军 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第5期10-13,共4页
为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性... 为加快表面三维形貌分析中高斯滤波算法的执行速度,提出了一种基于计算统一设备构架(CUDA)的高斯滤波算法来实现高速并行处理.分析高斯滤波算法原理和CUDA并行计算体系,将CUDA并行计算技术引入到表面分析领域.针对高斯滤波数据间依赖性弱和CUDA采用单指令多线程(SIMT)执行模型的特点,总结出适合于CUDA的并行高斯滤波算法流程.实验证明:该方法与CPU串行处理方法相比,其加速比达到40倍以上,可以有效提高数据处理能力. 展开更多
关键词 高斯滤波 计算统一设备构架 图像处理器 表面形貌 并行处理
原文传递
一种基于新型查表方法的统一计算设备架构并行计算全息算法 被引量:10
7
作者 蒋晓瑜 丛彬 +2 位作者 裴闯 闫兴鹏 赵锴 《光学学报》 EI CAS CSCD 北大核心 2015年第2期80-87,共8页
为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、... 为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算相位的缺点。同时采用统一计算设备架构(CUDA)并行计算在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU运算提升30倍至近千倍不等。 展开更多
关键词 全息 三角函数查表算法 查表法 统一计算设备架构 并行计算
原文传递
基于GPU和隐式格式的CFD并行计算方法 被引量:9
8
作者 张兵 韩景龙 《航空学报》 EI CAS CSCD 北大核心 2010年第2期249-256,共8页
从图形处理器(GPU)架构特点出发,提出了基于数据并行的隐式计算流体力学(CFD)求解方法,空间离散格式采用迎风Roe格式,计算网格适用于结构和非结构网格。采用统一计算设备架构(CUDA)技术实现了GPU上的隐式CFD并行计算。分别在Intel Core2... 从图形处理器(GPU)架构特点出发,提出了基于数据并行的隐式计算流体力学(CFD)求解方法,空间离散格式采用迎风Roe格式,计算网格适用于结构和非结构网格。采用统一计算设备架构(CUDA)技术实现了GPU上的隐式CFD并行计算。分别在Intel Core2 Quad3.0GHzCPU和NVIDIAGTX280 GPU上进行了计算,结果表明隐式格式计算速度是显式格式6倍以上,采用显式格式的计算加速比达到28倍,采用隐式格式计算加速比达到了28.7倍,同时计算加速比随计算规模的增加而增加。计算结果和实验结果较为吻合。 展开更多
关键词 计算流体力学 图形处理器 并行计算 隐式格式 统一计算设备架构
原文传递
CUDA架构下外辐射源雷达杂波抑制并行算法 被引量:9
9
作者 武勇 王俊 +1 位作者 张培川 曹运合 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2015年第1期104-111,共8页
为了解决用于杂波抑制的直接矩阵求逆算法在外辐射源雷达工程应用中实时处理困难的问题,提出了分段并行的直接矩阵求逆算法.充分考虑了直接矩阵求逆算法的特点,将整个运算块分解为多个规模相同的子运算块,在计算统一设备架构下对这些子... 为了解决用于杂波抑制的直接矩阵求逆算法在外辐射源雷达工程应用中实时处理困难的问题,提出了分段并行的直接矩阵求逆算法.充分考虑了直接矩阵求逆算法的特点,将整个运算块分解为多个规模相同的子运算块,在计算统一设备架构下对这些子运算块进行并行处理,达到了提高算法处理效率的目的.实验结果表明,在采样率为200kHz,杂波对消阶数为128的条件下,与传统的串行处理算法相比,该算法的运行效率提高了25倍,并成功用于某外辐射源雷达实时信号处理中. 展开更多
关键词 外辐射源雷达 杂波抑制 直接矩阵求逆算法 计算统一设备架构 并行
下载PDF
基于CTR模式的GPU并行AES算法的研究与实现 被引量:8
10
作者 费雄伟 李肯立 阳王东 《小型微型计算机系统》 CSCD 北大核心 2015年第3期529-533,共5页
为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平... 为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平台理论分析了CTR模式的并行AES算法和串行AES算法的时间复杂度,得到综合的加速比为31.59,然后在Nvidia Geforce GTX 460平台上实验运行,结果显示CTR模式的AES-256的GPU并行算法相对串行CTR模式的AES算法,实验加速比跟理论加速比基本吻合.在此基础上,对CTR模式的AES-256进行了优化.实验结果显示,优化的CTR模式的AES-256并行算法在加速比上随着明文的增大提升的比例渐渐减少并趋于稳定.优化的CTR模式的AES算法加密数据量小的明文时,其优化效果更为明显,故能有效地提升SSL(Secure Socket Layer,其明文区间为35KB-150KB)的加密性能. 展开更多
关键词 计数器模式 GPU并行 时间复杂度 加速比 统一计算架构
下载PDF
改进的模拟植物生长算法及其在大型辐照装置自动排源中的实用化 被引量:8
11
作者 杨磊 刘义保 +2 位作者 龚学余 刘珂 刘玉娟 《原子能科学技术》 EI CAS CSCD 北大核心 2010年第11期1403-1408,共6页
在相关研究工作的基础上,分析得到了基于模拟植物生长算法的排源算法的性能热点,并对其进行了并行化改进,具体是将原有串行执行过程转化为统一计算设备架构(CUDA)的线程块并行执行过程,从而可有效利用GPU的大规模并行能力,实现程序执行... 在相关研究工作的基础上,分析得到了基于模拟植物生长算法的排源算法的性能热点,并对其进行了并行化改进,具体是将原有串行执行过程转化为统一计算设备架构(CUDA)的线程块并行执行过程,从而可有效利用GPU的大规模并行能力,实现程序执行效率的大幅加速。若干计算实例结果表明,在保持排源算法原有优点的基础上,新算法的整体性能有最低30倍的提高,使当前的排源算法具有高度的竞争力。 展开更多
关键词 改进的模拟植物生长算法 大型辐照装置 GPU 统一计算设备架构
下载PDF
基于GPU的软件化雷达恒虚警概率算法实现 被引量:7
12
作者 贾可 李世丹 +1 位作者 郭燕 王德生 《信息与电子工程》 2012年第5期525-527,533,共4页
高效实现恒虚警概率检测(CFAR)是新型雷达终端信号处理系统研制的重要部分。在基于图形处理器(GPU)的软件化雷达终端架构下,采用统一计算设备架构(CUDA)技术,并根据GPU的特点对算法实现进行优化,实现了高效的软件化CFAR算法,相比CPU软... 高效实现恒虚警概率检测(CFAR)是新型雷达终端信号处理系统研制的重要部分。在基于图形处理器(GPU)的软件化雷达终端架构下,采用统一计算设备架构(CUDA)技术,并根据GPU的特点对算法实现进行优化,实现了高效的软件化CFAR算法,相比CPU软件实现大大缩短了数据处理时间,能够满足雷达信号处理对实时性的需求,同时验证了研发基于GPU的软件化雷达终端具有较高的可行性。 展开更多
关键词 图形处理器 计算设备架构 恒虚警概率检测 雷达信号处理 雷达终端
下载PDF
Efficient parallel implementation of the lattice Boltzmann method on large clusters of graphic processing units 被引量:6
13
作者 XIONG QinGang LI Bo +5 位作者 XU Ji FANG XiaoJian WANG XiaoWei WANG LiMin HE XianFeng GE Wei 《Chinese Science Bulletin》 SCIE EI CAS 2012年第7期707-715,共9页
Many-core processors, such as graphic processing units (GPUs), are promising platforms for intrinsic parallel algorithms such as the lattice Boltzmann method (LBM). Although tremendous speedup has been obtained on a s... Many-core processors, such as graphic processing units (GPUs), are promising platforms for intrinsic parallel algorithms such as the lattice Boltzmann method (LBM). Although tremendous speedup has been obtained on a single GPU compared with mainstream CPUs, the performance of the LBM for multiple GPUs has not been studied extensively and systematically. In this article, we carry out LBM simulation on a GPU cluster with many nodes, each having multiple Fermi GPUs. Asynchronous execution with CUDA stream functions, OpenMP and non-blocking MPI communication are incorporated to improve efficiency. The algorithm is tested for two-dimensional Couette flow and the results are in good agreement with the analytical solution. For both the oneand two-dimensional decomposition of space, the algorithm performs well as most of the communication time is hidden. Direct numerical simulation of a two-dimensional gas-solid suspension containing more than one million solid particles and one billion gas lattice cells demonstrates the potential of this algorithm in large-scale engineering applications. The algorithm can be directly extended to the three-dimensional decomposition of space and other modeling methods including explicit grid-based methods. 展开更多
关键词 格子BOLTZMANN方法 图形处理单元 并行算法 集群 COUETTE流 LBM模拟 OPENMP 直接数值模拟
原文传递
基于图形处理器的水下目标传递函数多频点处理方法
14
作者 钱浩然 王斌 《舰船科学技术》 北大核心 2024年第14期153-157,共5页
为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽... 为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽带内的散射声场,从而显著提高了计算效率。本文以潜航器模型为算例,对不同网格数量下模型的目标散射传递函数计算速度进行对比分析。仿真结果表明,相较于传统的CPU串行计算,采用CUDA快速算法能够实现超过80的加速比,有效提高了计算速度。 展开更多
关键词 板块元方法 图像处理器 计算统一设备架构 并行计算
下载PDF
基于CUDA的二维泊松方程快速直接求解 被引量:6
15
作者 岳小宁 肖炳甲 罗正平 《计算机科学》 CSCD 北大核心 2013年第10期21-23,38,共4页
二维泊松方程离散化之后可以转化为一个具有特殊格式的块三对角方程的求解问题,通过对这一结构化线性方程组的研究,提出了一个适用于统一计算架构(CUDA)的泊松方程并行算法。该算法通过离散正弦变化,可以将计算任务划分为若干相互独立... 二维泊松方程离散化之后可以转化为一个具有特殊格式的块三对角方程的求解问题,通过对这一结构化线性方程组的研究,提出了一个适用于统一计算架构(CUDA)的泊松方程并行算法。该算法通过离散正弦变化,可以将计算任务划分为若干相互独立的部分进行求解,各部分求解完成后再通过一次离散正弦变换即可获得最终解,整个求解过程只需要两次全局通信。结合GPU的硬件特征进行优化之后,该算法相比CPU上的串行算法可以获得10倍以上的加速比。 展开更多
关键词 泊松方程 统一计算架构 并行计算 块三对角方程
下载PDF
面阵数字航测影像快速辐射校正方法与实现
16
作者 马远征 王爽 +3 位作者 马小芳 刘璐 窦关新 范谦绵 《测绘标准化》 2024年第2期60-65,共6页
随着计算机软硬件的发展,特别是可编程图形处理单元(GPU)框架计算统一设备架构(CUDA)的不断进步,使得利用CUDA开发影像快速处理应用的需求大幅增加。本文在分析国产大面阵航测相机DMZⅡ辐射特性的基础上,提出了基于C UDA的面阵数字航测... 随着计算机软硬件的发展,特别是可编程图形处理单元(GPU)框架计算统一设备架构(CUDA)的不断进步,使得利用CUDA开发影像快速处理应用的需求大幅增加。本文在分析国产大面阵航测相机DMZⅡ辐射特性的基础上,提出了基于C UDA的面阵数字航测相机全色子影像快速辐射校正方法,阐述了具体实现步骤和线程配置方法,并利用DMZⅡ相机在某试验区获得的影像数据,开展快速辐射校正算法性能测试。结果表明,相较于传统中央处理器(CPU)串行编程方法,本文提出的方法可提高超13倍的计算效率,且逻辑明确,实现简单,可为开发类似影像快速处理需求的相关应用提供技术参考。 展开更多
关键词 辐射校正 数字航测相机 面阵影像 计算统一设备架构 归一化方法
下载PDF
内镜超声合成孔径成像算法的并行实现 被引量:6
17
作者 李溦 陈晓冬 +2 位作者 李嘉科 汪毅 郁道银 《激光与光电子学进展》 CSCD 北大核心 2017年第10期394-402,共9页
为了提高合成孔径成像算法在医学超声内镜系统中的计算效率,提出一种在图形处理器(GPU)上并行实现的合成孔径成像方法。首先介绍了合成孔径算法的基本原理和图像重构过程;然后对该算法进行并行化处理分析;最后采用CUDA编程模式单指令多... 为了提高合成孔径成像算法在医学超声内镜系统中的计算效率,提出一种在图形处理器(GPU)上并行实现的合成孔径成像方法。首先介绍了合成孔径算法的基本原理和图像重构过程;然后对该算法进行并行化处理分析;最后采用CUDA编程模式单指令多线程(SIMT)的灵活架构,实现了基于GPU的内镜超声合成孔径成像算法。对多组散射点仿真成像实验进行对比分析,并采用自行搭建的超声内镜实验系统对铁丝、肿囊假体及猪皮组织进行成像实验验证。实验结果表明,所提方法在保证成像结果和成像质量不变的前提下,大幅度提高了计算效率,在计算数据规模为1.47GB(5305×581×64×8byte)时,获得了50.93倍的最大加速比。 展开更多
关键词 光计算 内镜超声成像 并行实现 合成孔径 统一计算设备架构
原文传递
Hybrid Parallel Bundle Adjustment for 3D Scene Reconstruction with Massive Points 被引量:4
18
作者 刘鑫 高伟 胡占义 《Journal of Computer Science & Technology》 SCIE EI CSCD 2012年第6期1269-1280,共12页
Bundle adjustment (BA) is a crucial but time consuming step in 3D reconstruction. In this paper, we intend to tackle a special class of BA problems where the reconstructed 3D points are much more numerous than the c... Bundle adjustment (BA) is a crucial but time consuming step in 3D reconstruction. In this paper, we intend to tackle a special class of BA problems where the reconstructed 3D points are much more numerous than the camera parameters, called Massive-Points BA (MPBA) problems. This is often the case when high-resolution images are used. We present a design and implementation of a new bundle adjustment algorithm for efficiently solving the MPBA problems. The use of hardware parallelism, the multi-core CPUs as well as GPUs, is explored. By careful memory-usage design, the graphic-memory limitation is effectively alleviated. Several modern acceleration strategies for bundle adjustment, such as the mixed-precision arithmetics, the embedded point iteration, and the preconditioned conjugate gradients, are explored and compared. By using several high-resolution image datasets, we generate a variety of MFBA problems, with which the performance of five bundle adjustment algorithms are evaluated. The experimental results show that our algorithm is up to 40 times faster than classical Sparse Bundle Adjustment, while maintaining comparable precision. 展开更多
关键词 sparse bundle adjustment GPU compute unified device architecture structure from motion
原文传递
基于改进AlexNet与CUDA的大豆快速三分类方法 被引量:1
19
作者 林伟 仲伟波 +2 位作者 袁毓 齐国庆 李浩东 《计算机与数字工程》 2023年第12期2997-3003,共7页
为了能够精确、快速实现大豆籽粒分类,提出了基于改进AlexNet与CUDA的大豆籽粒快速三分类方法。以大豆籽粒多分类为目标,构建大豆籽粒图像库;根据快速分类的任务要求,对传统AlexNet模型进行改进并采用统一计算设备架构C++实现;以NVIDIA ... 为了能够精确、快速实现大豆籽粒分类,提出了基于改进AlexNet与CUDA的大豆籽粒快速三分类方法。以大豆籽粒多分类为目标,构建大豆籽粒图像库;根据快速分类的任务要求,对传统AlexNet模型进行改进并采用统一计算设备架构C++实现;以NVIDIA Jetson TX2为核心构建大豆籽粒快速分类系统。训练集及验证集分类准确率分别可达98%和94%;对于在线采集的大豆图像进行分类测试准确率约为93%,且一粒大豆籽粒分类耗时约6ms,能够满足快速分类的应用需求。 展开更多
关键词 图像处理 机器视觉 大豆籽粒分类 AlexNet改进模型 统一计算设备架构
下载PDF
非规则流中高维数据流典型相关性分析并行计算方法 被引量:5
20
作者 周勇 卢晓伟 程春田 《软件学报》 EI CSCD 北大核心 2012年第5期1053-1072,共20页
为了满足在计算资源受限的环境下高维数据流处理的实时性要求,提出一种方法——基于GPU(graphicprocessing unit)的非规则流中高维数据流的处理模型和具体的可行架构,并分析设计了相关的并行算法.该六层模型是将GPU处理数据的高宽带性... 为了满足在计算资源受限的环境下高维数据流处理的实时性要求,提出一种方法——基于GPU(graphicprocessing unit)的非规则流中高维数据流的处理模型和具体的可行架构,并分析设计了相关的并行算法.该六层模型是将GPU处理数据的高宽带性能结合进滑动窗口中数据流的分析,进而在该框架下基于统一计算设备架构(compute unified device architecture,简称CUDA),使用数据立方模型以及降维约简技术并行分析了多条高维数据流的典型相关性.理论分析和实验结果均表明,该并行处理方法能够在线精确地识别同步滑动窗口模式下高维数据流之间的相关性.相对于纯CPU方法,该方法具有显著的速度优势,很好地满足了高维数据流的实时性需求,可以作为通用的分析方法广泛应用于数据流挖掘领域. 展开更多
关键词 图形处理器 高维数据流 典型相关性 统一计算设备架构 降维约简技术
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部