期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于GPU的宽带干涉仪测向算法实现 被引量:3
1
作者 蒋林鸿 何子述 +1 位作者 程婷 贾可新 《现代雷达》 CSCD 北大核心 2012年第1期35-39,共5页
相关干涉仪算法具有实现简单和精度高等优点,但将其运用于宽带测向时存在运算量较大等问题,文中针对该问题提出一种基于GPU的宽带干涉仪测向算法实现,利用CUDA技术对传统相关算法进行改进,使之能够适应于GPU平台并充分发挥图形处理器强... 相关干涉仪算法具有实现简单和精度高等优点,但将其运用于宽带测向时存在运算量较大等问题,文中针对该问题提出一种基于GPU的宽带干涉仪测向算法实现,利用CUDA技术对传统相关算法进行改进,使之能够适应于GPU平台并充分发挥图形处理器强大的浮点运算能力及其出色的并行执行性,进而使算法在执行速度上能获得极大提升。算法中采用向量1范数并通过插值拟合得到来波方向的精确估计,仿真结果表明,算法在满足实时性要求的同时也能够保证较高精度。相比于CPU平台,算法的GPU实现能够获得很高的时间加速比。 展开更多
关键词 宽带测向 相关干涉仪 gpu平台 统一计算设备架构 波达方向
下载PDF
一种BPNNs识别算法的医学检测泛实时性问题研究 被引量:2
2
作者 刘玉成 理查德.丁 张颖超 《计算机科学》 CSCD 北大核心 2018年第6期301-307,共7页
尿沉渣空间环境的复杂性,导致采集的有形成分图像存在较多冗余信息,提取有效的图像信息变得较为困难,进而使得识别系统需要处理的数据量十分巨大。虽然BP神经网络算法的串行版本DJ8000系统平台解决了细胞等有形成分的识别准确率问题,但... 尿沉渣空间环境的复杂性,导致采集的有形成分图像存在较多冗余信息,提取有效的图像信息变得较为困难,进而使得识别系统需要处理的数据量十分巨大。虽然BP神经网络算法的串行版本DJ8000系统平台解决了细胞等有形成分的识别准确率问题,但其不能满足尿沉渣图像医学检验的实时性要求。为此,提出了基于BP神经网络算法优化的并行处理GPU框架的系统平台。它采用并行优化框架,同步高效地对数据进行加速处理;同时,以GPU计算和测试平台为硬件系统支持,无论是在硬件指标、数据传输及总线技术还是软硬件的兼容性方面,都有助于解决算法中时常出现的负载不均衡的问题。实验数据表明,BP神经网络尿沉渣识别算法在优化并行框架的GPU系统处理平台上显示的加速比、时效比和运行时间等相关性能参数值都有所提升。相比于DJ8000系统平台,优化的AMD HD7970和NVIDIAGTX680两个并行处理GPU框架系统平台相应的加速比参数值分别是前者的10.82~21.35个和7.63~15.28个标准当量。实验数据充分说明,优化并行框架的GPU处理系统中相关的逻辑数据、地址数据和线性寻程的函数映射关系均能相互动态分配对接并优化算法架构,实现软件到硬件系统的最优比映射,最终解决由于线程间负载不均衡导致的性能瓶颈问题,从而有效地化解了医学领域实时检测中的时效性这一难题。 展开更多
关键词 BP神经网络 gpu平台 负载不均衡 并行优化 线程协调
下载PDF
二维卷积计算在CUDAGPU架构上的性能优化研究
3
作者 马龙飞 《电子世界》 2018年第2期56-57,共2页
随着高性能计算平台的发展,GPU从最初的图形图像处理领域过渡到支持通用计算领域,实践表明,原有运行于CPU平台的程序能够在GPU计算平台上得到大幅度的性能提升。二维卷积操作是图像锐化,卷积神经网络等算法的基础运算,在计算机图形学以... 随着高性能计算平台的发展,GPU从最初的图形图像处理领域过渡到支持通用计算领域,实践表明,原有运行于CPU平台的程序能够在GPU计算平台上得到大幅度的性能提升。二维卷积操作是图像锐化,卷积神经网络等算法的基础运算,在计算机图形学以及人工神经网络等领域有着广泛应用。因此,二维卷积操作的运行性能有着重要的研究价值,本文着重研究在GPU平台上使用CUDA编程模型对二维卷积计算进行性能优化的关键计算。 展开更多
关键词 二维卷积计算 gpu平台 性能优化
下载PDF
GPU数据库OLAP优化技术研究
4
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合CPU-gpu平台 gpu加速OLAP OLAP gpu内存 gpu量化处理模型
下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述
5
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与gpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
CPU-GPU平台上的高速MPSK并行解调算法
6
作者 吴涛 闫迪 +1 位作者 刘燕都 赵江 《现代电子技术》 北大核心 2019年第13期9-14,共6页
针对多进制数字相位调制信号特点,采用数据并行方法,将连续信号流分解为多个信号块以实现并行处理。研究一种基于三维迭代搜索的载波相位-码元相位联合估计算法,在本地构造载波信号的搜索库,利用分段码元相关法从搜索库中挑选出与待处... 针对多进制数字相位调制信号特点,采用数据并行方法,将连续信号流分解为多个信号块以实现并行处理。研究一种基于三维迭代搜索的载波相位-码元相位联合估计算法,在本地构造载波信号的搜索库,利用分段码元相关法从搜索库中挑选出与待处理信号相似度最高的载波信号作为同步载波。通过迭代搜索方法逐步缩小搜索库,降低计算量。仿真结果表明,与克拉美-罗下限相比,解调损失小于0.1dB。在惠普工作站与英伟达K20平台上搭建验证系统,系统的处理速率可达625.9MB/s。 展开更多
关键词 CPU-gpu平台 高速MPSK 并行解调 相位模糊 三维迭代搜索 数据并行
下载PDF
基于CPU/GPU异构平台的全波形反演及其实用化分析 被引量:12
7
作者 张猛 王华忠 +3 位作者 任浩然 冯波 隋志强 王延光 《石油物探》 EI CSCD 北大核心 2014年第4期461-467,共7页
全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实... 全波形反演(Full Waveform Inversion,FWI)在理论上是当前精度最高的速度估计方法。通过分析FWI的计算特点,使用图形处理器(Graphic Processing Unit,简称GPU)进行算法加速,形成了基于CPU/GPU异构平台的时空域声波方程全波形反演算法实现流程。理论模型测试结果表明,该算法不仅对速度模型具有高精度刻画能力,而且计算效率比基于CPU集群的FWI算法大幅提升。对胜利探区某陆上区块实际地震资料进行全波形速度反演试处理,取得了初步的应用效果。在此基础上,讨论了FWI对实际地震资料质量的要求,就FWI在陆上地震资料的生产性应用提出了相应的策略。 展开更多
关键词 地震反问题 全波形反演 速度估计 CPU gpu异构平台 陆上地震资料
下载PDF
逆时深度偏移成像方法及其在CPU/GPU异构平台上的实现 被引量:9
8
作者 赵磊 王华忠 刘守伟 《岩性油气藏》 CSCD 2010年第F07期36-41,共6页
逆时深度偏移的优点可以用来对全波场逆时外推,使得来自高角度反射界面的反射波。甚至来自超过90°反射界面的反射波精确成像。逆时深度偏移涉及到2个重要问题:精确且高效的逆时波场外推算法及反射波的成像条件。文中提出了修改... 逆时深度偏移的优点可以用来对全波场逆时外推,使得来自高角度反射界面的反射波。甚至来自超过90°反射界面的反射波精确成像。逆时深度偏移涉及到2个重要问题:精确且高效的逆时波场外推算法及反射波的成像条件。文中提出了修改的激励时间成像条件:在反射界面处,反射波出发时等于入射波到达时。认为用反射界面上某成像点与法线方向对称的波矢量所定义的波场进行相关成像是完善的成像条件。边界条件的处理借鉴Robert提出的随机边界,这可以提高波场外推算法的并行性。关于存储,认为牺牲一次正向波场外推,先把波场正传到最大时间,然后与观测波场同时逆时外推并成像,在GPU/CPU计算机平台上是比较合适的方案,这样就彻底抛弃了正向外推波场的存储。数值试验验证了分析的正确性。 展开更多
关键词 逆时偏移 高阶有限差分 gpu/CPU平台 随机边界条件
下载PDF
电力系统全纯嵌入潮流的并行计算
9
作者 李雪 高翔 +2 位作者 姜涛 王长江 李国庆 《电工技术学报》 EI CSCD 北大核心 2024年第18期5839-5854,共16页
潮流计算是电力系统规划和运行的基础,全纯嵌入潮流计算方法(HELM)因无需初值且具有全局收敛性,因而在电力系统潮流计算中受到极大关注。然而,采用HELM求解大规模电力系统潮流时,高维幂级数系数线性方程组求解和节点电压的幂级数有理的... 潮流计算是电力系统规划和运行的基础,全纯嵌入潮流计算方法(HELM)因无需初值且具有全局收敛性,因而在电力系统潮流计算中受到极大关注。然而,采用HELM求解大规模电力系统潮流时,高维幂级数系数线性方程组求解和节点电压的幂级数有理的逼近计算量大、耗时久,是制约HELM计算效率提升的关键。为此,该文提出一种基于稳定双正交共轭梯度(BICGSTAB)和Aitken差分的电力系统全纯嵌入潮流并行计算方法,该方法首先采用近似逆预处理的BICGSTAB法并行迭代求解HELM的高维幂级数系数线性方程组,以快速计算节点电压的各阶幂级数系数;其次,借助Aitken差分法实现所有节点电压幂级数有理逼近值的并行计算;然后,基于CPU-GPU异构平台设计所提算法的并行流程,以实现大规模电力系统潮流的快速求解;最后,通过节点在1 354~13 802的不同规模测试系统对所提方法进行分析、验证。结果表明,所提电力系统潮流全纯嵌入并行计算方法可实现电力系统潮流的准确、快速求解。 展开更多
关键词 全纯嵌入法 潮流计算 Aitken差分法 CPU-gpu异构运算平台 预处理器
下载PDF
基于GPU的杆系离散元并行算法在大型工程结构中的应用 被引量:3
10
作者 叶继红 王佳 《工程力学》 EI CSCD 北大核心 2021年第2期1-7,共7页
杆系DEM(离散元,discrete element method)是求解结构强非线性问题的有效方法,但随着结构数值计算规模的扩大,杆系DEM所需要的计算时间也随之急剧膨胀。为了提高杆系DEM的计算效率,该研究提出单元级并行、节点级并行的计算方法,基于CPU-... 杆系DEM(离散元,discrete element method)是求解结构强非线性问题的有效方法,但随着结构数值计算规模的扩大,杆系DEM所需要的计算时间也随之急剧膨胀。为了提高杆系DEM的计算效率,该研究提出单元级并行、节点级并行的计算方法,基于CPU-GPU异构平台,建构了杆系DEM并行计算框架,编制了相应的几何非线性计算程序,实现了杆系DEM的GPU多线程并行计算。对杆系DEM并行算法的设计主要包括数据存储方式、GPU线程计算模式、节点物理量集成方式以及数据传输优化。最后采用大型三维框架、球壳结构模型分别验证了杆系DEM并行算法的计算精度,并对杆系DEM并行算法进行了计算性能测试,测试结果表明杆系DEM并行算法加速比最高可达12.7倍。 展开更多
关键词 离散单元法 杆系结构 几何非线性 gpu并行计算 CPU-gpu异构平台
下载PDF
基于预处理BICGSTAB法的电力系统潮流并行计算方法 被引量:4
11
作者 宋晓喆 魏国 +3 位作者 李雪 王长江 孙福寿 李振元 《电力系统保护与控制》 EI CSCD 北大核心 2020年第20期18-28,共11页
为实现大规模电力系统潮流的准确、快速求解,以非精确牛顿法为基础,提出一种基于CPU-GPU异构平台的电力系统潮流并行计算方法。修正方程组的求解是牛拉法潮流计算中最为耗时的部分,提升修正方程组的求解效率可有效提升潮流计算效率。为... 为实现大规模电力系统潮流的准确、快速求解,以非精确牛顿法为基础,提出一种基于CPU-GPU异构平台的电力系统潮流并行计算方法。修正方程组的求解是牛拉法潮流计算中最为耗时的部分,提升修正方程组的求解效率可有效提升潮流计算效率。为此,根据雅可比矩阵的不对称不定性,采用稳定双正交共轭梯度(bi-conjugate gradient stabilized,BICGSTAB)法进行修正方程组的求解。进一步,为改善BICGSTAB法的收敛性,根据雅可比矩阵的稀疏性和类对角占优性,提出一种改进PPAT(Preconditioner with sparsity Pattern of AT,PPAT)预处理器和改进Jacobi预处理器相结合的两阶段预处理方法,并对雅可比矩阵进行预处理,提升BICGSTAB法的收敛性能。然后,将上述潮流算法移植到CPU-GPU异构平台,实现电力系统潮流的并行求解。最后,通过不同测试系统算例对所提方法进行验证、分析。结果表明,所提潮流并行计算方法可实现电力系统潮流的准确、快速求解。 展开更多
关键词 潮流计算 非精确牛顿法 雅可比矩阵 BICGSTAB法 预处理器 CPU-gpu异构平台
下载PDF
多Stream并行DAG任务映射策略
12
作者 王学成 马金全 李建军 《太赫兹科学与电子信息学报》 北大核心 2019年第2期299-304,314,共7页
伴随大数据量的应用任务在中央处理器(CPU)与图形处理器(GPU)组成的异构处理平台上的部署日益广泛,如何高效利用GPU硬件中的并行资源,成为亟待解决的问题。通过对单GPU任务映射策略进行研究,提出多Stream有向无环图(MS-DAG)任务映射策... 伴随大数据量的应用任务在中央处理器(CPU)与图形处理器(GPU)组成的异构处理平台上的部署日益广泛,如何高效利用GPU硬件中的并行资源,成为亟待解决的问题。通过对单GPU任务映射策略进行研究,提出多Stream有向无环图(MS-DAG)任务映射策略。通过分析DAG图中的节点依赖关系,根据节点依赖关系的不同,划分合理的并行分支,利用多Stream流水线并行的方式,实现适合GPU硬件特点的任务映射策略。通过与HEFT在不同条件下的性能对比,可以看出:当HEFT算法中的各处理器性能不一致时,MS-DAG任务映射策略的任务映射效率相比HEFT算法有约10%的提升;当HEFT算法中的各处理器性能一致时,MS-DAG任务映射策略的任务映射效率相比HEFT算法有30%的提升。 展开更多
关键词 CPU+gpu异构平台 任务映射 有向无环图 并行计算
下载PDF
向量分组聚集计算技术研究
13
作者 张宇 张延松 《计算机工程与应用》 CSCD 北大核心 2021年第11期84-94,共11页
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构... 分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。 展开更多
关键词 CPU-gpu异构计算平台 向量分组聚集 分组向量索引 数据密集型负载
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部