期刊文献+
共找到341篇文章
< 1 2 18 >
每页显示 20 50 100
关于矩阵乘法的一个改进算法的时间复杂度 被引量:4
1
作者 张振祥 张振祥 《Journal of Mathematical Research and Exposition》 CSCD 1999年第4期716-718,共3页
两个n阶非负整数方阵相乘,常规算法的时间复杂度为O(n3),文献[1]提出一个“运算次数”为O(n2)的“最佳”算法,文献[2]对此算法做了进一步研究,提出三种改进策略.本文根据算法分析理论,得出改进后的算法的时间复... 两个n阶非负整数方阵相乘,常规算法的时间复杂度为O(n3),文献[1]提出一个“运算次数”为O(n2)的“最佳”算法,文献[2]对此算法做了进一步研究,提出三种改进策略.本文根据算法分析理论,得出改进后的算法的时间复杂度仍不低于O(n3logn),因而其阶仍高于常规算法的运算量的阶. 展开更多
关键词 矩阵 乘法 算法 比特运算次数 时间复杂度
下载PDF
The Better Accuracy of Strassen-Winograd Algorithms (FastMMW)
2
作者 Paolo D’Alberto 《Advances in Linear Algebra & Matrix Theory》 2014年第1期9-39,共31页
The first error theory and bounds for Fast Matrix Multiplication based on the Strassen-Winograd algorithms (FastMMW) were formulated in the 70s. The theory introduces the concept, which is now known as weakly-stable e... The first error theory and bounds for Fast Matrix Multiplication based on the Strassen-Winograd algorithms (FastMMW) were formulated in the 70s. The theory introduces the concept, which is now known as weakly-stable error analysis, where the error bounds must use matrix norms instead of component-wise bounds. While the theory debunked the instability myth by using matrix scaling and a clean and simple analysis, its bounds are available only as properties of the whole matrices, which are too coarse, pessimistic, at times used to suggest instability, and are not used for algorithm optimization. We build on top of the original theory in order to reformulate the bounds: we show that tighter norm-wise and component-wise bounds are achievable by orthogonal algorithm optimizations. To achieve even better discrimination and circumvent the use of norm bounds, we develop an error theory by using communication and statistics concepts: we investigate lower and upper bounds, we estimate the practical bounds, and we investigate the algorithmic nature of the error for the class of random matrices. The theory and tools are not limited to random matrices and we can foresee further investigations to different matrix classes and algorithms. We propose new and more accurate algorithms. We show that we can improve theoretically and empirically the maximum absolute error of any FastMMW algorithm by 10% - 20% per recursion (we reduce the error by half for 4 recursions). Our theory and practice, in turn, will provide a kick start for the development of hybrid algorithms as accurate as the vendor GEMM implementation, and in certain cases even more accurate for random matrices. 展开更多
关键词 matrix multiplications ALGORITHMS Performance ERROR Analysis
下载PDF
广义初等变换及矩阵乘法的简化 被引量:1
3
作者 孙卓明 《上饶师范学院学报》 2006年第6期15-19,共5页
为了简化矩阵乘法的运算,本文对初等变换的概念进行了推广,提出了广义初等变换的概念,给出了用广义初等变换完成矩阵乘法运算的方法。彻底解决了矩阵乘法计算的简化问题。
关键词 初等变换 广义初等变换 广义初等变换矩阵 矩阵乘法
下载PDF
可重构计算最优编译器并行计算程序编译方法 被引量:1
4
作者 肖宇 王建业 张伟 《探测与控制学报》 CSCD 北大核心 2011年第2期51-54,59,共5页
针对在现场可编程门阵列(FPGA)的并行计算中提升开发效率和降低编程难度的问题,提出了以高级语言对并行算法进行编程,使用可重构计算最优编译器(ROCCC)对代码进行转换作为硬件加速的方法。该方法在论述编译系统架构的基础上,提出基于RO... 针对在现场可编程门阵列(FPGA)的并行计算中提升开发效率和降低编程难度的问题,提出了以高级语言对并行算法进行编程,使用可重构计算最优编译器(ROCCC)对代码进行转换作为硬件加速的方法。该方法在论述编译系统架构的基础上,提出基于ROCCC的FPGA并行计算设计流程,最后以矩阵相乘为实例,对方法的可行性进行了仿真验证,获得同Altera厂商IP核相近的性能。仿真表明:该法具有较高可行性,能够缩短开发周期,降低编程难度,为其他领域的硬件开发者提供了一种新的设计思路。 展开更多
关键词 并行计算 现场可编程门阵列 矩阵相乘 可重构计算最优编译器 程序编译
下载PDF
可验证安全外包矩阵计算及其应用 被引量:23
5
作者 胡杏 裴定一 +1 位作者 唐春明 Duncan S.WONG 《中国科学:信息科学》 CSCD 2013年第7期842-852,共11页
矩阵计算在科学计算和密码学领域中都有着重要的作用.许多密码协议、科学和数值计算问题都涉及到了矩阵计算.然而,对那些计算能力有限的用户来说,独立完成矩阵计算并不是件容易的事情.云计算拥有强大的计算资源,它使得用户的计算能力不... 矩阵计算在科学计算和密码学领域中都有着重要的作用.许多密码协议、科学和数值计算问题都涉及到了矩阵计算.然而,对那些计算能力有限的用户来说,独立完成矩阵计算并不是件容易的事情.云计算拥有强大的计算资源,它使得用户的计算能力不再受限于他们的资源约束型设备,他们可以外包工作量给云.本文围绕矩阵计算展开研究,针对矩阵乘积、矩阵的行列式以及矩阵的逆这3种运算,分别设计了切实可行的可验证安全外包协议.与已有的关于这3种可验证外包计算的协议相比,我们的协议在效率和安全性方面都有了改进,而且我们的协议不需要任何的密码学假设.本文中,还为我们的协议给出两个具体应用,即为"大型线性方程组的求解"以及"基于纠错码的密码体制的实现"这两个问题分别构造了高效的可验证外包计算协议. 展开更多
关键词 云计算 外包计算 矩阵乘积 矩阵行列式 逆矩阵
原文传递
基于FPGA的实时双精度浮点矩阵乘法器设计 被引量:21
6
作者 田翔 周凡 +2 位作者 陈耀武 刘莉 陈耀 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第9期1611-1615,共5页
设计了一个并行结构双精度浮点矩阵乘法器以提高矩阵乘法的计算性能,并在Xilinx Virtex-4 SX55现场可编程门阵列(FPGA)上完成了方案的实现.乘法器中的处理单元采用阵列结构,在单个FPGA芯片中可集成25个处理单元,峰值计算性能达到3000 MF... 设计了一个并行结构双精度浮点矩阵乘法器以提高矩阵乘法的计算性能,并在Xilinx Virtex-4 SX55现场可编程门阵列(FPGA)上完成了方案的实现.乘法器中的处理单元采用阵列结构,在单个FPGA芯片中可集成25个处理单元,峰值计算性能达到3000 MFLOPS.针对工程实际中大量存在的包含稀疏矩阵的乘法问题,增加了预处理模块以避免零元素块参与计算,从而缩短了计算时间.通过对不同维数的稠密矩阵乘法以及稀疏矩阵乘法实验结果的分析,证实了本设计达到了较高的计算性能. 展开更多
关键词 矩阵乘法 现场可编程门阵列 双精度浮点矩阵 并行结构 稀疏矩阵
下载PDF
基于相位相关和重采样的亚像素图像配准算法 被引量:17
7
作者 周武 胡跃明 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第10期68-73,78,共7页
为了实现高精度的图像配准,提出了一种基于相位相关和重采样的亚像素图像配准算法.首先基于相位相关实现像素级的粗定位,然后在粗定位点邻域范围内利用矩阵乘法的离散傅里叶变换(DFT)高倍数重采样,并基于相位相关作重采样区域的像素级定... 为了实现高精度的图像配准,提出了一种基于相位相关和重采样的亚像素图像配准算法.首先基于相位相关实现像素级的粗定位,然后在粗定位点邻域范围内利用矩阵乘法的离散傅里叶变换(DFT)高倍数重采样,并基于相位相关作重采样区域的像素级定位,实现亚像素级的细定位.文中从理论上证明了基于矩阵乘法的DFT实现部分区域重采样的方法与基于零填充重采样的方法在计算精度上具有等效性.实验结果表明,文中算法的配准精度、计算效率和抗噪性优于基于交互相关和扩展相位相关的亚像素配准算法. 展开更多
关键词 相位相关 重采样 亚像素 配准 矩阵乘法
下载PDF
分布式系统上并行矩阵乘法 被引量:11
8
作者 吴建平 迟学斌 《计算数学》 CSCD 北大核心 1999年第1期99-108,共10页
By begiwhng with the Cannon algorithm[1] and the double- direct ion dat amoving algoritlun[2] for processors arranged as a 2-D square mesh, we improvethese two algorithms to general 2-D mesh in this paper. We also con... By begiwhng with the Cannon algorithm[1] and the double- direct ion dat amoving algoritlun[2] for processors arranged as a 2-D square mesh, we improvethese two algorithms to general 2-D mesh in this paper. We also consider theapplication of our algorithms in those operations which are similar to matrix multiplication. Using MPI parallel programming environment, we have obtained satisfactory performance on Dawning-1000. 展开更多
关键词 矩阵乘法 二维网格 MPI 分布式系统 并行计算
原文传递
面向多核向量处理器的矩阵乘法向量化方法 被引量:9
9
作者 刘仲 田希 《计算机学报》 EI CSCD 北大核心 2018年第10期2251-2264,共14页
稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值... 稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值由k次向量乘累加完成,每次计算都是先将A矩阵第i行的第j个元素扩展为值相同的向量,再与B矩阵的第j行向量进行乘累加计算,每一次的向量乘累加计算是在各个VPE上并行进行,计算的源数据和结果数据均保存在VPE的本地寄存器上,每个计算结果涉及的乘累加计算均在同一个VPE上完成,并且A、B、C三个矩阵的数据均是按行顺序读取,访存效率高,在k循环结束时,同时完成C矩阵第i行元素值的计算.该方法能充分开发向量处理器的标量、向量协同数据加载能力,有效减少对DDR的存储带宽需求,能够避免低效的对乘数矩阵列向量数据的访问和各个VPE间的浮点归约求和计算,取得最优的内核计算性能;将处理器的一级数据缓存和阵列存储配置为SRAM访问模式,能够避免由于Cache数据不命中而导致的存储访问延迟,提高核心计算访问一级数据缓存和阵列存储的效率,采用组播DMA传输矩阵数据,能够显著提高从DDR读取矩阵数据的效率;提出依据向量处理单元VPE数量、VPE的FMAC运算单元数量、向量存储器的容量和矩阵元素的数据类型等向量处理器体系结构特点设计最优的核心子块矩阵分块参数设计方法,能够充分开发向量处理器的多核间数据并行、核内的多VPE间的向量SIMD并行、VPE内的多个FMAC单元并行、VPE内的标、向量指令级并行等多级并行性,并根据FMAC指令延迟槽进行完全循环展开,让内核始终以峰值速度运行;提出基于两级DMA双缓冲数据搬移策略,优化和平滑多级存储结构间的数据传输,使得DMA的数据搬移时间完全重叠于内核的计算� 展开更多
关键词 多核向量处理器 高性能计算 矩阵乘法 分块矩阵 向量化
下载PDF
矩阵乘积的高效可验证安全外包计算 被引量:9
10
作者 武朵朵 来齐齐 杨波 《密码学报》 CSCD 2017年第4期322-332,共11页
云外包作为近年来各科研团队热点研究课题,各类复杂的科学计算问题与云外包课题的结合也备受关注.基于各类科学计算,矩阵的高效外包计算是云计算和大数据背景下的一个非常有意义的研究方向.通过分析得知,目前的矩阵外包计算协议还不能... 云外包作为近年来各科研团队热点研究课题,各类复杂的科学计算问题与云外包课题的结合也备受关注.基于各类科学计算,矩阵的高效外包计算是云计算和大数据背景下的一个非常有意义的研究方向.通过分析得知,目前的矩阵外包计算协议还不能高效的实现所有矩阵之间的计算,尤其是任意非方阵之间的乘积运算.如何在不泄露用户信息的情况下,设计出高效可验证安全的矩阵乘积外包协议是一个有意义的研究问题.为此,首先利用几何学中的填补法和分割法将矩阵进行分块处理,并结合置换函数和可逆矩阵相乘的处理操作,设计出一个高效可验证且安全的矩阵乘积外包协议.其次,对提出新的矩阵乘积外包协议给出正确性、合理性、隐私性、可验证性、高效性分析及证明.并重点分析和证明本文所提出的新的高效验证方式.最后,与近几年相关矩阵运算的外包协议进行对比,我们协议不需要任何的密码学假设,合理利用盲化技术实现矩阵外包计算,且满足任意矩阵之间的乘积外包计算. 展开更多
关键词 密码学 外包计算 矩阵运算 矩阵乘积 盲化技术
下载PDF
基于Hadoop的大矩阵乘法处理方法 被引量:8
11
作者 孙远帅 陈垚 +1 位作者 官新均 林琛 《计算机应用》 CSCD 北大核心 2013年第12期3339-3344,3358,共7页
目前的矩阵乘法算法无法处理大规模和超大规模的矩阵,而随着MapReduce编程框架的提出,并行处理矩阵乘法成为解决大矩阵运算的主要手段。总结了矩阵乘法在MapReduce编程模型上的并行实现方法,并提出了实现高性能大矩阵乘法的策略———... 目前的矩阵乘法算法无法处理大规模和超大规模的矩阵,而随着MapReduce编程框架的提出,并行处理矩阵乘法成为解决大矩阵运算的主要手段。总结了矩阵乘法在MapReduce编程模型上的并行实现方法,并提出了实现高性能大矩阵乘法的策略———折中单个工作节点的计算量和需要网络传输的数据量。实验证明,并行实现算法在大矩阵上明显优于传统的单机算法,而且随着集群中节点数目的增多,并行算法会表现出更好的性能。 展开更多
关键词 大矩阵 矩阵乘法 矩阵运算 MAPREDUCE HADOOP 并行计算 海量数据
下载PDF
基于OpenCL的FPGA设计优化方法研究 被引量:8
12
作者 范兴山 彭军 黄乐天 《电子技术应用》 北大核心 2014年第1期16-19,共4页
FPGA因其强大的运算能力成为了众多高性能应用的最佳选择,但其传统的开发方法存在门槛高、周期长等众多不足。OpenCL作为跨平台的开发语言,为FPGA提供了一种全新的开发方法。此方法开发周期短、抽象层次高、可移植性强,弥补了传统开发... FPGA因其强大的运算能力成为了众多高性能应用的最佳选择,但其传统的开发方法存在门槛高、周期长等众多不足。OpenCL作为跨平台的开发语言,为FPGA提供了一种全新的开发方法。此方法开发周期短、抽象层次高、可移植性强,弥补了传统开发方式的不足。介绍了OpenCL开发FPGA的相关优化方法,以矩阵乘法和QR分解为例,深入分析了各种优化方法的优缺点及适用情况。 展开更多
关键词 FPGA OPENCL 矩阵乘法 QR分解
下载PDF
面向龙芯3A体系结构的BLAS库优化 被引量:8
13
作者 何颂颂 顾乃杰 +1 位作者 朱海涛 刘燕君 《小型微型计算机系统》 CSCD 北大核心 2012年第3期571-575,共5页
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替... 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多. 展开更多
关键词 矩阵乘法 BLAS 任务划分 LINPACK
下载PDF
基于FPGA的全流水双精度浮点矩阵乘法器设计 被引量:8
14
作者 刘沛华 鲁华祥 +1 位作者 龚国良 刘文鹏 《智能系统学报》 北大核心 2012年第4期302-306,共5页
在数字通信、图像处理等应用领域中需要用到大量的矩阵乘法运算,并且它的计算性能是影响系统性能的关键因素.设计了一个全流水结构的并行双精度浮点矩阵乘法器以提高计算性能,并在Xilinx Virtex-5 LX155现场可编程门阵列(FPGA)上完成了... 在数字通信、图像处理等应用领域中需要用到大量的矩阵乘法运算,并且它的计算性能是影响系统性能的关键因素.设计了一个全流水结构的并行双精度浮点矩阵乘法器以提高计算性能,并在Xilinx Virtex-5 LX155现场可编程门阵列(FPGA)上完成了方案的实现.乘法器中处理单元(PE)按阵列形式排列,在一个FPGA芯片上可集成10个PE单元实现并行计算.为了提高工作频率,PE单元采用流水线结构,并运用C-slow时序重排技术解决了环路流水线上"数据相关冲突"的问题.仿真结果表明,该乘法器的峰值计算性能可达到5 000 MFLOPS.此外,对不同维数的矩阵乘法进行了实验,其结果也证实了该设计达到了较高的计算性能. 展开更多
关键词 矩阵乘法 现场可编程门阵列(FPGA) 环路流水线 C-slow时序重排技术 乘法器设计
下载PDF
大型结构动力分析的并行子空间迭代法 被引量:5
15
作者 李强 邹经湘 黄文虎 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1998年第1期118-120,共3页
简要讨论了大型结构动力分析的子空间迭代法的主要工作量分布,对该方法并行计算的可行性进行了分析,并介绍了具体实施步骤,用示例验证了该方法的有效性。
关键词 并行计算 矩阵乘 结构动力学 子空间逆代法
下载PDF
稀疏矩阵相乘的一个改进算法 被引量:6
16
作者 蒋川群 杜奕 《计算机工程与应用》 CSCD 北大核心 2009年第19期55-57,共3页
稀疏矩阵的乘法运算可用于解决许多实际的应用问题。提出一种新颖的稀疏矩阵相乘算法,算法实现中将计算单元由单个元素扩展至行向量,避免了矩阵的转置,减少了扫描次数。利用三元组和少量的额外辅助空间实现稀疏矩阵的相乘。实验结果表... 稀疏矩阵的乘法运算可用于解决许多实际的应用问题。提出一种新颖的稀疏矩阵相乘算法,算法实现中将计算单元由单个元素扩展至行向量,避免了矩阵的转置,减少了扫描次数。利用三元组和少量的额外辅助空间实现稀疏矩阵的相乘。实验结果表明了该算法的有效性。 展开更多
关键词 稀疏矩阵 三元组 矩阵乘法 行向量
下载PDF
GPU上的矩阵乘法的设计与实现 被引量:7
17
作者 梁娟娟 任开新 +1 位作者 郭利财 刘燕君 《计算机系统应用》 2011年第1期178-181,149,共5页
矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX 260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法... 矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX 260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。 展开更多
关键词 矩阵乘法 GPU CUDA
下载PDF
动车段(所)集中控制系统作业进路方案冲突检测的方法 被引量:7
18
作者 曹桂均 闫石 《中国铁道科学》 EI CAS CSCD 北大核心 2016年第2期106-113,共8页
动车段(所)集中控制系统按照动车段(所)接发车和调车等作业计划的时间顺序和优先级确定作业计划的执行顺序,并根据作业计划生成对应的进路方案及其进路指令集合;通过对各作业计划的进路方案进行冲突检测,选择合理的进路方案,按照作业计... 动车段(所)集中控制系统按照动车段(所)接发车和调车等作业计划的时间顺序和优先级确定作业计划的执行顺序,并根据作业计划生成对应的进路方案及其进路指令集合;通过对各作业计划的进路方案进行冲突检测,选择合理的进路方案,按照作业计划的执行顺序择机下达进路指令,并监视作业计划的执行情况。对于2个执行时间重叠(存在时间上冲突)的作业计划,采用逐一遍历的方法生成冲突矩阵,据此对这2个作业计划的进路方案进行空间冲突检测。对于3个存在时间上冲突的作业计划,先采用逐一遍历的方法生成冲突矩阵,然后再采用矩阵乘法对3个作业计划的进路方案进行空间冲突检测;对于3个及以上存在时间上冲突的作业计划,还可以通过作业计划执行时间调整与进路方案调整相结合的方式,排解各作业计划的进路方案间的冲突;采用C++语言编写了作业进路冲突检测程序。实际应用结果验证了该方法的正确性和实用性。 展开更多
关键词 作业进路 冲突检测 矩阵乘法 作业计划 调度集中 集中控制系统 动车段
下载PDF
数学文化融入线性代数教学的探索 被引量:11
19
作者 郝志峰 《数学教育学报》 北大核心 2011年第5期8-8,共1页
传统线性代数的教学,对于同学们来说,是有些"抽象难懂"的形象.作为从事线性代数教学的工作者,我在教学过程中也始终思考:如何让线性代数也有一个美丽的心灵?与学生有一个亲密的接触?为此,我们提出了不少认识线性代数、触摸线性代数... 传统线性代数的教学,对于同学们来说,是有些"抽象难懂"的形象.作为从事线性代数教学的工作者,我在教学过程中也始终思考:如何让线性代数也有一个美丽的心灵?与学生有一个亲密的接触?为此,我们提出了不少认识线性代数、触摸线性代数,让线性代数走入大众的尝试.比如,数学建模的角度,抽象思维形象化的角度等,这在我们之前的几版《线性代数》有了一部分的体现. 展开更多
关键词 矩阵乘法 数学文化 教学改革 线性代数
下载PDF
基于对角划分的矩阵乘并行算法 被引量:6
20
作者 张学波 李晓梅 《计算机工程》 CAS CSCD 北大核心 2004年第6期42-43,共2页
提出了一种新的基于对角划分的矩阵乘并行算法,它在以往行列划分策略的基础上,采用基于对角划分的策略。数值试验表明该算法具有较高的加速比和并行效率。
关键词 矩阵乘 并行算法 加速比
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部