矩阵形状无关的并行编译优化被引量：2

Shape-oblivious Parallel Compiler Optimization for Matrix Computations

下载PDF

导出

摘要矩阵计算是科学计算中的重要应用,传统编译优化虽然能够大大提升规则矩阵乘法的性能,但对于不规则的矩阵乘法,即使加入编译优化也仅能获得领域专家1%的性能.提出基于模式的矩阵乘法编译优化,通过对矩阵乘法计算模式制定对应的优化策略,使形状规则和形状不规则的矩阵乘法都能取得良好的性能.在优化策略中引入数据布局重组优化是缩小不规则与规则矩阵乘法性能差距的关键,通过数据布局重组能够实现对不规则矩阵中数据元素的连续访问,从而提高数据的局部性.实验表明,基于模式的编译优化方法能够使规则和不规则矩阵乘法运算性能分别比商用编译器(icc)提高34%和43倍,且该方法具有良好的可扩展性. Matrix computations play an important role in scientific computing. Traditional compiler optimizations can greatly improve the performance of the general matrix multiplication,however,for the special matrix multiplication（such as triangle matrix,banded matrix） the performance keeps still very poor even with deep compiler optimizations,i. e.,only 1% of the domain experts＇ handtuned performance. In this paper,we present a pattern-based compiler optimization methodology,which regards the matrix multiply as a pattern and defines a specialized optimization strategy for the pattern,which works both for general and special matrix multiplication. The key step of the optimization strategy is data layout re-organization,coupled with loop optimizations,i. e.,loop tiling,etc.Data layout optimization re-organizes the matrix data according to the memory access order to improve data locality. Experimental results show that our Pattern-based Compiler Optimization achieves near-peak performance for both general and special matrix multiplication,with 34% and 43X speedup over Intel＇s compiler（icc）,and our approach exhibits good scalability.

作者邹燕燕安虹崔慧敏周军蕊

机构地区中国科学技术大学计算机科学与技术学院中国科学院计算机系统结构国家重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2014年第7期1518-1522,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60970023 61202055 61100011)资助国家"八六三"高技术研究发展计划项目(2012AA010902 2012AA010901)资助国家"九七三"重点基础研究发展计划项目(2011CB302501)资助

关键词矩阵乘法编译优化数据布局重组数据局部性可扩展性 matrix multiplication compiler optimization data layout re-organization data locality scalability

分类号 TP331 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1朱海涛,李玲,陈云霁,钱诚.一种用于通用处理器结构优化的矩阵乘法性能模型[J].小型微型计算机系统,2012,33(5):981-986. 被引量：2
2董春丽,韩林,赵荣彩.并行编译中一种线性数据和计算划分算法[J].计算机工程,2006,32(24):26-28. 被引量：5
3鹿中龙,钟诚,黄华林.多核计算机上非递归并行计算矩阵乘积[J].小型微型计算机系统,2011,32(5):860-866. 被引量：5
4王其刚,安虹,徐光,周丽萍,汪芳.流处理器结构上数据并行类应用的开发和评估[J].小型微型计算机系统,2008,29(9):1698-1703. 被引量：1
5陆平静,王正华,车永刚.结合模型和迭代编译优化矩阵相乘程序[J].计算机工程与科学,2009,31(A01):206-209. 被引量：1

二级参考文献34

1陈国良.并行算法的可扩放性分析[J].小型微型计算机系统,1995,16(2):10-16. 被引量：12
2Whaley R C, Petitet A, Dongarra J J. Automated Empirical Optimization of Software and the ATLAS Project [J].Parallel Computing, 2001,27(1-2) : 3-35. 被引量：1
3Bilmes J, Asanovie K, et al. Optimizing Matrix Multiply Using PHiPAC: A Portable, High-Performance, ANSI C Cod ing Methodology[C]//Proc of Int'l Conf on Supereomputing, 1997:340-347. 被引量：1
4Yotov K, Li Xiaoming, et al. A Comparison of Empirical and Model-driven Optimization[C]//Proc of the ACM SIGPLAN'03 C.onf on Programming Language Design and Implementation, 2003:63-76. 被引量：1
5Panda P R,Nakamura H. Augmenting Loop Tiling with Data Alignment for Improved Cache Performance[J]. IEEE Trans on Computers, 1999, 48(2) :142-149. 被引量：1
6Li Zhiyuan, Song Yonghong. Automatic Tiling of Iterative Steneil Loops[J]. ACM Trans on Programming Languages and Systems, 2004,26 (6):975-1028. 被引量：1
7Holland J H. Adaptation in Natural and Artificial Systems [M]. University of Michigan Press, 1975. 被引量：1
8Dean J, Hicks J E, Waldspurger C A, et al. Chrysos. Profileme: Hardware Support for Instruction-Level Profiling on Out-of-Order Processors[C]//Proc of Int'l Syrup on Microarchitecture, 1997: 292-302. 被引量：1
9Browne S, Dongarra J, et al. A Portable Programming Interface for Performance Evaluation on Modem Processors[J]. International Journal of High Performance Computing Appli cations, 2000,14(3) : 189-204. 被引量：1
10Gunnels J A,Henry G M,Van de Geijn R A,et al.A family ofhigh-performance matrix multiplication algorithms[C].In Pro-ceedings of the International Conference on Computational Science(ICCS'01),Part I,V.N.Alexandrov,J.J.Dongarra,B.A.Juliano,R.S.Renner,and C.K.Tan,Eds.Lecture Notes inComputer Science,Springer-Verlag,2073:51-60. 被引量：1

共引文献9

1龚雪容,陆林生,赵荣彩.分布内存系统中流水并行代码的自动生成[J].计算机工程,2008,34(11):77-79. 被引量：4
2闫昭,刘磊.基于多线程LL(1)分析表自动生成的并行算法[J].吉林大学学报（信息科学版）,2009,27(1):85-89. 被引量：1
3吴悦,雷超付,杨洪斌.选择性循环的并行方法[J].计算机工程,2010,36(9):35-37. 被引量：1
4闫昭,刘磊.基于任务量划分的紧嵌套循环自动并行化方法[J].吉林大学学报（理学版）,2010,48(4):631-635.
5蔡德霞,钟诚,韦兴柳,林孔升.多核系统上任意2序列公共元素的并行查找[J].合肥工业大学学报（自然科学版）,2012,35(2):172-175.
6周本海,乔建忠,林树宽.多核处理平台上任务图模型的并行调度策略研究[J].小型微型计算机系统,2012,33(11):2485-2492. 被引量：2
7李晶皎,陆振林,李海鹏,王爱侠,王骄.基于复制分治策略的嵌入式MPSoC平台软件并行化[J].小型微型计算机系统,2013,34(7):1693-1698.
8陈绪伟,钟诚.全局基因调控网络构建CPU/GPU并行算法[J].小型微型计算机系统,2015,36(2):234-239.
9姜浩,杜琦,郭敏,全哲,左克,王锋,杨灿群.面向ARMv8 64位多核处理器的QGEMM设计与实现[J].计算机学报,2017,40(9):2018-2029. 被引量：3

同被引文献8

1袁娥,张云泉,刘芳芳,孙相征.SpMV的自动性能优化实现技术及其应用研究[J].计算机研究与发展,2009,46(7):1117-1126. 被引量：15
2刘莹莹,肖兵南,燕海峰,张佰忠,刘海林,皮辉,易康乐.利用BLUP法估计荷斯坦种公牛的抗热应激育种值[J].家畜生态学报,2012,33(1):29-32. 被引量：3
3Seo-Young NOH,Shashi K. GADIA,Haengjin JANG.Comparisons of three data storage models in parametric temporal databases[J].Journal of Central South University,2013,20(7):1919-1927. 被引量：5
4刘峰,陈松林,王磊,田永胜,刘寿堂,孙德强,邓寒.不同牙鲆群体遗传力和育种值分析[J].中国水产科学,2013,20(4):691-697. 被引量：9
5曾聪,曹小娟,高泽霞,罗伟,钱雪桥,王卫民.团头鲂生长性状的遗传力和育种值估计[J].华中农业大学学报,2014,33(2):89-95. 被引量：7
6杨瑞飞,张凯,汪平,文斌,余志菊,范成强,简文素,何贵明,杜丹,傅祥超,刘宁,王丽焕,郭小林,杨皓,范康,刘汉中,唐国庆.獭兔育种与生产信息管理系统的研发[J].四川农业大学学报,2014,32(1):82-86. 被引量：4
7王光琼,杜天行,未永庆,钟森.基于SOA构架的分布式租车公司管理系统设计与实现[J].软件导刊,2014,13(6):52-54. 被引量：2
8岳绍敏,王国春,董亚则,成锦晖.基于Spring MVC框架的电商平台的研究与设计[J].软件工程师,2014(7):3-6. 被引量：6

引证文献2

1张爱民,安虹,姚文军,梁伟浩,江霞,李丰.基于Intel Xeon Phi的稀疏矩阵向量乘性能优化[J].小型微型计算机系统,2016,37(4):818-823. 被引量：1
2胡世洋,杨慧赞,张永德,林勇,孙全亮.基于BLUP的单性状动物育种模型的研究及实现[J].贺州学院学报,2016,32(1):142-146. 被引量：4

二级引证文献5

1肖汉,周清雷,姚鹏姿.一种面向OpenCL架构的矩阵-向量乘并行算法与实现[J].小型微型计算机系统,2019,40(1):26-30. 被引量：2
2张文新,段迎新,章爽,杨晶淇,张建军,黄蕊,杨晓军,王富贵,薛吉全,张兴华.基于3种水分控制条件的玉米品种抗旱性综合评价[J].干旱地区农业研究,2022,40(1):163-174. 被引量：10
3陈建,王俐智,赵小玲,杜晓惠.青脚麻鸡父系D的选育及其杂交配套研究[J].福建农业学报,2022,37(11):1371-1380. 被引量：1
4张锡飞,张兴,闫之春,龚华忠,牛安然,杨雨婷,杜晓冬,荆晓燕,丁偌楠.大白、长白和杜洛克猪多品种多性状一步法基因组选择准确性分析[J].中国畜牧杂志,2023,59(8):152-159. 被引量：1
5阙华勇,张国范.我国贝类产业技术的现状与发展趋势[J].海洋科学集刊,2016(1):69-76. 被引量：10

1陈渝,nudt.edu.cn,李春江,杨学军,陈福接.CC-NUMA并行系统通信优化的变换技术[J].软件学报,2000,11(4):507-514.
2绿袖枫雪.编程读取并发送校内网验证码[J].黑客防线,2008(2):98-102.
3裴多.云计算在电子政务系统中的应用研究[J].通讯世界,2016,22(1):77-78. 被引量：4
4罗剑.基于Visual C#.NET实现文件操作[J].电脑知识与技术,2006,1(3):139-140. 被引量：3
5陈策明.浅谈近线存储在硬盘播出系统中的应用[J].现代电视技术,2004(8):96-100. 被引量：1
6方燕飞,王俊,漆锋滨.UPC共享访问消息向量化[J].计算机应用与软件,2008,25(6):155-157.
7刘刚田,宋晓磊,曹慧敏,张丰收.基于BP神经网络的产品造型设计[J].河南科技大学学报（自然科学版）,2009,30(6):23-26. 被引量：2
8刘慧.电子政务系统安全机制研究[J].现代商贸工业,2011,23(4):261-262. 被引量：2
9刘树君.计算机机房资源的重组与优化[J].实验教学与仪器,2010,27(1):61-62.
10夏军,杨学军,曾丽芳,周海芳.基于投影分层技术的嵌套循环空间局部性优化方法[J].计算机学报,2003,26(5):539-551. 被引量：3

小型微型计算机系统

2014年第7期

浏览历史

内容加载中请稍等...

矩阵形状无关的并行编译优化被引量：2

参考文献5

二级参考文献34

共引文献9

同被引文献8

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

矩阵形状无关的并行编译优化 被引量：2

参考文献5

二级参考文献34

共引文献9

同被引文献8

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

矩阵形状无关的并行编译优化被引量：2