基于GPU的zk-SNARK中多标量乘法的并行计算方法

Parallel computation method for multi-scalar multiplication inzk-SNARK based on GPU

下载PDF

导出

摘要针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multiscalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计算并行性,以充分利用GPU的大规模并行计算能力。采用共享内存对同一窗口下的子MSM并行规约减少了数据传输开销。其次,提出了一种基于底层计算模块线程级任务负载搜索最佳标量窗口的窗口划分方法,以最小化MSM子任务的计算开销。最后,对标量形式转换所用数据存储结构进行优化,并通过数据重叠传输和通信时间隐藏,解决了大规模标量形式转换过程的时延问题。该MSM并行计算方法基于CUDA在NVIDIA GPU上进行了实现,并构建了完整的零知识证明异构计算系统。实验结果表明:所提出的方法相比目前业界最优的cuZK的MSM计算模块获得了1.38倍的加速比。基于所改进MSM的整体系统比业界流行的Bellman提升了186倍,同时比业界最优的异构版本Bellperson提升了1.96倍,验证了方法的有效性。 In the context of zk-SNARK,MSM emerges as the predominant computational bottleneck.To address this problem,this paper proposed a GPU-based parallel MSM computation approach.Firstly,the method performed fine-grained task decomposition of MSM to enhance algorithmic computational parallelism,fully leveraging the extensive parallel computing capabilities of GPU.Additionally,it reduced data transfer overhead by employing shared memory for the parallel reduction of sub-MSM tasks within the same window.Secondly,the method introduced a window partitioning strategy based on thread-level task load analysis of the underlying computational modules to search for the optimal scalar window,thereby minimizing the computational cost of MSM subtasks.Lastly,the method optimized the data storage structure used for scalar form transformation and mitigated latency issues in the large-scale scalar form conversion process by employing data overlap transfer and hidden communication time.This paper implemented the MSM parallel computation method based on CUDA on NVIDIA GPU and established a comprehensive zeroknowledge proof heterogeneous computing system.Experimental results show that the proposed method achieves an acceleration ratio of 1.38 times compared to the current state-of-the-art MSM calculation module of cuZK.The overall system based on the improved MSM is 186 times better than the industry-popular Bellman,and 1.96 times better than cutting edge heterogeneous version Bellperson,validating the effectiveness of the approach.

作者王锋柴志雷花鹏程丁冬王宁 Wang Feng;Chai Zhilei;Hua Pengcheng;Ding Dong;Wang Ning(School of Artificial Intelligence&Computer Science,Jiangnan University,Wuxi Jiangsu 214122,China;School of Internet of Things Engineering,Jiangnan University,Wuxi Jiangsu 214122,China;Jiangsu Provincial Engineering Laboratory of Pattern Recognition&Computational Intelligence,Wuxi Jiangsu 214122,China)

机构地区江南大学人工智能与计算机学院江南大学物联网工程学院江苏省模式识别与计算智能工程实验室

出处《计算机应用研究》 CSCD 北大核心 2024年第6期1735-1742,共8页 Application Research of Computers

基金国家自然科学基金资助项目(61972180) 江苏省模式识别与计算智能工程实验室项目。

关键词简洁非交互式零知识证明多标量乘法 CUDA 异构计算系统并行计算 zk-SNARK multi-scalar multiplication CUDA heterogeneous computing system parallel computing

分类号 TP311 [自动化与计算机技术—计算机软件与理论] TP309.7 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1赵海旭,柴志雷,花鹏程,王锋,丁冬.zk-SNARK中数论变换的硬件加速方法研究[J].计算机科学与探索,2024,18(2):538-552. 被引量：1
2张峰,翟季冬,陈政,林甲灶,杜小勇.面向异构融合处理器的性能分析、优化及应用综述[J].软件学报,2020,31(8):2603-2624. 被引量：10

二级参考文献8

1崔西宁,杨经纬,叶宏,戴小氐.椭圆曲线密码的优化设计方法[J].西安电子科技大学学报,2015,42(1):69-74. 被引量：3
2Qi ZHU,Bo WU,Xipeng SHEN,Kai SHEN,Li SHEN,Zhiying WANG.Understanding co-run performance on CPU-GPU integrated processors： observations, insights, directions[J].Frontiers of Computer Science,2017,11(1):130-146. 被引量：1
3沈耀坡,梁煜,张为.一种高性能快速傅里叶变换的硬件设计[J].西安电子科技大学学报,2018,45(3):63-67. 被引量：8
4单进勇,高胜.区块链理论研究进展[J].密码学报,2018,5(5):484-500. 被引量：31
5谢星,黄新明,孙玲,韩赛飞.大整数乘法器的FPGA设计与实现[J].电子与信息学报,2019,41(8):1855-1860. 被引量：11
6黄平,梁伟洁.一种基于QAP问题的ZK-SNARK新协议[J].华南理工大学学报（自然科学版）,2021,49(1):1-9. 被引量：2
7周慧凯,华蓓.同态加密的硬件卸载及其在隐私保护计算中的应用[J].小型微型计算机系统,2021,42(3):595-600. 被引量：8
8李威翰,张宗洋,周子博,邓燚.简洁非交互零知识证明综述[J].密码学报,2022,9(3):379-447. 被引量：14

共引文献9

1杜文风,王英奇,王辉,赵艳男,高博青,董石麟.基于边界平衡生成对抗网络的十字板式节点新构形智能生成方法[J].建筑结构学报,2022,43(S01):315-324. 被引量：3
2黄坚,刘桂雄.面向在线语义分割机器视觉检测鉴别的多任务协同调度方法[J].激光杂志,2021,42(8):62-67. 被引量：1
3李亚各,张阳.通用图形处理器缓存子系统性能优化方法[J].信息技术与信息化,2021(10):133-135.
4杜磊,王竞争,穆启鹏.基于异构国产CPU的容器应用统一构建系统研究[J].电脑知识与技术,2021,17(31):4-6.
5王豪杰,马子轩,郑立言,王元炜,王飞,翟季冬.面向新一代神威超级计算机的高效内存分配器[J].清华大学学报（自然科学版）,2022,62(5):943-951. 被引量：2
6鲁蔚征,张峰,贺寅烜,陈跃国,翟季冬,杜小勇.华为昇腾神经网络加速器性能评测与优化[J].计算机学报,2022,45(8):1618-1637. 被引量：4
7李君,徐春婕,杨国元.面向冬奥的多模态异构融合的铁路客站设备智能评估研究[J].铁道运输与经济,2022,44(9):83-89. 被引量：1
8曹坤,龙赛琴,李哲涛.CPU-GPU MPSoC中使用寿命驱动的OpenCL应用调度方法[J].计算机研究与发展,2023,60(5):976-991.
9文敏华,石添介,田径.基于OpenVPX标准的异构融合处理模块软硬件协同设计研究[J].弹箭与制导学报,2024,44(3):103-108.

1任莹莹,胡江红,李妮,武特景.基于SM2的可截取签名方案[J].河南科学,2024,42(2):195-201.
2张令芸,徐梦桃,隋文静,韩聪,金博洋,KOMA,任子威,凌智,蔡雪桐,余祥(摄影).冬奥健儿热雪而战[J].时尚,2022(7):78-105.
3张晶,马林,梁楚龙,高宏旭.基于分组序列码本和压缩感知的大规模无源多址方案[J].通信学报,2023,44(12):171-180.
4袁炳发.如何把生活的真实,用艺术形式转换[J].小小说月刊,2023(4):46-48.
5王薪喜,孟天广.条件性溢出:数字时代公共参与形式转换及其异质性效应——基于“2018年中国城市治理调查”的实证分析[J].学习与探索,2024(4):34-47.
6张吉鹏,黄军浩,于璇,刘哲.面向移动设备的国密SM2高效实现研究[J].电子学报,2023,51(12):3437-3443.
7胡晓凡.法律英语写作中的公共政策论点[J].英语世界,2023,42(12):124-126.
8周博文,张海峰,李秦川.2R1T并联机器人滑模自适应迭代学习控制[J].机器人,2024,46(3):317-329.
9马英红,吝李婉,焦毅,李秦尧.通信计算联合优化的图分割工作流部署方法[J].西安电子科技大学学报,2024,51(2):13-27.
10王艳松,王毓铎.计及电制氢和碳捕集的园区综合能源系统动态规划[J].中国石油大学学报（自然科学版）,2024,48(2):142-150.

计算机应用研究

2024年第6期

浏览历史

内容加载中请稍等...

基于GPU的zk-SNARK中多标量乘法的并行计算方法

参考文献2

二级参考文献8

共引文献9

相关作者

相关机构

相关主题

浏览历史