摘要
平方千米阵列(Square Kilometre Array,SKA)科学数据处理产生的数据超出了所有已存在的分布式处理系统的处理能力,如何实现一个分布式执行框架是当前科学数据处理的一个重要研究内容。Spark是一个非常成熟的商业框架,在互联网中被广泛应用,根据平方千米阵列项目进展的要求,重点研究了如何将算法参考库(Algorithm Reference Library,ARL)中的部分管线移植到Spark上执行。对部分实现过程进行了分析讨论,给出了相应的任务流程。最终结果表明,移植后代码生成结果符合预期,Spark能够满足部分分布式数据的要求,但迫切需要解决自身存在的一系列问题。
The amount of the scientific data generated by the SKA exceeds the processing capabilities of all existing distributed processing systems.How to implement a distributed execution framework is an important research issue of scientific data processing.Based on Spark framework,one of the most mature execution frameworks,this study attempts to systematically analyze how to migrate iCal pipelines in the Algorithm Reference Library(ARL)to Spark.We analyze and discuss the implementation procedure and present the corresponding task flow implementation.The final experiments show that the results of the iCAL upon Spark is correct.In summary,Spark could meet the requirements of distributed data for certain data.The limitations of Spark itself severely restricts its application in SKA.
作者
戴伟
汪森
李秋虹
邓辉
梅盈
王锋
Dai Wei;Wang Sen;Li Qiuhong;Deng Hui;Mei Ying;Wang Feng(Key Laboratory of Computer Technology Application of Yunnan Province,Kunming University of Science and Technology,Kunming 650051,China;Fudan University,Shanghai 210000,China;Astrophysics Center,Guangzhou University,Guangzhou 510006,China)
出处
《天文研究与技术》
CSCD
2020年第3期334-340,共7页
Astronomical Research & Technology
基金
国家重点研发计划(2018YFA0404603)
国家自然科学天文联合基金(U1931141,U1831204,U1631129)
国家自然科学基金国际(地区)合作与交流项目(11961141001)
云南省重点研发计划(2018IA054)
云南省应用基础研究项目(2017FB001,2018FB103)
国家自然科学青年基金(11903009)资助。