一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法被引量：3

An Optimization Query Method Based on HiveSQL to Increase Task Parallelism and Build Intermediate Table Combination

下载PDF

导出

摘要针对大数据时代数据量级随时间不断累积、在大数据环境中查询数据困难且缓慢的问题,提出一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法。本文应用的是Hadoop生态系统中Hive数据库,从Hive数据库里数据量级为Pb的数据当中,通过编写SQL语句查询出实验所需要的数据。当在查询数据量级过大、查询指标较多并且SQL查询语句冗长的情况下,都会造成查询时间过长和查询效率低的问题,提出增加SQL任务并行度与建立中间表组合的优化查询方法来解决这一问题。实验结果证明,本文提出的方法将大数据查询时间缩短为原来的25%,并且提高了集群的利用效率。 In the era of big data, the magnitude of data keeps accumulating over time, and it is difficult and slow to query data in the big data environment,an optimization query method based on HiveSQL was proposed to increase task parallelism and build intermediate tables.This article applies Hive database in Hadoop ecosystem,obtain Pb data from the Hive database,through the preparation of SQL statements to query the data required by the experiment.When the magnitude of the query data is too large, the query index is more and the SQL query statement is long,the query time is too long and the query efficiency is low,to solve this problem, an optimization query method of increasing the parallelism of SQL tasks and establishing the combination of intermediate tables is proposed.Experimental results show that:The method proposed in this paper reduces the query time of big data by 25%,and improve the utilization efficiency of the cluster.

作者郑灵逸李擎 Zheng Lingyi;Li Qing(Department of Automation,Beijing Information Science and Technology University,Beijing 100192;Beijing Key Laboratory of High Dynamic Navigation Technology,Beijing 100192)

机构地区北京信息科技大学自动化学院高动态导航技术北京市重点实验室

出处《现代计算机》 2021年第36期55-59,共5页 Modern Computer

关键词大数据查询优化 Hive SQL任务并行建立中间表 big data query optimization SQL task parallelism create intermediate tables

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1张国华,叶苗,王自然,周婷婷.大数据Hadoop框架核心技术对比与实现[J].实验室研究与探索,2021,40(2):145-148. 被引量：9
2常天天,陈兴蜀,罗永刚,兰晓.面向Hive的基于安全域的数据隔离保护框架[J].山东大学学报（理学版）,2019,54(3):1-9. 被引量：5
3侯晓芳,王欢,李瑛.一种基于HIVE和分布式集群的大量数据高效处理方法研究[J].中国电子科学研究院学报,2018,13(3):315-320. 被引量：33
4刘小杰.基于SQL的智能灌溉专家系统优化设计[J].农机化研究,2022,44(4):235-238. 被引量：7
5杨玉敏.SQL Server数据库应用系统开发及其安全管理——评《数据库技术及安全教程——SQL Server 2008》[J].中国安全生产科学技术,2019,15(12). 被引量：3
6朱淑鑫,李悦,袁培森,徐焕良,王康,谢忠红.基于Hadoop/Hive的乳制品溯源数据计算及性能优化[J].华东师范大学学报（自然科学版）,2018(4):99-108. 被引量：4
7许谦,李元栋,王彧之.基于SQL Server的高校信息资源管理系统设计[J].现代电子技术,2020,43(20):115-118. 被引量：11
8李骏.基于MapReduce的大数据在线聚集优化设计[J].河北大学学报（自然科学版）,2021,41(2):212-217. 被引量：1
9刘文杰.基于HDFS的大数据文件传输实验设计[J].实验室研究与探索,2019,38(12):132-134. 被引量：12

二级参考文献86

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
2段玉田,陈永杰,贾文兰,姬虎太,张进贤.限水灌溉对冬小麦产量和水分生产效率的影响[J].山西农业科学,1994,22(1):16-19. 被引量：9
3孙广中,肖锋,熊曦.MapReduce模型的调度及容错机制研究[J].微电子学与计算机,2007,24(9):178-180. 被引量：26
4张佳兰,昝林森,刘永峰,任建存.我国DHI测定现状及存在的问题[J].中国牛业科学,2007,33(5):56-59. 被引量：16
5魏正英,葛令行,赵万华,卢秉恒.灌溉施肥自动控制系统的研究与开发[J].西安交通大学学报,2008,42(3):347-349. 被引量：27
6张健.云计算概念和影响力解析[J].电信网技术,2009(1):15-18. 被引量：185
7张亚勤.与云共舞——微软云计算的新进展[J].中国计算机用户,2009(4):12-13. 被引量：17
8桂小笋.云计算猜想[J].科技中国,2009(4):30-33. 被引量：5
9张鹏.IBM在华践行“蓝云6+1”计划[J].通信世界,2009(20). 被引量：4
10陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：931

共引文献76

1罗莉.基于GIS的城市智慧路测停车管理系统设计[J].自动化与仪器仪表,2020(4):103-107. 被引量：3
2刘蓉蓉,司鹏博,陶启果.浅谈数据溯源性分析的风向标价值[J].印制电路信息,2023,31(S01):366-373.
3虞飞华,周松侨.校企共建大数据专业实践教学平台探究[J].创新创业理论研究与实践,2024(13):190-193.
4房晓阳,肖长水.基于PF-RING和HIVE的高校信息资产发现分析系统的设计与实现[J].轻工科技,2022,38(5):35-37.
5柴晶霞.循环经济下上市公司绩效评价指标体系研究[J].人力资源,2018(9):71-73.
6马立红,覃丹,林强,邢少霞,吕懿.基于NLP方法的配电网项目关键指标智能化提取[J].自动化与仪器仪表,2019(4):129-133. 被引量：4
7钱毅慧,陆萍,黄蓓雯.大数据分析下低压配电台区线损自动测算方法研究[J].自动化与仪器仪表,2019,0(6):143-146. 被引量：9
8张岩.基于多协议标记的移动核心网数据智能交换技术[J].自动化与仪器仪表,2019,0(7):54-57. 被引量：1
9李芳菊.基于Hadoop的网络行为大数据安全实体识别系统设计[J].现代电子技术,2019,42(17):75-79. 被引量：15
10崔胜胜,孙剑锋,马斌,汪涛,李立伟,于洋洋.智能电表数据和监督学习检测非技术损失的研究[J].工业仪表与自动化装置,2020,0(1):122-126. 被引量：7

同被引文献17

1赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：36
2林子雨.大数据技术原理与应用课程建设经验分享[J].大数据,2018,4(6):29-37. 被引量：20
3张亮,杨春丽,马媛媛.大数据应用部署研究[J].电信网技术,2016,0(5):30-36. 被引量：2
4房俊,李冬,郭会云,王嘉怡.面向海量交通数据的HBase时空索引[J].计算机应用,2017,37(2):311-315. 被引量：9
5高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(4):959-992. 被引量：128
6王家耀,武芳,郭建忠,成毅,陈科.时空大数据面临的挑战与机遇[J].测绘科学,2017,42(7):1-7. 被引量：65
7陈喜洲.一种基于业务特征优化HIVE中两个大表不等值关联的方法[J].广东通信技术,2017,37(11):52-55. 被引量：1
8王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
9李耘书,滕飞,李天瑞.基于微操作的Hadoop参数自动调优方法[J].计算机应用,2019,39(6):1589-1594. 被引量：3
10江接宝,王朝晖.《大数据技术》课程实践改革研究[J].电脑知识与技术,2020,16(35):107-108. 被引量：2

引证文献3

1丁强龙,叶惠珠,袁弘强,李志新.大规模时空轨迹数据连接查询效率优化实践[J].计算机系统应用,2024,33(5):1-14. 被引量：1
2王冀彬,杨海龙,冯凯,孙欣,张敏达,雷克伦,肖智文,张逸飞,吴佳熙.面向大数据场景的系统性能优化实践[J].大数据,2024,10(4):21-33.
3江接宝,石良玉.基于虚拟化的大数据分布式实验平台的研究与实践[J].电脑知识与技术,2024,20(23):85-88.

二级引证文献1

1王璐雯.基于轨迹数据的目标聚类算法研究与应用[J].移动信息,2024,46(6):199-201.

1钮泽平,李国良.数据库内AI模型优化[J].软件学报,2021,32(3):622-635. 被引量：6
2田琪.基于数据库管理结构的医疗卫生统计工作模式探讨[J].中国医院统计,2020,27(3):242-245. 被引量：6
3陆家俊,顾梅.Oracle查询优化的研究与应用[J].信息技术与信息化,2022(1):57-60. 被引量：4
4陈美玲,温星来,孙小会,梁永晴.基于SQL的非计划再入院患者查询统计[J].中国病案,2020,21(5):36-38. 被引量：5
5李广龙,申德荣,聂铁铮,寇月.数据库外基于多模型的学习式查询优化方法[J].浙江大学学报（工学版）,2022,56(2):288-296. 被引量：2
6冯钧,王秉发,陆佳民.分布式资源描述框架数据管理系统查询性能评价[J].计算机应用,2022,42(2):440-448. 被引量：1

现代计算机

2021年第36期

浏览历史

内容加载中请稍等...

一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法被引量：3

参考文献9

二级参考文献86

共引文献76

同被引文献17

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法 被引量：3

参考文献9

二级参考文献86

共引文献76

同被引文献17

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法被引量：3