基于多级列式索引的海量数据高效查询设计被引量：9

The Design of High Performance Massive Data Query System Based on K/V Index

下载PDF

导出

摘要伴随海量数据存储、处理技术的发展,数据中心中积累了大量的格式化历史数据,此类数据呈现出数据规模庞大、被查询频次低和查询内容规律不确定等特点,而当前以文件为操作对象的系统在查询此类数据时主要采用分布式计算引擎对数据进行全局遍历,存在处理时间长、系统资源消耗高等问题。因此,本文提出了一种基于列式多级索引的海量数据高效查询方法,使得查询过程中只有承载相关数据的节点参与计算,大幅降低了系统资源消耗。实验表明,本文方法在用于大规模历史数据内容查询时,相对于较主流的文件系统查询技术有明显的效率提升。 With mass data storage and processing technology development, data center has accumulated a large amount of historical formatted data, historical data has following characteristics: large scale, query frequency is low and the target of query is irregularly, and the current system which include query service and target file usually use distributed computation engine to search global data, they usually take long time and system resources consumption is high. Therefore, this paper puts forward a method of efficient query based on the column-multilevel index, which greatly reduces the consumption of system resources. Experimental results show that this method is effective in improving the efficiency of query technology for large scale historical data content.

作者杨淙钧艾中良刘忠麟李常宝

机构地区华北计算技术研究所

出处《软件》 2016年第3期79-83,共5页 Software

关键词海量数据文件系统索引机制 Mass Data File System Index Mechanism

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Ashish Thusoo,Joydeep Sen Sarma,Namit Jain,Zheng Shao,Prasad Chakka,Suresh Anthony,Hao Liu,Pete Wyckoff,Raghotham Murthy.Hive: a warehousing solution over a map-reduce framework. Proceedings of the VLDB Endowment . 2009 被引量：3
2丁小盼,周浩,贺珊,陈朱管,郭东辉.基于OpenStack的云测试平台及其性能分析研究[J].软件,2015,36(1):6-10. 被引量：18
3徐妍妍,王宏志,高宏,李建中.??基于高维稀疏数据的k-分桶高效skyline查询算法(J)新型工业化. 2012(08) 被引量：1
4马浩然.基于NS3的分布式消息系统Kafka的仿真实现[J].软件,2015,36(1):94-99. 被引量：18
5DeCandia,G,Hastorun,D,Jampani,M,Kakulapati,G,Lakshman,A,Pilchin,A,Sivasubramanian,S,Vosshall,P,Vogels,W.'Dynamo: Amazon’’s highly available key- value store,'. Proc. SOSP ’’07 . 2007 被引量：1

二级参考文献26

1莫磊,胥布工.基于分布式估计及任务分配的WSANs协同机制[J].新型工业化,2013,2(12):15-27. 被引量：5
2马建刚,黄涛,汪锦岭,徐罡,叶丹.面向大规模分布式计算发布订阅系统核心技术[J].软件学报,2006,17(1):134-147. 被引量：128
3刘云生,张童,张传富,查亚兵.异构分布式实时仿真系统的容错调度算法[J].软件学报,2006,17(10):2040-2047. 被引量：9
4Ding Wei Wu,Qiang Wu,Xi Cheng Fu,Zhi Zhong Ye,Jia Lun Lin.A New Hybrid Storage System Base on Openstack[J]. Applied Mechanics and Materials . 2014 (556) 被引量：1
5Riungu-Kalliosaari, Leah,Taipale, Ossi,Smolander, Kari.Testing in the Cloud: Exploring the Practice[J]. EN . 2012 (2) 被引量：1
6Dickey Thomas E.ATAC[OL]. http://invisible-island.net/atac/atac.html . 2014 被引量：1
7Free Software Foundation.Gcov—a Test Coverage Program[OL]. http://gcc.gnu.org/onlinedocs/gcc/Gcov.html . 2014 被引量：1
8Ken Goodhope,Joel Koshy,Jay Kreps,et al.Building Linked In’’s Real-time Activity Data Pipeline. . 被引量：1
9Teerawat Issariyakul,Ekram Hossain.Introduction to Network Simulator NS2. . 2008 被引量：1
10王少峰,周忠,吴威.一种面向分布式虚拟环境的分层迭代负载平衡算法[J].软件学报,2008,19(9):2471-2482. 被引量：6

共引文献36

1张丽珍.获取地形图的失量图形文件的方法[J].工程设计与研究（长沙）,2000(1):32-33.
2陈若飞,姜文红.Hadoop作业调度本地性的研究与优化[J].软件,2015,36(2):64-68. 被引量：5
3王仲生.基于kafka消息队列的文本处理技术研究[J].软件导刊.教育技术,2016,15(12):87-89. 被引量：4
4王亮,韩连钢,谢锡海.智能云测试下拓扑映射算法实现的研究[J].电子技术应用,2017,43(3):116-119. 被引量：1
5龚智勇.基于Selenium的OpenStack Horizon自动化测试的实现[J].国外电子测量技术,2017,36(5):45-49. 被引量：7
6涂刚,徐娟.Openstack与Docker融合的探究[J].软件,2017,38(5):59-63. 被引量：1
7茹新宇,刘渊.网络仿真器NS3的剖析与探究[J].计算机技术与发展,2018,28(3):72-77. 被引量：17
8刘淑平,江依诺,杨俊伟.基于云计算的电力软件测试技术研究[J].电力信息与通信技术,2018,16(3):64-68. 被引量：5
9黄超,唐子蛟.基于云计算技术的智慧校园平台建设研究[J].软件,2018,39(5):27-30. 被引量：23
10刘远永,弓中强,朱佳宁,安晶晶,赵青松.安徽省市县短临监测预警系统的设计与应用[J].软件,2018,39(10):229-237. 被引量：3

同被引文献29

1梁昌勇,张申恒.基于本体的企业文本检索模型研究[J].计算机应用研究,2005,22(12):27-29. 被引量：4
2熊文新,宋柔.信息检索自然语言查询问句处理框架[J].计算机科学,2006,33(10):144-147. 被引量：3
3马良俊,贺立源,苗洁,张轶.基于用户需求的农业知识服务系统设计与建立[J].农业网络信息,2007(2):37-41. 被引量：9
4张功杰,黄穗.基于本体的语义标引研究与实现[J].计算机工程与设计,2008,29(8):2078-2080. 被引量：8
5文坤梅,卢正鼎,孙小林,李瑞轩.语义搜索研究综述[J].计算机科学,2008,35(5):1-4. 被引量：15
6高乐,张健,田贤忠.基于视觉的Web页面分块算法的改进与实现[J].计算机系统应用,2009,18(4):65-69. 被引量：11
7王晓慧,罗军,余淑良.本体的查询与推理研究[J].计算机技术与发展,2012,22(5):130-133. 被引量：4
8Li Qianmu,Li Jia.Rough Outlier Detection Based Security Risk Analysis Methodology[J].China Communications,2012,9(7):14-21. 被引量：13
9王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：712
10贺鸿鹏,刘君,黄彦浩.基于RDF的智能电网知识本体建模的关键问题研究[J].华东电力,2013,41(8):1607-1610. 被引量：4

引证文献9

1戚湧,李千目.基于e交通学的交通大数据MetaData交换构架[J].软件,2017,38(10):1-6.
2王延松,戚湧,李千目.多源异构传感通信大数据的融合调度算法[J].软件,2017,38(10):29-38. 被引量：4
3徐强.智能电网(输变电部分)领域知识体系构建和语义研究与应用[J].电力信息与通信技术,2017,15(11):8-15.
4孙哲,巫中正,李千目.基于网络流量的安全可达性推理方法[J].软件,2018,39(4):36-43. 被引量：4
5孙哲,巫中正,李千目.流量攻击图的建模与生成方法[J].软件,2018,39(4):48-52. 被引量：3
6李鹏鹏,郑扬飞,刘玉龙.Redis在即时通讯系统中的应用[J].软件,2017,38(1):115-119. 被引量：7
7赵冬平,郭雅娟,戚湧.事故应急处置网络的联动能力研究与分析[J].软件,2017,38(8):36-42. 被引量：1
8李春炜.基于关系型数据库行转列方式的分析与设计[J].软件,2023,44(3):128-130.
9朱林.基于Web的主题内容提取与存储系统研究[J].软件,2016,37(11):30-32.

二级引证文献18

1柳纲,张毅.服务端无状态技术研究[J].电力信息与通信技术,2017,15(11):49-54. 被引量：6
2冯登超.面向低空安全的三维空中走廊可视化研究综述[J].电子测量技术,2018,41(9):2-9. 被引量：13
3朱东红,吴东丽,郭剑,阙艳红,刘立业,刘兴良,张会可,郭渊杰.气象自动观测集成平台设计[J].软件,2018,39(7):182-190. 被引量：3
4姚键,刘耀宗,侯君,凌飞,李千目.恶意软件新型检测方法[J].软件,2018,39(10):1-5.
5沈瑾,林伯凝,沈浩.Redis技术在物联网工商业燃气无线抄表平台的设计与应用[J].物联网技术,2018,8(11):83-84. 被引量：1
6朱海洋,江涛,汪如朗,杨军杰,王寅宇,李政泽.基于大数据的油品交易营销与服务体系创新关键技术研究与应用[J].电子技术与软件工程,2018(23):178-181. 被引量：2
7彭楷文,李渊.自适应伪装移动侦察系统[J].软件,2018,39(11):55-60.
8贺晓勇.多源异构大数据跨源调度方法仿真研究[J].计算机仿真,2019,36(3):339-342. 被引量：9
9张丽,李达,刘辉席,刘守印.减小LoRa技术在实验室监测系统中报警延迟的方法研究[J].电子技术应用,2019,45(6):135-140. 被引量：11
10余然.基于区块链技术的大型工程管理系统设计与应用[J].经济研究导刊,2019,0(23):166-170. 被引量：4

1杨长辉,岳友友.一种基于编辑距离的XML查询方案[J].计算机应用,2006,26(12):2991-2993. 被引量：2
2赵攀,姜顽强.石化企业地理信息系统软件查询功能的改进[J].甘肃科技,2009,25(5):17-17.
3火速桌面搜索[J].电脑爱好者（普及版）,2011(A01):130-130.
4董淑珍,巩志国.多媒体数据基于内容的查询[J].计算机工程,1999,25(1):47-48.
5万志坚,李文锋.Web环境下基于内容查询的图像数据库研究[J].计算机工程与应用,2002,38(11):207-208.
6彭辉,黄飞.一种新型的多媒体信息检索技术——基于内容的信息检索[J].电子出版,2002(12):44-46. 被引量：1
7王海省,张力军.基于JXTA平台的P2P搜索算法的研究[J].计算机与数字工程,2007,35(6):25-27. 被引量：1
8何志学,廖湖声.一种基于语义信息的XML Twig查询处理方法[J].微电子学与计算机,2015,32(5):95-98. 被引量：2
9路燕,张彪,段起阳,施伯乐.WebQL:一种XML和HTML查询语言[J].小型微型计算机系统,2003,24(8):1491-1494.
10首照宇,孙颖,张彤,赵晖.基于双索引结构的XML文档查询设计及优化[J].桂林电子科技大学学报,2017,37(2):111-115.

软件

2016年第3期

浏览历史

内容加载中请稍等...

基于多级列式索引的海量数据高效查询设计被引量：9

参考文献5

二级参考文献26

共引文献36

同被引文献29

引证文献9

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于多级列式索引的海量数据高效查询设计 被引量：9

参考文献5

二级参考文献26

共引文献36

同被引文献29

引证文献9

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于多级列式索引的海量数据高效查询设计被引量：9