大型文本数据库中分布式数据去重备份方法被引量：5

Distributed Data Deduplication Method in Large Text Database

下载PDF

导出

摘要数据去重可删除备份过程中的冗余数据,节约存储资源与与网络带宽,是目前数据存储领域研究的重点问题。针对传统方法去重率和吞吐量低的问题,提出一种新的大型文本数据库中分布式数据去重备份方法。介绍了大型文本数据库中分布式数据去重方法基本思想,通过文件管理部分对数据片组中的扶贫数据进行查询和统计,给出数据片组路由策略,分析了数据预取过程。通过最终权值完成对数据块的排列,以恢复时间与恢复成本达到最小化为目的设计适应度函数。通过改进遗传方法对大型文本数据库中分布式扶贫数据进行备份。实验结果表明,所提方法有很高的去重率和吞吐量,且成本低,恢复速度快。 Data deduplication can remove redundant data in the backup process and save storage resources and network bandwidth. It is the key point of data storage research. Aiming at the problem of low throughput and low throughput of traditional methods,a new method of distributed data deduplication in large text databases is proposed. Distributed data of large text databases was introduced to the basic thought way through the file management part query and statistical data on poverty alleviation sheet group,and given the data group routing strategy,analyzed the data prefetching process. Finally,the fitness function is designed by minimizing the recovery time and the recovery cost by arranging the data blocks with the final weights. Genetic algorithm is used to backup the distributed poverty reduction data in large text databases. Experimental results show that the proposed method has high throughput and low throughput,and it has low cost and fast recovery speed.

作者张仕学

机构地区贵州工程应用技术学院信息工程学院

出处《科学技术与工程》北大核心 2018年第4期310-315,共6页 Science Technology and Engineering

基金中央高校基本科研业务费专项资金(XDJK2014C110) 贵州省科学技术基金(黔科合LH字[2014]7538号)资助

关键词文本数据库分布式数据去重备份 text database distributed data de-duplicate backup

分类号 TP393.07 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1贺建英.大数据下MongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):51-55. 被引量：10
2李德文,黄文君,胡静泓,钱益舟.一种分布式冗余的实时数据存储检索机制[J].上海交通大学学报,2014,48(7):948-952. 被引量：11
3刘青,付印金,倪桂强,梅建民.基于Hadoop平台的分布式重删存储系统[J].计算机应用,2016,36(2):330-335. 被引量：16
4李木国,王延国,孙慧涛.基于EtherCAT总线的串联型分布式数据采集系统设计[J].计算机测量与控制,2016,24(6):195-198. 被引量：9
5陈炎龙,段红玉,孔素真,张志明.一种分布式数据库查询优化算法的研究[J].科技通报,2017,33(2):86-89. 被引量：8
6李欣,徐亮,蒋兆辉.低复杂度重构在分布式实时数据密集型Web服务架构中的应用[J].计算机应用研究,2016,33(4):1114-1119. 被引量：2
7薛剑,吕立,孙咏,王丹妮.应用语义相似的海量网页文本去重策略研究[J].小型微型计算机系统,2016,37(6):1143-1147. 被引量：2
8杨超,张俊伟,董学文,马建峰.云存储加密数据去重删除所有权证明方法[J].计算机研究与发展,2015,52(1):248-258. 被引量：14
9陈明.分布式网络数据包优先级传输模型研究仿真[J].电子设计工程,2016,24(12):5-8. 被引量：4
10陈亚杰,王锋,邓辉,刘应波.ElasticSearch分布式搜索引擎在天文大数据检索中的应用研究[J].天文学报,2016,57(2):241-251. 被引量：19

二级参考文献139

1常发亮,刘静.多线程下多媒体定时器在快速数据采集中的应用[J].计算机应用,2003,23(z1):177-178. 被引量：27
2许新华,黄胜运,唐胜群,张少锋.基于Agent的分布式数据库查询优化研究[J].计算机研究与发展,2012,49(S1):216-219. 被引量：3
3谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
4汪锦岭,金蓓弘,李京.一种基于强可有序化标准的长事务调度算法[J].计算机研究与发展,2005,42(8):1355-1361. 被引量：2
5付青松.GIS矢栅数据结构及数据组织管理研究[J].测绘与空间地理信息,2010,33(6):64-66. 被引量：2
6季凯帆,曹文达,宋谦.FITS、BMP和SCR图象格式及相互转换[J].云南天文台台刊,1996(2):60-64. 被引量：10
7宋宝莉,覃征.分布式全局频繁项目集的快速挖掘方法[J].西安交通大学学报,2006,40(8):923-927. 被引量：11
8王雪峰,董丹,梁茂新,张斌,张明卫.数据挖掘技术在小儿肺炎中医临床疗效评价研究中应用的思路与方法[J].中国中西医结合杂志,2007,27(10):949-951. 被引量：10
9单春荣,刘艳强,郇极.工业以太网现场总线EtherCAT及驱动程序设计[J].制造业自动化,2007,29(11):79-82. 被引量：78
10YUE Menglong,REN Cuihui,LI Xianhui.A realtime database index management method for fast access to massive data of power system[J].Procedia Engineering,2011(24): 165-170. 被引量：1

共引文献118

1王凯.智能变电站二次设备运行信息存储系统[J].自动化与仪器仪表,2018,0(12):212-215. 被引量：6
2叶伦强.网络传输数据存储负荷均衡管理仿真[J].计算机仿真,2018,35(12):438-441.
3高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真,2019,36(1):239-242. 被引量：1
4李宁.基于一致性Hash算法的分布式缓存数据冗余[J].软件导刊,2016,15(1):47-50. 被引量：5
5窦芳.基于数据仓库的科研成果管理决策支持系统的研究与实现[J].现代电子技术,2016,39(7):120-123. 被引量：7
6刘亚龙,殷若鹏,尤冬石.管线长距离输送天然气的闭环控制模型研究[J].智能计算机与应用,2016,6(3):25-28. 被引量：1
7段志刚,薄鸟,吴耕锐.一种武警云计算环境下集群重复数据删除策略[J].电子世界,2016,0(13):21-21.
8符于江.网页去重中的关键词和特征串提取[J].电子技术与软件工程,2016(17):28-29. 被引量：1
9徐小龙,刘笑笑.面向移动计算环境的混合式数据同步机制[J].通信学报,2016,37(8):1-12. 被引量：3
10刘宁,赵建华,冯骜骜.基于主动学习的有监督在线多核学习算法[J].河南科学,2016,34(9):1423-1427. 被引量：2

同被引文献48

1常志朋,刘小弟,张世涛.基于高阶Markov链的重大决策社会风险变权集对预测模型[J].控制与决策,2018,33(12):2243-2250. 被引量：4
2朱飞燕.大数据资源调度中多种类复杂信息智能定向检索[J].自动化与仪器仪表,2019(2):118-121. 被引量：5
3李宁.计算机数据存储备份的分类与对比分析[J].现代电子技术,2015,38(3):149-151. 被引量：9
4邹春玉.浅谈招生考试信息数据备份的方式和管理[J].科技创新导报,2015,12(8):198-198. 被引量：1
5宋建业,何暖,朱一明,付安民.基于阿里云平台的密文数据安全去重系统的设计与实现[J].信息网络安全,2017(3):39-45. 被引量：9
6杨晖,潘齐欣.分布式异构数据库中移动同步复制冲突消解方法研究[J].科学技术与工程,2017,17(10):241-245. 被引量：7
7杨臻.分布式多空间数据库信息快速融合方法仿真[J].计算机仿真,2017,34(6):427-430. 被引量：8
8周雪燕,孔梦荣.多尺度纹理图像数据抗干扰信息映射方法研究[J].微电子学与计算机,2017,34(7):128-131. 被引量：2
9丛伟,郑熠,张子衿,康奇豹,王晓辉.智能配电网拓扑信息的分布式存储和管理方法[J].电力系统自动化,2017,41(13):111-118. 被引量：18
10何旭峰,陈岭,陈根才,钱坤,吴勇,王敬昌.基于LDA主题模型的分布式信息检索集合选择方法[J].中文信息学报,2017,31(3):125-133. 被引量：22

引证文献5

1赵飞.分布式多数据库信息资源联动更新方法研究[J].新一代信息技术,2019,2(13):89-93. 被引量：1
2谢娜.网络信息资源的冗余数据检测算法设计[J].微型电脑应用,2020,36(7):38-41. 被引量：3
3徐然.招生考试信息数据备份的方式和管理[J].中国新通信,2020,22(24):16-17.
4尹蓉.网络信息安全系统密文数据去重方法研究[J].信阳农林学院学报,2022,32(4):132-136.
5秦金祥,杨萌.基于平衡二叉树的数控机床数据去重备份算法[J].计算机仿真,2023,40(1):548-552.

二级引证文献4

1党鹏飞.网络多媒体数据库相似信息检索方法研究[J].新一代信息技术,2019,2(23):84-88.
2张玉良,王艳兵.基于分层聚合的通信信息冗余数据检测方法[J].上海电机学院学报,2022,25(3):182-186.
3刘硕.移动蜂窝网络多出口流量数据精准清洗方法[J].微型电脑应用,2024,40(4):198-201.
4刘显茁,邓韦斯,谢恩彦.计及风速相关性的风电功率预测方法研究[J].微型电脑应用,2024,40(5):81-84.

1任晓霞,喻孟良,张鸣之,陈一超,韩明伟,曾青石.基于Hadoop分布式系统的地质环境大数据框架探讨[J].中国地质灾害与防治学报,2018,29(1):130-134. 被引量：8
2黄祖东,李定明,李前,李焱宁,苏周生,周俊.腹腔镜手术治疗胃间质瘤的临床应用[J].锦州医科大学学报,2018,39(1):28-30. 被引量：3
3张芙.老年股骨颈骨折患者中运用护理干预后的康复情况分析[J].中国伤残医学,2018,26(3):81-82.
4殷怀义,彭延生,王永桦.Dialog系统全文本数据库研究[J].技术与市场,1992(1):44-47.
5李瑞祥,钱卫.文件备份方法汇总[J].网络安全和信息化,2018,0(2):63-64.
6石建斌.PC机数据文件备份的方法[J].河池师范高等专科学校学报,2001,21(4):82-84.
7刘君尧,王辉静,刘云霞.Linux平台下Sybase数据库备份的方法分析[J].无线互联科技,2018,15(1):62-64.
8滕云,张铁岩,陈哲.多能源互联系统优化运行与控制技术研究现状与前景展望[J].可再生能源,2018,36(3):467-474. 被引量：79
9徐骁,夏敏,张鹏,陈洁,张照星.一种基于Swift云存储组件的冗余去重方法[J].现代计算机,2017,23(23):50-56.
10马宇川.小容量“苹果”不用愁闪迪欣享自动备份充电座[J].微型计算机,2018,0(3):56-57.

科学技术与工程

2018年第4期

浏览历史

内容加载中请稍等...

大型文本数据库中分布式数据去重备份方法被引量：5

参考文献15

二级参考文献139

共引文献118

同被引文献48

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

大型文本数据库中分布式数据去重备份方法 被引量：5

参考文献15

二级参考文献139

共引文献118

同被引文献48

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

大型文本数据库中分布式数据去重备份方法被引量：5