大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究被引量：7

Research on HDFS decentralized dynamic replica storage optimization strategy in big data environment

下载PDF

导出

摘要在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了hadoop分布式文件系统节点负载均衡能力和译码恢复效率。这种算法更适合于医疗专业文书的处理,解决临床科研需求和数据供给2个方面的问题。既能节省了存储容量,可以容纳与日俱增且越发复杂化的医疗数据,又能降低硬件服务器成本,为医院节省资金开销,更能快速查询获取数据池中的有效数据,让这些躺着的数据变成活的,充分发挥他们的临床使用价值和科研价值。这一套完整的、系统的优化方案,为未来hadoop分布式文件系统的发展提供了一条有效途径。 On the premise of not affecting the HDFS decentralized storage structure, the dynamic copy storage and galohua finite field theory was combined to optimize the calculation and calculation mode of van der Monde code, so that the time cost and the memory pressure of the coding and decoding were reduced. About 35% storage costs of HDFS were saved, and the balance ability of the node load and decoding efficiency of the HDFS system were improved. This algorithm is more suitable for the process of medical professional documents, and meets clinical research needs and data supply. It can save the storage capacity, can accommodate the increasing and more complex medical data, can reduce the cost of hardware server, save the capital cost for the hospital, quickly query and obtain the effective data in the data pool, make the lying data live, and give full play to their clinical use value and scientific research value. This complete and systematic optimization plan provides an effective way for the development of HDFS in the future.

作者杨莲郭良君马磊王圣芳 Yang Lian;Guo Liangjun;Ma Lei;Wang Shengfang(Shandong Institute of Cancer Prevention and Control,Jinan 250117,China;Jinan Children's Hospital)

机构地区山东省肿瘤防治研究院济南市儿童医院

出处《中国医院统计》 2019年第1期75-78,共4页 Chinese Journal of Hospital Statistics

基金山东省医学科学院院级科技计划项目青年基金(2016-30)

关键词 HADOOP分布式文件系统云存储动态副本策略大数据 HDFS cloud storage dynamic replica strategy big data

分类号 TP333 [自动化与计算机技术—计算机系统结构] TP311.13 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258. 被引量：724
2罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012,49(1):1-11. 被引量：92
3李晓恺,代翔,李文杰,崔喆.基于纠删码和动态副本策略的HDFS改进系统[J].计算机应用,2012,32(8):2150-2153. 被引量：10
4周傲英,金澈清,王国仁,李建中.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16. 被引量：185
5史英杰,孟小峰.云数据管理系统中查询技术研究综述[J].计算机学报,2013,36(2):209-225. 被引量：46
6朱媛媛,王晓京.基于GE码的HDFS优化方案[J].计算机应用,2013,33(3):730-733. 被引量：7
7董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69

二级参考文献258

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54
3姜传贤,孙星明,易叶青,杨恒伏.基于JADE算法的数据库公开水印算法的研究[J].系统仿真学报,2006,18(7):1781-1784. 被引量：9
4Deshpande A, Guestrin C, Madden S, Hellerstein J M, Hong W. Model-driven data acquisition in sensor networks// Proceedings of the 30th International Conference on Very Large Data Bases. Toronto, 2004:588-599 被引量：1
5Madhavan J, Cohen S, Xin D, Halevy A, Jeffery S, Ko D, Yu C. Web-scale data integration: You can afford to pay as you go//Proceedings of the 33rd Biennial Conference on Innovative Data Systems Research. Asilomar, 2007:342-350 被引量：1
6Liu Ling. From data privacy to location privacy: Models and algorithms (tutorial)//Proceedings of the 33rd International Conference on Very Large Data bases. Vienna, 2007: 1429- 1430 被引量：1
7Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information (abstract)//Proeeedings of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle, 1998:188 被引量：1
8Cavallo R, Pittarelli M. The theory of probabilistic databases//Proceedings of the 13th International Conference on Very Large Data Bases. Brighton, 1987:71-81 被引量：1
9Barbara D, Garcia-Molina H, Porter D. The management of probabilistic data. IEEE Transactions on Knowledge and Data Engineering, 1992, 4(5): 487-502 被引量：1
10Fuhr N, Rolleke T. A probabilistic relational algebra for the integration of information retrieval and database systems. ACM Transactions on Information Systems, 1997, 15(1): 32-66 被引量：1

共引文献1115

1张旭昱,李琛.基于“隐私悖论”的社交媒体用户隐私保护探究[J].新媒体研究,2023,9(7):50-53.
2娄豪,李晓东,刘晶,金鑫.物流用户隐私信息保护系统[J].北京电子科技学院学报,2019,27(4):18-25. 被引量：1
3操凡.云环境下金融通信信息安全的加密技术研究[J].中国新通信,2020,22(3):44-45.
4陈熠,王仲,任瑞瑞.大数据时代下对个性化服务的伦理思考[J].计算机产品与流通,2019,0(12):261-262.
5杜超,张梅奎.开展远程医学随访服务的应用研究[J].科技新时代,2019,0(3):43-45.
6梁敏.大数据背景下国企人力资源管理的思考[J].科技经济导刊,2020,0(1):206-207.
7余得生,李星.消费者与商家大数据“杀熟”的动态演化博弈研究[J].价格理论与实践,2019(11):129-132. 被引量：19
8魏萌.基于大数据的数据处理与分析应用研究与思考[J].信息通信,2019,0(11):181-182. 被引量：1
9温海滨,裴卓雄.信息系统运维管理的安全风险分析[J].电子技术（上海）,2021,50(10):202-203. 被引量：6
10郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.

同被引文献43

1赵士洁.卫生部、中医药管理局印发《电子病历基本架构与数据标准(试行)》通知[J].中国数字医学,2010,5(2):6-6. 被引量：4
2操美珍.基于UIMA的企业非结构化数据的准确搜索[J].电脑知识与技术,2010,6(5):3334-3336. 被引量：1
3李艳,季新生,项君.基于UIMA的知识发现框架研究及实现[J].计算机工程,2010,36(21):277-279. 被引量：4
4邹志鹏,饶若楠.一种面向非结构化信息的知识获取框架[J].微型电脑应用,2010,26(8):18-21. 被引量：3
5李蕊,李跃,苏剑,卜宪德,侯义明.配电网重要电力用户停电损失及应急策略[J].电网技术,2011,35(10):170-176. 被引量：71
6韩晟,陈衍,彭红波,张铭,葛煦.基于Lucene搜索引擎的非结构化电子病历检索系统[J].中国医疗设备,2012,27(11):64-66. 被引量：4
7张学亮,陈金勇,陈勇.基于Hadoop云计算平台的海量文本处理研究[J].无线电通信技术,2014,40(1):54-57. 被引量：11
8蔡艳婧,王强,程实.基于分布式集群的网络浏览行为大数据分析平台构建[J].中国电子科学研究院学报,2019,14(1):1-7. 被引量：18
9宗周红,钟儒勉,郑沛娟,秦中远,刘琦齐.基于健康监测的桥梁结构损伤预后和安全预后研究进展及挑战[J].中国公路学报,2014,27(12):46-57. 被引量：49
10向春枝,范颖.云计算环境中分布式数据存储关键技术研究[J].现代电子技术,2016,39(3):63-67. 被引量：20

引证文献7

1易心.CIS的意义与作用[J].湖南包装,2000,15(1):41-43.
2田英.基于大数据分析的分布式文件系统关键技术[J].信息与电脑,2019,0(15):140-141. 被引量：3
3李天凤,杨凌燕,耿娟,杨珂,黄艳平.电子病历文本分析系统的设计[J].中国医学装备,2019,16(11):113-118. 被引量：7
4张宏伟,王婧,冀鹏举,邹俊志.分布式环境下的桥梁管理养护信息存储策略[J].交通世界,2020,0(8):30-31. 被引量：1
5董晋.基于云架构的地质测绘管理系统构建[J].粘接,2021,45(3):166-170. 被引量：1
6沈桂城,翁蔚,许鑫.保障大面积停电事件应急处置[J].电力安全技术,2021,23(9):1-4. 被引量：2
7卢峰,吴朝文,陈小龙,张柯柯,桂宁.基于云计算的电力能源大数据清洗模型构建[J].自动化仪表,2022,43(1):72-76. 被引量：8

二级引证文献22

1张文山,张全柱.应急指挥与安全在线监测系统应用研究[J].中国安全科学学报,2022,32(S02):231-235.
2李俊,卫星,唐朝勇,张博伦.桥梁养护2020年度研究进展[J].土木与环境工程学报（中英文）,2021,43(S01):190-197. 被引量：6
3李楠楠.基于区块链的电子病历系统的设计[J].产业科技创新,2020(15):48-49.
4曲琛.电子病历系统在临床中的应用[J].信息与电脑,2020,32(1):108-110.
5龚恒,李小勇.面向海量数据的分布式用户态文件系统研究与设计[J].通信技术,2020,53(2):382-386. 被引量：1
6尹帅龙,夏晨曦.口语化疾病名称向国际规范疾病术语集的映射研究[J].中华医学图书情报杂志,2020,29(1):22-27. 被引量：2
7姜技.基于大数据分析的分布式MOLAP技术研究[J].无线互联科技,2020,17(8):163-164.
8赵沛,曹郡,贾瑞龙.基于hadoop技术的医疗云数据安全管理系统设计与应用[J].生命科学仪器,2020,18(3):77-82. 被引量：2
9李正伟.大数据分析视域下分布式MOLAP技术运用[J].电子技术与软件工程,2021(13):185-186.
10李方航,梁建新,杨丽娟,周瑞云,吴伟红.院前急救电子病历的设计及应用分析[J].岭南急诊医学杂志,2021,26(6):578-580. 被引量：3

1谢果君,沈记全,杨焕焕.基于柯西码的HDFS存储优化策略[J].计算机工程与科学,2019,41(3):440-445. 被引量：4
2贾海宇,陈佳,王铭鑫.无线接入网络中网络功能虚拟化研究综述[J].电信科学,2019,35(1):97-112. 被引量：12
3李媛媛.论港口与航道工程造价管理[J].科技风,2018(27):133-133.
4季一木,李航,尧海昌,陈忱,王汝传.光伏发电在线选配系统设计与实现[J].计算机应用与软件,2018,35(7):91-97. 被引量：2
5陈默祈.谈合作学习在文秘专业文书写作教学中的运用[J].文化创新比较研究,2018,2(14):185-186.
6周旺.α-硫辛酸联合丁苯酞在糖尿病周围神经病变中的应用效果及对患者血清NSE、CP水平的影响[J].中国实用医刊,2019,46(1):98-101. 被引量：10
7在设备上快速查询电池健康[J].电脑爱好者,2019,0(4):27-27.
8贾建波.不稳定型心绞痛非血运重建患者应用低剂量替格瑞洛治疗的效果观察[J].海峡药学,2019,31(3):186-187. 被引量：2
9刘建连.Web网络大数据分类系统开发应用[J].电子世界,2019,0(6):130-131. 被引量：1
10贾婧谈,赵家璇,陈思琪,潘玉清.浅谈基于二叉树存储的Huffman编码[J].数码世界,2018(10):92-92.

中国医院统计

2019年第1期

浏览历史

内容加载中请稍等...

大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究被引量：7

参考文献7

二级参考文献258

共引文献1115

同被引文献43

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究 被引量：7

参考文献7

二级参考文献258

共引文献1115

同被引文献43

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究被引量：7