-
题名基于Simhash的大数据去重改进算法
被引量:2
- 1
-
-
作者
周春晖
-
机构
上海交通大学软件学院
-
出处
《计算机与现代化》
2017年第7期38-41,共4页
-
文摘
数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。
-
关键词
微博
大数据
去重
Simhash
多线程
-
Keywords
mieroblog
big data
deduplieation
Simhash
multi-thread
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于Swift云存储组件的冗余去重方法
- 2
-
-
作者
徐骁
夏敏
张鹏
陈洁
张照星
-
机构
公安部户政管理研究中心
北京大学软件与微电子学院
-
出处
《现代计算机》
2017年第23期50-56,共7页
-
文摘
云存储系统通过副本管理策略,在廉价设备上提供了对海量数据快速、安全、可靠的存储服务。云存储系统的发展,为云网盘服务奠定了基础。在实际应用中,网盘服务往往会遇到用户上传相同文件或是转存分享文件的场景,原始的云存储系统不会对重复文件进行处理,从而使云存储系统内部产生大量冗余,极大地占用存储资源。提出一种基于Swift云存储组件的冗余去重方法从源头消除冗余的产生,并应用到课件管理子系统中。
-
关键词
云存储
冗余
去重
哈希值
副本管理
-
Keywords
Cloud Storage
Redundancy
deduplieation
Hash
Duplicate Management
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名绿色存储技术
- 3
-
-
作者
张俊鹏
崔磊
-
机构
河南省电力公司驻马店供电公司
河南省电力公司检修公司
-
出处
《现代电子技术》
2013年第11期165-167,共3页
-
文摘
随着数据量激增,数据中心日益暴露出能耗高,污染大,浪费严重等诸多问题,因此节省能源,构建绿色存储就成为计算机领域意义重大、迫切需要解决的问题。目前越来越多的研究人员开始关注这一领域,但尚未有系统的总结。从宏观和微观两个方面对绿色存储技术从原理、实现机制到评测手段进行分析和讨论。
-
关键词
绿色存储
存储虚拟化
重复数据删除
自动精简配置
分级存储
-
Keywords
green storage
storage virtualization
deduplieation
thin provision
tiered storage
-
分类号
TN919.534
[电子电信—通信与信息系统]
TP311
[电子电信—信息与通信工程]
-