期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Simhash的大数据去重改进算法 被引量:2
1
作者 周春晖 《计算机与现代化》 2017年第7期38-41,共4页
数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中... 数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。 展开更多
关键词 微博 大数据 去重 Simhash 多线程
下载PDF
一种基于Swift云存储组件的冗余去重方法
2
作者 徐骁 夏敏 +2 位作者 张鹏 陈洁 张照星 《现代计算机》 2017年第23期50-56,共7页
云存储系统通过副本管理策略,在廉价设备上提供了对海量数据快速、安全、可靠的存储服务。云存储系统的发展,为云网盘服务奠定了基础。在实际应用中,网盘服务往往会遇到用户上传相同文件或是转存分享文件的场景,原始的云存储系统不会对... 云存储系统通过副本管理策略,在廉价设备上提供了对海量数据快速、安全、可靠的存储服务。云存储系统的发展,为云网盘服务奠定了基础。在实际应用中,网盘服务往往会遇到用户上传相同文件或是转存分享文件的场景,原始的云存储系统不会对重复文件进行处理,从而使云存储系统内部产生大量冗余,极大地占用存储资源。提出一种基于Swift云存储组件的冗余去重方法从源头消除冗余的产生,并应用到课件管理子系统中。 展开更多
关键词 云存储 冗余 去重 哈希值 副本管理
下载PDF
绿色存储技术
3
作者 张俊鹏 崔磊 《现代电子技术》 2013年第11期165-167,共3页
随着数据量激增,数据中心日益暴露出能耗高,污染大,浪费严重等诸多问题,因此节省能源,构建绿色存储就成为计算机领域意义重大、迫切需要解决的问题。目前越来越多的研究人员开始关注这一领域,但尚未有系统的总结。从宏观和微观两个方面... 随着数据量激增,数据中心日益暴露出能耗高,污染大,浪费严重等诸多问题,因此节省能源,构建绿色存储就成为计算机领域意义重大、迫切需要解决的问题。目前越来越多的研究人员开始关注这一领域,但尚未有系统的总结。从宏观和微观两个方面对绿色存储技术从原理、实现机制到评测手段进行分析和讨论。 展开更多
关键词 绿色存储 存储虚拟化 重复数据删除 自动精简配置 分级存储
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部