-
题名基于云计算的海量大数据智能清洗系统设计
被引量:10
- 1
-
-
作者
黄正鹏
王力
张明富
-
机构
贵州工程应用技术学院信息工程学院
-
出处
《现代电子技术》
北大核心
2020年第3期116-120,共5页
-
基金
贵州省教育厅青年科技人才成长项目:扶贫大数据的存储结构及访问优化研究(黔教合KY字[2016]289)
贵州省教育厅创新群体重大研究项目:精准扶贫多源异构数据融合研究与平台建设(黔教合KY字[2016]057)
贵州工程应用技术学院“互联网+”创新创业训练中心(黔教合JX字DC201601号)
-
文摘
大数据资源是企业拥有的最重要的战略资源之一,也是管理层制定远景规划,提高市场竞争力的主要方式和途径,但大数据中会存在错误、冗余和不完整的数据,降低了大数据的总体质量。为此设计一种基于云计算的海量大数据智能清洗系统,改善现有大数据清洗系统在脏数据处理性能上的不足。分析了基于云计算的大数据智能清洗系统的总体框架和硬件构成,数据清洗系统的硬件部分由数据预处理模块、数据云聚类模块、数据识别模块和实体划分模块等部分组成;给出了智能大数据清洗系统的总体软件工作流程,并重点分析大数据空间聚类、相似度计算等关键的数据处理技术。验证结果表明,提出的基于云计算的海量大数据智能清洗系统设计的总体功能性较为完善,在系统性能测试方面也能够保持95%以上的数据查准率和召回率。
-
关键词
云计算
海量大数据
智能清洗系统
云聚类
查准率
召回率
-
Keywords
cloud computing
massive data
intelligent cleaning system
cloud clustering
precision
recall rate
-
分类号
TN02-34
[电子电信—物理电子学]
-
-
题名网络计算机模型下海量大数据存储系统设计
被引量:7
- 2
-
-
作者
古忻艳
-
机构
西安交通大学城市学院
-
出处
《计算机测量与控制》
2017年第6期246-249,共4页
-
文摘
对网络计算机模型下海量大数据进行安全稳定的存储,可以提高网络计算机的使用价值,增加其使用周期。但目前的海量大数据存储方法在存储过程中,无法做到对其进行灵活高效的存储,存在大数据存储分布密度较低,存储开销较大等问题;为此,以网络计算机模型体系结构为基础,提出了一种基于ARM的海量大数据存储系统设计方法;该设计方法先利用ARM芯片对网络计算机模型下海量大数据存储系统进行硬件构造,将网络海量大数据中的可利用与不可利用数据进行分类处理,采用VISA结构根据数据分类结果对大数据存储系统软件部分进行设计,依据大数据调度模型和存储相似度特征对大数据存储的时间,质量等方面进行计算,利用计算结果对大数据传输的阈值以及分布密度进行记录,最后根据循环分段的计算方式进行冗余大数据特性压缩,并对海量大数据的常规数据和冗余数据进行存储;实验仿真证明,所提方法提高了海量大数据存储的兼容性,增强了大数据存储的精确性和灵活性。
-
关键词
网络计算机模型
海量大数据
存储系统
-
Keywords
network computer model
huge amounts of big data
the storage system
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名电站锅炉远程在线服务系统研究
被引量:7
- 3
-
-
作者
马益新
梁希
马会钧
-
机构
无锡市人力资源和社会保障局
重庆大学
无锡华光锅炉股份有限公司
-
出处
《顺德职业技术学院学报》
2015年第1期11-17,共7页
-
文摘
综合应用云存储技术、分布式实时数据库技术、专家系统技术等研制完成了一种针对电站锅炉的远程在线服务系统,给出系统的软件体系架构,介绍了其关键技术及其实现情况,供同类系统研究、开发者参考。
-
关键词
电站锅炉
云存储
远程在线服务
海量大数据
-
Keywords
power plant boiler
cloud storage
remote online service
massive data
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名海量大数据定向采样有差别挖掘算法仿真
- 4
-
-
作者
宁滔
-
机构
桂林电子科技大学计算机工程学院
-
出处
《现代电子技术》
北大核心
2024年第9期164-168,共5页
-
基金
(2021—2024)广西职业教育教学改革重点项目(GXGZJG2021A035)。
-
文摘
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。
-
关键词
海量大数据
网页抓取
定向采样
滤波处理
去冗余
粗糙集
扩展差别矩阵
决策规则
-
Keywords
massive big data
web page crawling
directional sampling
filtering processing
redundancy removal
rough set
extended difference matrix
decision rule
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP311
[电子电信—信息与通信工程]
-
-
题名基于逆向运算法的海量大数据安全存储方法
- 5
-
-
作者
王卓瑜
王磊
陆婷
苏亮
孙婷
-
机构
国网新源控股有限公司
华东宜兴抽水蓄能有限公司
北京中电飞华通信有限公司
-
出处
《兵工自动化》
北大核心
2024年第7期23-26,共4页
-
文摘
为解决传统大数据安全存储方法存在的加解密时间长与存储速率低的问题,提出一种基于逆向运算法的海量大数据安全存储方法。通过AES算法中查询表模块、密匙扩展模块及加解密模块的功能设计实现大数据的加密处理;设计一种用于存储加密数据的海量大数据分层存储模型,在加密数据的读取中,通过逆向运算法恢复数据,实现海量大数据的安全存储;搭建Hadoop集群测试环境测试设计方法的加密性能与存储性能。测试结果表明:该方法的加密与解密时间均低于20 s,影像数据存储速度高于580 MB/s,语音数据存储速度高于916 MB/s,能有效缩短大数据存储的加解密时间,提高多类资源的存储速度。
-
关键词
逆向运算法
分布式传感器
海量大数据
安全存储
Rabin指纹算法
-
Keywords
reverse operation method
distributed sensors
massive big data
safe storage
Rabin fingerprint algorithm
-
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
-
-
题名一种海量大数据云存储系统框架设计
被引量:6
- 6
-
-
作者
费贤举
王树锋
王文
-
机构
常州工学院计算机信息工程学院
-
出处
《常州工学院学报》
2014年第3期38-42,共5页
-
基金
常州市2012年科技局应用基础研究计划项目(CJ20120009)
常州工学院2013年度校级科研基金项目(YN1316)
-
文摘
随着数据爆炸性增长,传统的存储方式已经不再满足海量数据的存储需求,云存储技术的飞速发展,使得云存储成为了一种新型的数据存储解决方案。文章在分析Hadoop分布式文件系统HDFS的基础上,提出了一种新的基于云计算环境的海量大数据存储设计方法,主要给出了文件存储方案设计以及副本方案设计等,为云计算海量数据存储与管理提供了一种可行的关键技术方案。
-
关键词
海量大数据
云存储系统
HDFS
-
Keywords
massive data
cloud storage system
HDFS
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名国产高分遥感数据处理技术及典型应用
被引量:3
- 7
-
-
作者
刘东升
任芳
卫黎光
-
机构
航天宏图信息技术股份有限公司
-
出处
《中国航天》
2020年第5期37-42,共6页
-
文摘
随着我国对地观测技术的不断提升,我国的遥感事业呈现跨越式发展,遥感影像日益呈现出多源、多类型、海量、分布式的发展趋势,为遥感技术研究及深入应用提供了更广阔、更丰富的海量大数据。这些大数据隐含着巨大的社会、经济、科研价值,被誉为未来世界的“石油”,已成为企业界、科技界乃至政界关注的热点。这些宝贵的数据能否发挥价值、发挥多大价值,则取决于从遥感数据到可利用信息的转换过程;而遥感数据的价值,则需要优秀的遥感应用软件进行数据挖掘和分析。
-
关键词
应用软件
对地观测技术
高分遥感数据
遥感技术
典型应用
分布式的
海量大数据
科研价值
-
分类号
TP79
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于云计算的海量大数据存储系统设计和实现
被引量:1
- 8
-
-
作者
孙惠芬
-
机构
江苏联合职业技术学院镇江分院
-
出处
《信息与电脑》
2022年第23期147-149,共3页
-
文摘
云计算技术是大数据存储、处理和管理的一项热门技术。随着互联网中海量数据的爆炸性增加,传统数据存储方式逐渐无法充分满足对海量数据存储的要求,而云计算中的云存储技术为海量数据存储提供了解决思路。为实现对海量数据的管理、存储以及智能分析,基于云计算技术对海量大数据的存储和管理等展开相应的研究,并根据Hadoop架构技术提出了一种新型的海量大数据存储系统设计方案,同时给出了各项模块的设计方案,增强了对海量大数据的高效存储、处理以及管理的能力。
-
关键词
云计算技术
海量大数据
存储系统
Hadoop技术
云存储
-
Keywords
cloud computing technology
massive big data
storage system
Hadoop technology
cloud storage
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于云环境下的海量大数据存储系统的设计
被引量:1
- 9
-
-
作者
裴衣非
王艳艳
李海荣
-
机构
内蒙古科技大学工程训练中心
-
出处
《电子测试》
2018年第19期54-55,共2页
-
基金
内蒙古科技大学重点教改项目资助(JY2016003)
-
文摘
利用云存储项目建立有效的数据存储解决方案具有非常重要的意义和价值。从搭建平台、设计流程以及负载模块处理三方面对云环境下海量大数据存储系统展开了深度分析和研究。
-
关键词
云环境
海量大数据
存储系统
设计
-
Keywords
the cloud environment
massive big data
storage systems
design
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名海量稀疏大数据混合特征个性化推荐算法仿真
- 10
-
-
作者
赵营颖
曹莉
-
机构
河南中医药大学信息技术学院
-
出处
《计算机仿真》
北大核心
2023年第12期563-567,共5页
-
基金
2023年度河南省高校人文社会科学研究一般项目(2023-ZZJH-092)
河南中医药大学2021年教育教学改革研究与实践立项项目(2021JX96)。
-
文摘
在大规模集群稀疏数据中使用混合特征技术处理海量大数据,可以显著优化推荐算法的可扩展性。于是设计了量稀疏大数据混合特征个性化推荐算法。利用逻辑运算方法处理稀疏数据,获取数据之间的关联性系,并及时填补缺失数据。针对大数据具有的数值和属性两种混合特征,通过计算相异性测度,建立混合特征聚类目标函数,实现数据聚类。基于聚类结果,从登陆、注册、检索浏览习惯等方面采集用户行为特征信息。采用显著数据分区检测方法融合用户信息,建立用户偏好挖掘模型,以行为偏好为基础,计算用户对内容的评分情况,将所有项目按照评分值排序,生成推荐列表。仿真结果表明,研究方法的同类大数据聚类准确度更高,平均绝对误差低于0.04,验证了上述方法的推荐结果可满足用户需求。
-
关键词
海量稀疏大数据
混合特征
个性化推荐
特征聚类
行为偏好
-
Keywords
Massive sparse big data
Mixed characteristics
Personalized recommendation
Feature clustering
Behavior preference
-
分类号
TP325
[自动化与计算机技术—计算机系统结构]
-
-
题名基于E2LSH的轨迹KNN查询算法
- 11
-
-
作者
邱磊
吴志兵
-
机构
江南计算技术研究所
-
出处
《计算机技术与发展》
2020年第3期13-18,共6页
-
基金
核高基项目基金(2015zx01040)。
-
文摘
目前海量时空轨迹数据近邻查询算法中存在计算时间复杂度较高的问题,因此提出了一种结合领域POI数据和E2LSH算法的轨迹KNN查询算法。首先利用GeoHash技术对地理空间进行编码,然后结合POI数据实现向量空间的初步降维,进而根据停留时间构建每条轨迹的向量,采用局部敏感哈希函数运算结果建立轨迹索引,最后对查询返回的相似轨迹集合分别进行距离计算,经过排序得到距离最近的K个查询结果。对于增量的轨迹数据,利用E2LSH算法计算哈希值,直接添加轨迹索引,从而避免了复杂的计算过程以及对现有轨迹索引的影响。基于合成数据及真实数据集的实验结果表明,该方法在海量时空轨迹数据的近邻查询中,虽然牺牲了一定的准确率,但有效提升了算法效率,并能够高效简便地处理增量的时空轨迹数据。
-
关键词
海量轨迹大数据
近邻查询
地理空间编码
局部敏感哈希
轨迹索引
-
Keywords
massive trajectory data
KNN-query
geospatial space encode
locality sensitive hashing
trajectory indexing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-