期刊文献+
共找到859篇文章
< 1 2 43 >
每页显示 20 50 100
数据质量和数据清洗研究综述 被引量:266
1
作者 郭志懋 周傲英 《软件学报》 EI CSCD 北大核心 2002年第11期2076-2082,共7页
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最... 对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望. 展开更多
关键词 数据质量 数据清洗 数据库系统 数据集成 相似重复记录
下载PDF
数据治理技术 被引量:163
2
作者 吴信东 董丙冰 +1 位作者 堵新政 杨威 《软件学报》 EI CSCD 北大核心 2019年第9期2830-2856,共27页
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实... 随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据 HAO 治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO 治理的应用;最后是对数据治理的总结和展望. 展开更多
关键词 数据治理 数据规范 数据清洗 数据交换 数据集成
下载PDF
基于时间序列分析的输变电设备状态大数据清洗方法 被引量:85
3
作者 严英杰 盛戈皞 +3 位作者 陈玉峰 江秀臣 郭志红 秦少鹏 《电力系统自动化》 EI CSCD 北大核心 2015年第7期138-144,共7页
数据清洗是输变电设备状态评估数据预处理的一个关键步骤,有助于提高数据质量和数据利用率。文中将设备状态信息等效成各状态量的时间序列,提出了一种基于时间序列分析的双循环迭代检验法。首先,将时间序列中的异常数据进行了分类,并将... 数据清洗是输变电设备状态评估数据预处理的一个关键步骤,有助于提高数据质量和数据利用率。文中将设备状态信息等效成各状态量的时间序列,提出了一种基于时间序列分析的双循环迭代检验法。首先,将时间序列中的异常数据进行了分类,并将缺失值归纳为其中一类异常值。然后,分析了不同类别异常值对时间序列模型的影响,并阐述了迭代检验法的实现步骤。最后,利用所述方法对南网某变压器和线路的监测数据进行了数据清洗,结果表明该方法能识别并修正数据中的噪声点,填补缺失值,满足数据清洗要求。 展开更多
关键词 大数据 数据清洗 时间序列 电力设备状态数据
下载PDF
数据挖掘中数据预处理技术综述 被引量:41
4
作者 刘莉 徐玉生 马志新 《甘肃科学学报》 2003年第1期117-119,共3页
 数据挖掘是数据库系统和信息决策领域的前沿研究方向.论述了数据预处理在数据挖掘中的重要地位,介绍了数据预处理所包含的内容和采用的方法.
关键词 数据挖掘 数据预处理 数据清理 数据集成 数据归约 数据库系统
下载PDF
数字孪生技术在输变电设备状态评估中的应用现状与发展展望 被引量:76
5
作者 齐波 张鹏 +6 位作者 张书琦 赵林杰 王红斌 黄猛 唐志国 冀茂 李成榕 《高电压技术》 EI CAS CSCD 北大核心 2021年第5期1522-1538,共17页
对输变电设备的运行状态进行评估是保证电力系统安全稳定运行的重要手段。传统输变电设备状态评估存在状态感知不全面、数据质量低、评估模型构建困难等瓶颈问题。数字孪生技术打通了实体—感知—建模—应用的全链路流程,基于新型传感... 对输变电设备的运行状态进行评估是保证电力系统安全稳定运行的重要手段。传统输变电设备状态评估存在状态感知不全面、数据质量低、评估模型构建困难等瓶颈问题。数字孪生技术打通了实体—感知—建模—应用的全链路流程,基于新型传感技术实现对输变电设备状态的全面感知,根据输变电设备的运行特征实现传感装置评估、数据深度治理,依靠大数据分析、数据挖掘等构建输变电设备数字孪生体,实现输变电设备的状态差异化评价、故障精准诊断和状态准确预测。数字孪生技术与状态评估技术的深度融合将推动输变电设备的运维管理迈向智慧时代。为此对数字孪生技术在输变电设备状态评估中的应用进行了分析,阐述了包括状态感知、数据治理、模型构建和应用在内的数字孪生技术的具体应用,总结探讨了数字孪生技术在输变电设备状态评估中的应用现状,并对其未来的发展趋势进行了展望。 展开更多
关键词 数字孪生 输变电设备状态评估 传感装置 数据清洗 状态评价 故障诊断 状态预测
下载PDF
结构化数据清洗技术综述 被引量:72
6
作者 郝爽 李国良 +1 位作者 冯建华 王宁 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第12期1037-1050,共14页
数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪... 数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪声的检测技术进行详细阐述。按照数据清洗方式对数据噪声的消除技术进行分类概述,包括基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法。介绍了常用的测评数据集和噪声注入工具,并对未来重点的研究方向进行了探讨和展望。 展开更多
关键词 数据清洗 数据噪声 噪声检测 噪声消除
原文传递
RFID复杂事件处理技术 被引量:54
7
作者 谷峪 于戈 张天成 《计算机科学与探索》 CSCD 2007年第3期255-267,共13页
随着RFID技术的发展,RFID应用正无所不在。通过对RFID数据的深入处理和分析,可以发现更复杂的复合事件和隐含知识,从而有效地支持事件监控、事件预警等先进应用。由于RFID的特殊性,依靠现有的主动数据库技术和数据流管理技术难以实现高... 随着RFID技术的发展,RFID应用正无所不在。通过对RFID数据的深入处理和分析,可以发现更复杂的复合事件和隐含知识,从而有效地支持事件监控、事件预警等先进应用。由于RFID的特殊性,依靠现有的主动数据库技术和数据流管理技术难以实现高效的RFID事件检测和处理。分析了RFID数据的特点,归纳和总结了RFID复杂事件处理的最新技术,讨论了一些亟待解决的新问题,主要有RFID数据清洗方法、以数据为中心的检测技术、以事件为中心的检测技术,以及复杂事件处理系统等,并对今后的研究重点进行了展望。 展开更多
关键词 事件处理 数据库技术 检测技术 中心 应用 隐含知识 事件预警 事件检测 事件监控 清洗方法 管理技术 复合事件 处理系统 新技术 数据流
下载PDF
大数据可用性的研究进展 被引量:65
8
作者 李建中 王宏志 高宏 《软件学报》 EI CSCD 北大核心 2016年第7期1605-1625,共21页
信息技术的迅速发展,催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而随着数据规模的扩大,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数... 信息技术的迅速发展,催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而随着数据规模的扩大,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,展开了深入的研究,取得了一系列研究成果.介绍了数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述了数据可用性方面的研究成果,探索了大数据可用性的未来研究方向. 展开更多
关键词 大数据 数据可用性 数据质量 数据清洗 数据管理
下载PDF
风电机组风速-功率异常运行数据特征及清洗方法 被引量:64
9
作者 沈小军 付雪姣 +1 位作者 周冲成 王伟 《电工技术学报》 EI CSCD 北大核心 2018年第14期3353-3361,共9页
风功率曲线是考核风电机组发电性能的重要指标,对风电场的运行管理和电力系统的运行调度都具有重要意义。实际运行过程的设备故障及人为控制因素会导致风速-功率曲线中存在大量的异常数据,给风功率曲线的后续应用带来严重影响。本文在... 风功率曲线是考核风电机组发电性能的重要指标,对风电场的运行管理和电力系统的运行调度都具有重要意义。实际运行过程的设备故障及人为控制因素会导致风速-功率曲线中存在大量的异常数据,给风功率曲线的后续应用带来严重影响。本文在分析风电机组风速-功率异常运行数据特征的基础上,根据空间分布位置和形态将异常数据分为曲线底部、中部、上部堆积型异常数据和曲线周围分散型异常数据等四类,提出了基于变点分组法与四分位法组合的异常数据识别清洗方法及流程,与四分位-变点分组法以及局部离群因子算法的对比算例验证结果表明,提出的变点分组-四分位法可有效识别四种类型的异常数据,流程合理,清洗效果好,效率高,并具有较强的通用性。 展开更多
关键词 风电机组 风功率曲线 异常数据 数据清洗
下载PDF
数据产权界定:多维视角与体系建构 被引量:62
10
作者 朱宝丽 《法学论坛》 CSSCI 北大核心 2019年第5期78-86,共9页
数据与信息紧密相关但又有区别。基于视角和立场的差异,数据产权归属存在不同声音,应按照物权法原理来界定。从制度经济学和法学两个维度来看,公共数据产权归属国家;自然人或企业自身参与市场活动产生的显名数据产权归属于数据产生者,... 数据与信息紧密相关但又有区别。基于视角和立场的差异,数据产权归属存在不同声音,应按照物权法原理来界定。从制度经济学和法学两个维度来看,公共数据产权归属国家;自然人或企业自身参与市场活动产生的显名数据产权归属于数据产生者,互联网平台双边或多边交易产生数据的产权依照约定或法律规定归属一方或多方共有;清洗脱敏、匿名的增值数据产权归付出劳动者即添附者。数据产权体系涉及诸多主体,在数据使用方面,应坚持基础数据重在权利保护、增值数据重在自由流畅的原则。 展开更多
关键词 数据产权 界定 基础数据 数据清洗
原文传递
数据ETL工具通用框架设计 被引量:26
11
作者 周宏广 周继承 +1 位作者 彭银桥 龙思锐 《计算机应用》 CSCD 北大核心 2003年第12期96-98,共3页
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提... 异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。 展开更多
关键词 数据ETL 数据集成 数据清洗
下载PDF
基于栈式降噪自编码器的输变电设备状态数据清洗方法 被引量:57
12
作者 代杰杰 宋辉 +3 位作者 杨祎 陈玉峰 盛戈皞 江秀臣 《电力系统自动化》 EI CSCD 北大核心 2017年第12期224-230,共7页
针对当前输变电设备状态监测数据清洗过程繁琐,易造成信息丢失等问题,利用栈式降噪自编码器对"脏"数据的还原解析能力及异常状态特征提取能力,提出了一种基于栈式降噪自编码器的数据清洗方法。对设备正常工况及异常运行状态... 针对当前输变电设备状态监测数据清洗过程繁琐,易造成信息丢失等问题,利用栈式降噪自编码器对"脏"数据的还原解析能力及异常状态特征提取能力,提出了一种基于栈式降噪自编码器的数据清洗方法。对设备正常工况及异常运行状态数据分别利用栈式降噪自编码器进行训练学习,获取损失函数向量,形成奇异点、缺失数据修复模型和设备异常运行状态数据降噪模型。通过核密度估计确定训练样本损失函数上限和容限时窗,根据测试数据重构误差和异常数据时长与损失函数上限和容限时窗间的关系,对"脏"数据进行分类处理。对某变压器油色谱中总烃含量及某导线温度数据进行清洗,结果表明所提方法能有效辨识奇异点、缺失信息及异常运行状态数据,并对奇异点、缺失值进行修复重构。在设备异常运行时刻,可以有效过滤干扰数据。 展开更多
关键词 输变电设备 状态数据 数据清洗 栈式降噪自编码器 特征提取
下载PDF
基于LightGBM算法的P2P项目信用评级模型的设计及应用 被引量:53
13
作者 马晓君 沙靖岚 牛雪琪 《数量经济技术经济研究》 CSSCI CSCD 北大核心 2018年第5期144-160,共17页
研究目标:在大数据和互联网金融发展的背景下,依据个人信用,有效控制P2P项目的违约率以保证相关金融项目或平台的良好运营。研究方法:本文基于美国P2P平台Lending Club的海量真实交易数据,采用"多观测"与"多维度"... 研究目标:在大数据和互联网金融发展的背景下,依据个人信用,有效控制P2P项目的违约率以保证相关金融项目或平台的良好运营。研究方法:本文基于美国P2P平台Lending Club的海量真实交易数据,采用"多观测"与"多维度"两种数据清洗方式,运用2016年微软亚洲研究院提出的机器学习算法LightGBM,兼顾权威性和创新性地对平台内贷款项目的违约风险进行预测,并对不同数据清洗方法的结果进行比较。研究发现:基于多观测的LightGBM算法的预测结果最好,比Lending Club平台历史交易数据算的平均履约率提升了1.28个百分点,可减少约1.17亿美元的违约借款。研究创新:运用不同的数据清洗方式和较为前沿的机器学习算法(LightGBM)预测违约率。研究价值:在LightGBM算法得出违约率影响因素的结果基础上,可以明确Lending Club及广大P2P平台的改进内容和各国在该领域内发展完善的方向。 展开更多
关键词 P2P 信用评级 违约率控制 数据清洗 LightGBM算法
原文传递
大规模配电网负荷数据在线清洗与修复方法研究 被引量:48
14
作者 刁赢龙 盛万兴 +2 位作者 刘科研 何开元 孟晓丽 《电网技术》 EI CSCD 北大核心 2015年第11期3134-3140,共7页
为减少数据缓存成本,提高负荷数据在配电网规划设计、智能分析等领域的可用性,充分有效地对大规模、混杂、不精确的监测或采集负荷数据进行在线清洗,保证每个周期的时序数据得到一致的偏差检测和精确修复,在分析不同类型异常负荷数据产... 为减少数据缓存成本,提高负荷数据在配电网规划设计、智能分析等领域的可用性,充分有效地对大规模、混杂、不精确的监测或采集负荷数据进行在线清洗,保证每个周期的时序数据得到一致的偏差检测和精确修复,在分析不同类型异常负荷数据产生原因和分布特点的基础上,提出一种面向大规模配电网负荷数据的在线清洗与修复方法,包括基于密度的负荷数据流异常辨识方法和基于协同过滤推荐算法的负荷数据修复方法。为突破配电网负荷大数据在线分析性能瓶颈,还在Hadoop平台上给出相应的分布式并行解决方案,通过使用实际配电网运行中的负荷数据进行验证,结果表明所提算法和框架能够有效预处理配电网负荷数据,具有实际应用价值。 展开更多
关键词 数据清洗 流数据 大规模配电网 在线清洗
下载PDF
大数据环境下面向知识服务的数据清洗研究 被引量:47
15
作者 蒋勋 刘喜文 《图书与情报》 CSSCI 北大核心 2013年第5期16-21,共6页
大数据既丰富了知识的内涵,也增添了知识显式化的障碍。对大数据进行数据清洗是最终获取知识的有效途径。由大数据的特点对知识服务重新提出要求,不仅要提高数据的使用价值,更要使数据严密的关联,这些要求一方面通过数据清洗满足数据质... 大数据既丰富了知识的内涵,也增添了知识显式化的障碍。对大数据进行数据清洗是最终获取知识的有效途径。由大数据的特点对知识服务重新提出要求,不仅要提高数据的使用价值,更要使数据严密的关联,这些要求一方面通过数据清洗满足数据质量的提高,另一方面容忍非清洁数据实现知识服务效率与水平的同步提高。文章给出了数据清洗的基本框架模型及其局限,从而进一步提出非清洁数据的清洁度的机制。 展开更多
关键词 大数据 知识服务 知识库 数据清洗 非清洁数据 清洁度
下载PDF
基于任务合并的并行大数据清洗过程优化 被引量:47
16
作者 杨东华 李宁宁 +2 位作者 王宏志 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2016年第1期97-108,共12页
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导... 数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率. 展开更多
关键词 大数据 多任务优化 海量数据 数据清洗 HADOOP MAPREDUCE
下载PDF
基于置信等效边界模型的风功率数据清洗方法 被引量:46
17
作者 胡阳 乔依林 《电力系统自动化》 EI CSCD 北大核心 2018年第15期18-23,149,共7页
针对风电运行数据中存在的大量异常数据,结合风机运行过程与数据不确定性统计提出了一种基于置信等效边界模型的风功率数据清洗方法。首先,基于风机运行机理及运行策略提出了风速、风轮转速和功率三维关联性关系,依照风速对异常数据进... 针对风电运行数据中存在的大量异常数据,结合风机运行过程与数据不确定性统计提出了一种基于置信等效边界模型的风功率数据清洗方法。首先,基于风机运行机理及运行策略提出了风速、风轮转速和功率三维关联性关系,依照风速对异常数据进行分段精细化剔除;在此基础上,结合Copula理论分运行区间建立了风速条件下风机输出功率的条件概率分布,进而求得功率在一定置信度水平下的等效边界模型,可直接用于异常数据识别剔除,提高有效数据占比;然后,采用分段三次Hermite插值法重构缺失数据,得到完整风速、功率有效数据;最后,定义置信度带宽比等数据清洗质量评价指标,采用k折交叉验证置信等效边界模型性能。选取某型号风机实际运行数据进行实例分析,结果显示清洗后数据具有更高的置信度带宽比、更适中的偏度及更高的峰度,进而表明有效数据占比大大增加且分布更加集中,表明了所提方法的有效性和合理性。 展开更多
关键词 风功率数据 数据清洗 COPULA理论 不确定性 HERMITE插值
下载PDF
智慧电厂一体化大数据平台关键技术及应用分析 被引量:44
18
作者 张帆 《华电技术》 CAS 2017年第2期1-3,7,共4页
智慧电厂建设是电力行业信息化的发展方向,建立一体化大数据平台对电厂产生的各类数据进行处理是建设智慧电厂的一个关键步骤。根据电力行业特征,分析数据来源和数据结构,设计了专用数据平台架构来处理数据并进行深度挖掘计算,给出精确... 智慧电厂建设是电力行业信息化的发展方向,建立一体化大数据平台对电厂产生的各类数据进行处理是建设智慧电厂的一个关键步骤。根据电力行业特征,分析数据来源和数据结构,设计了专用数据平台架构来处理数据并进行深度挖掘计算,给出精确的决策支持信息。最后,在某燃煤电厂实际运行该平台,表明该平台能处理好电厂大数据并正确得出所需信息。 展开更多
关键词 燃煤电厂 智慧电厂 大数据 数据清洗 智能预警
下载PDF
一种融合多种编辑距离的字符串相似度计算方法 被引量:41
19
作者 刁兴春 谭明超 曹建军 《计算机应用研究》 CSCD 北大核心 2010年第12期4523-4525,共3页
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似... 针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。 展开更多
关键词 数据清洗 相似重复记录 字符串匹配 字符串相似度 编辑距离
下载PDF
基于关联数据的一致性和时效性清洗方法 被引量:42
20
作者 杜岳峰 申德荣 +2 位作者 聂铁铮 寇月 于戈 《计算机学报》 EI CSCD 北大核心 2017年第1期92-106,共15页
数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFD... 数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFDs和CCs检测和修复,最终影响数据的整体质量.值得一提的是,这些数据通常是相互关联的,这种关联关系可以用来发现数据中的潜在错误.文中使用了一种条件合并的函数依赖(CCFDs)将关联数据放在一起进行处理.基于此,该文提出了一种基于关联数据的一致性和时效性清洗方法.在数据清洗过程中,数据的检测和修复是两个相互影响的过程.所以,该文设计了一种新的自动清洗框架,迭代地进行数据检测和数据修复.其次,该文对关联数据的一致性和时效性清洗的相关问题进行了分析,并且证明了关于CCFDs和CCs的最小代价修复问题是一个Σ~p_2完全(NP^(NP))问题.进而,该文采用一种启发式的修复方法对错误进行修复.为了提高修复的准确性,该文还提出了一种修复序列图的概念.最后,通过在两组真实数据上进行实验,验证了方法的实用性和高效性. 展开更多
关键词 数据一致性 数据时效性 大数据质量 关联数据 数据清洗
下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部