期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于关联数据的一致性和时效性清洗方法 被引量:42
1
作者 杜岳峰 申德荣 +2 位作者 聂铁铮 寇月 于戈 《计算机学报》 EI CSCD 北大核心 2017年第1期92-106,共15页
数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFD... 数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFDs和CCs检测和修复,最终影响数据的整体质量.值得一提的是,这些数据通常是相互关联的,这种关联关系可以用来发现数据中的潜在错误.文中使用了一种条件合并的函数依赖(CCFDs)将关联数据放在一起进行处理.基于此,该文提出了一种基于关联数据的一致性和时效性清洗方法.在数据清洗过程中,数据的检测和修复是两个相互影响的过程.所以,该文设计了一种新的自动清洗框架,迭代地进行数据检测和数据修复.其次,该文对关联数据的一致性和时效性清洗的相关问题进行了分析,并且证明了关于CCFDs和CCs的最小代价修复问题是一个Σ~p_2完全(NP^(NP))问题.进而,该文采用一种启发式的修复方法对错误进行修复.为了提高修复的准确性,该文还提出了一种修复序列图的概念.最后,通过在两组真实数据上进行实验,验证了方法的实用性和高效性. 展开更多
关键词 数据一致性 数据时效性 大数据质量 关联数据 数据清洗
下载PDF
数据时效性判定问题的求解算法 被引量:20
2
作者 李默涵 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2012年第11期2348-2360,共13页
数据的时效性问题是影响数据质量的重要因素之一.时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要.许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难.... 数据的时效性问题是影响数据质量的重要因素之一.时效性差的数据会对企业决策和人们的日常生活带来许多不利影响,这使得判定数据的时效性成为必要.许多应用数据库中都没有完整、清洁、可用的时间戳,从而导致数据时效性的判定非常困难.冗余记录和时效约束能够在时间戳缺失的情况下有效地辅助恢复数据的时序关系,因而能够帮助数据时效性的判定.文中研究包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.首先,文中定义了查询相关时效性和用户相关时效性.在判定查询相关时效性时,文中将查询归结为最新值查询和时效序列查询两类,并分别根据两类查询的特点,对每类查询定义了查询结果时效性和平均时效性.然后,文中提出了时效图的概念.利用时效图,文中给出了查询相关时效性和用户相关时效性判定问题的求解算法.最后给出了真实数据和虚拟数据上的实验结果,验证了文中算法较高的执行效率,并分析了各个参数对算法的影响. 展开更多
关键词 数据质量 数据时效性 相关时效性
下载PDF
基于时效规则的数据修复方法 被引量:12
3
作者 段旭良 郭兵 +3 位作者 沈艳 申云成 董祥千 张洪 《软件学报》 EI CSCD 北大核心 2019年第3期589-603,共15页
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不... 数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果. 展开更多
关键词 数据质量 数据时效 数据修复 数据清洗 个人大数据
下载PDF
电能质量扰动数据可用性评估与可视化软件设计 被引量:8
4
作者 王俊淇 张华赢 +5 位作者 胡文曦 李艳 赵誉洲 肖先勇 汪颖 张文海 《电网技术》 EI CSCD 北大核心 2022年第3期1109-1116,共8页
电能质量扰动数据的获得过程中,由于系统设备故障或人为操作等原因,均可能在不同程度上影响数据质量,准确评估数据的可用性水平是后续数据清洗与分析的前提条件。针对现有方法通常采用单一指标对数据质量进行片面评价且难以量化数据多... 电能质量扰动数据的获得过程中,由于系统设备故障或人为操作等原因,均可能在不同程度上影响数据质量,准确评估数据的可用性水平是后续数据清洗与分析的前提条件。针对现有方法通常采用单一指标对数据质量进行片面评价且难以量化数据多大程度上可被后续分析利用的缺陷,该方法结合电能质量扰动自身的特点,采用多监测点频率相关性对数据时效性进行评估,并且针对准确性评估无法检测接线错误造成可靠性低的问题,提出基于分层规则检验的准确性评估方法。在分析不同维度数据质量对扰动分析结果的影响关系后,提出电能质量扰动数据可用性评估方法。在此基础上以电能质量监测数据为例,基于VxWorks操作系统在电能质量监测系统中开发数据可用性可视化软件供电力系统运营人员在海量数据中分析监测装置的运行状态,最后通过在线实测数据对该文方法进行验证,结果证明该方法具有工程实用价值。 展开更多
关键词 电能质量扰动数据 可用性程度 数据质量 时效性 可视化
下载PDF
数据时效性判定:关键理论和技术 被引量:4
5
作者 李默涵 李建中 《智能计算机与应用》 2016年第6期72-75,共4页
当前,随着大数据时代的来临,数据质量问题受到越来越多的关注。数据质量会随着时间的流逝迅速下降,因此在数据质量的各个维度中,数据时效性扮演的角色至关重要。判定一个给定的数据集合的时效性是确保数据时效性是第一步,但数据时效性... 当前,随着大数据时代的来临,数据质量问题受到越来越多的关注。数据质量会随着时间的流逝迅速下降,因此在数据质量的各个维度中,数据时效性扮演的角色至关重要。判定一个给定的数据集合的时效性是确保数据时效性是第一步,但数据时效性的判定并非易事,其面临极大挑战。本文针对时效性判定问题面临的各个挑战,综述了当前该领域针对绝对时效性判定和相对时效性判定的关键理论和技术,分析了现有的各方法的优缺点,并对未来的研究方向给出了建议。 展开更多
关键词 数据质量 数据时效性 时效性判定
下载PDF
数据时效性修复问题的求解算法 被引量:4
6
作者 李默涵 李建中 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期1992-2001,共10页
数据过时问题普遍存在于实际应用中,因此将数据库中的过时数据修复为最新值是提高数据质量的关键步骤.当前主要有基于规则和基于统计2类数据修复方法.基于规则的修复方法能够将领域知识直观地表达为规则的形式,但是难以表达数据中某些... 数据过时问题普遍存在于实际应用中,因此将数据库中的过时数据修复为最新值是提高数据质量的关键步骤.当前主要有基于规则和基于统计2类数据修复方法.基于规则的修复方法能够将领域知识直观地表达为规则的形式,但是难以表达数据中某些复杂的关联关系;基于统计的方法能够表达数据中的复杂关联关系,并修复许多通过规则难以发现和修复的错误,但是该类方法均需要学习较复杂的条件概率分布,且难以直接应用数据语义相关的领域知识.研究数据时效性的修复问题,同时,为了克服当前2类数据修复方法的缺点,提出一类新的修复规则,将规则和统计的方法结合起来修复过时数据.该规则一方面能够以传统规则的方式表达领域知识,另一方面还能够使用其特有的分布表来描述数据随时间变化的统计信息.接着,还给出了修复规则学习算法和数据时效性修复算法.真实和虚拟数据上的实验均验证了算法的有效性. 展开更多
关键词 数据质量 数据时效性 数据修复 数据质量规则 分布表
下载PDF
Efficient Currency Determination Algorithms for Dynamic Data 被引量:2
7
作者 Xiaoou Ding Hongzhi Wang +2 位作者 Yitong Gao Jianzhong Li Hong Gao 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2017年第3期227-242,共16页
Data quality is an important aspect in data application and management, and currency is one of the major dimensions influencing its quality. In real applications, datasets timestamps are often incomplete and unavailab... Data quality is an important aspect in data application and management, and currency is one of the major dimensions influencing its quality. In real applications, datasets timestamps are often incomplete and unavailable, or even absent. With the increasing requirements to update real-time data, existing methods can fail to adequately determine the currency of entities. In consideration of the velocity of big data, we propose a series of efficient algorithms for determining the currency of dynamic datasets, which we divide into two steps. In the preprocessing step, to better determine data currency and accelerate dataset updating, we propose the use of a topological graph of the processing order of the entity attributes. Then, we construct an Entity Query B-Tree (EQB-Tree) structure and an Entity Storage Dynamic Linked List (ES-DLL) to improve the querying and updating processes of both the data currency graph and currency scores. In the currency determination step, we propose definitions of the currency score and currency information for tuples referring to the same entity and use examples to discuss methods and algorithms for their computation. Based on our experimental results with both real and synthetic data, we verify that our methods can efficiently update data in the correct order of currency. 展开更多
关键词 data quality management data currency dynamic determining
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部