-
题名数据质量检测规则挖掘方法
被引量:8
- 1
-
-
作者
刘波
耿寅融
-
机构
暨南大学信息科学技术学院计算机科学系
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2012年第5期835-844,共10页
-
基金
国家自然科学基金项目(No.61003056)
广东省自然科学基金项目(No.S2012010008831)
广东省科技攻关项目(No.2010B010600026)资助
-
文摘
数据质量规则是检测数据库质量的关键.为从关系数据库中自动发现数据质量规则,并以其为依据检测错误数据,研究质量规则表示形式及其评估度量,提出以数据项分组及其可信度为依据的最小质量规则计算准则、挖掘算法以及采用质量规则检测错误数据的思路.该数据质量规则形式借鉴关联规则的可信度评估机制、条件函数依赖的表达能力,统一描述函数依赖、条件函数依赖、关联规则等,具有简洁、客观、全面、检测异常数据准确等特性.与相关研究相比,降低挖掘算法的时间复杂度,提高检错率.用实验证明该方法的有效性和正确性.
-
关键词
数据质量规则
检测
挖掘
数据项分组
-
Keywords
Data Quality Rule, Detection, Mining, Data Item Group
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于数据质量维度的数据清洗方法
被引量:5
- 2
-
-
作者
李琳
-
机构
上海立信会计金融学院
-
出处
《科技创新与应用》
2017年第21期1-5,共5页
-
文摘
随着社会经济的发展和大数据时代的到来,数据在人们日常生活中扮演的角色越来越重要。利用决策支持系统、客户关系管理系统(CRM)等数据库应用项目,我们可以从海量数据中提取更有价值的信息。然而,调查发现很多数据库应用项目的运行效果并不令人满意。数据数量增长的同时,数据质量的控制也给广大研究人员带来一定的困扰。人们越来越意识到,高质量的数据是商业成功的一个重要因素,而数据源中的"脏数据"是导致数据质量低的一个重要原因。为了保证高质量的数据,企业需要采取一系列措施来控制数据质量,并采用一定的手段来处理"脏数据"。然而现实中,检测与清洗数据源中所有"脏数据"的开销是昂贵的。因此,如何根据不同的商业的需求来拣选部分"脏数据"进行清洗具有一定的现实意义。文章在文献分析的基础上,回顾了数据质量、数据质量维度的定义,探讨了常见数据质量问题,阐明了数据质量管理与数据清洗之间的关系。针对"脏数据"拣选问题提出了一种数据清洗方法。最后对数据清洗相关研究进行了展望。
-
关键词
数据质量
数据质量维度
数据质量规则
数据清洗
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据时效性修复问题的求解算法
被引量:4
- 3
-
-
作者
李默涵
李建中
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第9期1992-2001,共10页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2012CB316200)
国家自然科学基金重点项目(61133002)
-
文摘
数据过时问题普遍存在于实际应用中,因此将数据库中的过时数据修复为最新值是提高数据质量的关键步骤.当前主要有基于规则和基于统计2类数据修复方法.基于规则的修复方法能够将领域知识直观地表达为规则的形式,但是难以表达数据中某些复杂的关联关系;基于统计的方法能够表达数据中的复杂关联关系,并修复许多通过规则难以发现和修复的错误,但是该类方法均需要学习较复杂的条件概率分布,且难以直接应用数据语义相关的领域知识.研究数据时效性的修复问题,同时,为了克服当前2类数据修复方法的缺点,提出一类新的修复规则,将规则和统计的方法结合起来修复过时数据.该规则一方面能够以传统规则的方式表达领域知识,另一方面还能够使用其特有的分布表来描述数据随时间变化的统计信息.接着,还给出了修复规则学习算法和数据时效性修复算法.真实和虚拟数据上的实验均验证了算法的有效性.
-
关键词
数据质量
数据时效性
数据修复
数据质量规则
分布表
-
Keywords
data quality
data currency
data repairing
data quality rules
distribution table
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名兼顾行列的时序数据质量规则发现
被引量:2
- 4
-
-
作者
丁小欧
李映泽
王晨
王宏志
李昊轩
-
机构
哈尔滨工业大学计算机科学与技术学院
大数据系统软件国家工程研究中心(清华大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第3期1065-1086,共22页
-
基金
国家自然科学基金(62232005,62202126)
国家重点研发计划(2021YFB3300502)
+1 种基金
CCF-华为胡杨林基金数据库专项(CCF-HuaweiDB202204)
黑龙江省博士后资助项目(LBH-Z21137)。
-
文摘
智能装置设备产生的时序数据增长迅速,存在严重的数据质量问题.劣质时序数据质量管理和数据质量提升技术需求日益迫切.时序数据的有序时窗、行列关联等特点,为时序数据质量语义表达提出了挑战.提出了一种同时考虑时序数据在行与列上的数据依赖信息的数据质量规则,即时序否定约束TDC.研究了TDC的定义与构建方法,从时窗与多阶表达式运算这两个方面,对已有的数据质量规则体系进行表达力的扩展,并提出针对兼顾行列的时序数据质量规则挖掘方法.在真实时序数据集上开展大量实验,实验结果验证了该方法能够有效且高效地挖掘时序数据中隐藏的数据质量规则.对比实验的结果表明,该方法能够有效地对行与列上的关联信息进行谓词构造;在质量规则挖掘效果上优于单纯的行上约束挖掘方法以及单纯的列上约束挖掘方法.
-
关键词
数据质量管理
数据质量规则
时序数据管理
工业大数据
-
Keywords
data quality management
data quality constraint
time series data management
industrial big data
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于正则推断的数据格式规则生成方法
- 5
-
-
作者
李旭
田源
邓红梅
赵淑颖
高俊涛
-
机构
中国石油冀东油田分公司勘察设计与信息化研究院
东北石油大学计算机与信息技术学院
-
出处
《东北石油大学学报》
CAS
北大核心
2023年第6期112-124,I0008,共14页
-
基金
东北石油大学特色领域团队专项(2022TSTD-03)。
-
文摘
为解决手工制定数据质量规则费时费力且容易出错的问题,基于正则推断理论,研究从正样本推断自动生成数据格式规则的方法,提出多尺度样本增强、循环模式和公共子序列抽取的样例泛化策略,构造格式规则候选空间,证明多尺度样本增强的合理性,分析公共子序列对格式规则质量的影响;基于编码成本构造目标函数,利用整数规划方法对候选规则的组合优化问题建模,推荐较优数据质量规则给数据治理者。真实数据集和模拟数据集实验结果表明:该方法生成的规则质量比同类方法平均提高70%,验证算法的可行性和有效性。该方法可以提升制定和管理数据格式规则的效率。
-
关键词
数据质量规则
数据格式规则
正则表达式
正则推断
-
Keywords
data quality rules
data format rules
regular expressions
regular inference
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-
-
题名时态数据质量规则的研究及检测
被引量:1
- 6
-
-
作者
黄慧
李海林
-
机构
三江学院计算机科学与工程学院
南京航空航天大学电子与信息工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2021年第7期1539-1546,共8页
-
基金
国家自然科学基金面上项目(61671239)资助
江苏省高等学校自然科学研究项目(19KJB520049,17KJB520032)资助
三江学院校级科研基金项目(2018SJKY029)资助。
-
文摘
作为检测数据集中不一致数据的方法,函数依赖受到了广泛的关注.近年来,硬约束、等值约束、编辑规则、差分约束等被相继提出,用于发现更多的不一致数据.然而,这些约束规则仅适用于静态数据集中不一致数据的检测,而实际应用中,存在着大量随时间演化的动态数据,已有的规则忽略了具有时态语义数据的描述.该文首先提出了时态数据质量规则的形式化表达,为了提升检测效率,给出一套规则相关的性质,利用性质去除规则集中冗余规则;其次给出了不一致数据检测算法,并通过剪枝的策略对算法优化,再利用算法和不一致数据查询语言获取冲突数据;最后,通过实验验证,本文提出的方法能够检测出更多的不一致数据,经过优化后的算法执行效率较高.
-
关键词
时态数据质量规则
性质
检测算法
不一致数据查询语言
-
Keywords
temporal data quality rules
properties
detection algorithms
inconsistent data query language
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于规则的数据质量评价模型
被引量:21
- 7
-
-
作者
袁满
张雪
-
机构
东北石油大学计算机与信息技术学院
-
出处
《计算机技术与发展》
2013年第3期81-84,89,共5页
-
基金
黑龙江省教育基金项目(11541008)
-
文摘
在对国际与国内关于数据质量定义及评价方面研究成果的分析发现,到目前为止,对这些问题的研究仍然存在许多缺陷,如数据质量的定义不统一,数据质量的评价指标描述不全面,数据质量评价体系不系统等。针对这些问题,提出了以七项指标为基础的全面的数据质量定义,并定义了基于七项指标的十五类数据质量约束规则,给出了它们之间的关系。定义了五元组来形式化描述数据质量评价指标算法,并以完整性评价指标为例详细描述了该算法及其实现过程。为使这些指标与约束规则精准描述及存储,最后基于元数据构建了系列支撑元模型。上述研究成果已在大型企业数据中心数据质量检测与评价中得到了初步应用,并且效果良好。
-
关键词
数据质量
数据质量评价指标
数据质量约束规则
数据质量评价指标算法
元数据
数据质量评价模型
-
Keywords
data quality
data quality assessment indicator
data quality constraint rule
algorithm of data quality assessment indicator
meta-data
data quality assessment model
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据质量约束规则的本体描述及推理研究
被引量:4
- 8
-
-
作者
袁满
谢兰
张晓冉
-
机构
东北石油大学计算机与信息技术学院
-
出处
《吉林大学学报(信息科学版)》
CAS
2017年第6期670-677,共8页
-
基金
东北石油大学国家基金培育基金资助项目(2017PYYL-06)
-
文摘
针对数据质量中约束规则描述的语义复杂性、快速提取等问题,引入本体技术描述数据质量约束规则等要素的语义关系,提出了元本体的思想,对数据质量领域的核心词汇进行了提练,并依据相关标准,构建了与领域无关的数据质量元本体模型。在应用中,特定领域可根据需求将该元本体模型实例化为用于描述本领域的数据质量本体,不仅解决了数据质量领域词汇共享与明确描述问题,而且使数据质量复杂约束规则语义描述得以解决。同时,以石油领域数据为例,依据提出的质量本体元模型实例化出石油领域的质量本体模型,定义了各种推理规则,并基于Jena推理机验证了构建的数据质量本体的合理性,极大地提高了数据质量评估中约束规则提取的效率。
-
关键词
数据质量
数据质量约束规则
元本体
Jena推理
-
Keywords
data quality
data quality constraint rules
meta ontology
Jena reasoning
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-