-
题名异构模式中关联数据的一致性规则发现方法
被引量:9
- 1
-
-
作者
杜岳峰
李晓光
宋宝燕
-
机构
辽宁大学信息学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第9期1939-1948,共10页
-
基金
国家自然科学基金项目(U1811261)
辽宁公共舆情与网络安全大数据系统工程实验室专项资金
辽宁省自然科学基金项目。
-
文摘
数据一致性是数据质量管理的一项核心事务.规则约束作为一种抽象化、形式化的数据关系表达技术,可以有效地进行数据一致性管理.但是,在进行多源数据一致性管理的过程中,由于异源数据所属的关系模式不同,给一致性规则融合带来了挑战.另外,不论同源数据还是异源数据,数据之间是相互关联的,可以利用这种关系强化规则约束中语义含义的表达作用,发现数据中的潜在错误.具体地,条件包含依赖(conditional inclusion dependencies,CINDs)和内容相关的条件函数依赖(content-related conditional functional dependencies,CCFDs)可以分别用于异构模式的属性匹配和内容关联数据的一致性维护.基于此,对面向异构关系模式中关于关联数据的一致性规则发现问题进行研究.首先,针对使用CINDs进行异构模式中CCFDs规则发现的基本问题进行分析,对规则发现的可满足性、蕴含性和可验证性问题进行解释,它们分别满足NP-complete,coNP-complete,PTIME的复杂性判定问题.其次,为了对规则空间内的全部CCFDs进行发现,以CCFDs中的条件属性和变量属性为划分依据,提出了一种2级lattice的搜索结构.再次,设计了一种基于CINDs和CCFDs的异构关联数据一致性规则发现方法,使用CINDs对规则形式进行融合,而后通过增量发现方式查找一致性规则.最后,通过在2组真实数据进行实验,验证了方法的有效性和高效性.
-
关键词
异构关系模式
关联数据
条件包含依赖
内容相关的条件函数依赖
规则发现
-
Keywords
heterogeneous schemas
associated data
CINDs(conditional inclusion dependencies)
CCFDs(content-related conditional functional dependencies)
constraints discovery
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-