针对"信息孤岛"中的关系数据融合问题,本文提出并实现了多源关系数据融合的基本框架(multi-source relational data fusion,MSF).框架包含3个主要模块:模式匹配、实体对齐、实体融合.模式匹配面向多源关系数据的属性对齐问题...针对"信息孤岛"中的关系数据融合问题,本文提出并实现了多源关系数据融合的基本框架(multi-source relational data fusion,MSF).框架包含3个主要模块:模式匹配、实体对齐、实体融合.模式匹配面向多源关系数据的属性对齐问题,结合属性值的多维特征,提出基于匈牙利(Hungarian)算法的属性间对齐发现机制,实现了多源关系数据的快速模式匹配.实体对齐连接多源关系中的元组对,通过引入多样性取样策略和实体特征抽取方法,提升了实体对齐的效果.最后将对齐实体进行融合,为数据分析提供统一的数据视图.为了验证MSF的效果和效率,实现了数据融合系统DataPuzzle,并在该系统上,结合真实公开的多领域数据,对提出的方法进行了验证.结果表明,所提出的方法可以高效地实现数据融合,具有较高的查全率、查准率.展开更多
文摘针对"信息孤岛"中的关系数据融合问题,本文提出并实现了多源关系数据融合的基本框架(multi-source relational data fusion,MSF).框架包含3个主要模块:模式匹配、实体对齐、实体融合.模式匹配面向多源关系数据的属性对齐问题,结合属性值的多维特征,提出基于匈牙利(Hungarian)算法的属性间对齐发现机制,实现了多源关系数据的快速模式匹配.实体对齐连接多源关系中的元组对,通过引入多样性取样策略和实体特征抽取方法,提升了实体对齐的效果.最后将对齐实体进行融合,为数据分析提供统一的数据视图.为了验证MSF的效果和效率,实现了数据融合系统DataPuzzle,并在该系统上,结合真实公开的多领域数据,对提出的方法进行了验证.结果表明,所提出的方法可以高效地实现数据融合,具有较高的查全率、查准率.