摘要
数据的质量直接决定着信息服务的质量。在有关数据质量的各种问题中,识别出属于同一个现实实体(对象)的多条记录(表象)是最关键的问题之一。我们把这样的问题称为是对象识别问题。该文分析了近些年对象识别技术的发展,给出了在效率可扩展性、属性值相似度的判断、记录对相似性的判断、集合模型相似性的判断等方面相关的研究方法和存在的研究问题。
Data quality directly determines the quality of information service.About data quality problems,it is one of the most critical is sues to identify a number of records(representation) of the same real entities(objects).It is called object identification.This paper analyzed the recent technical development of object identification.give some recent research methods and problems about efficiency of scalability,at tribute value similarity judgments,record pairs similarity judgment,set model similarity judgment.
出处
《电脑知识与技术》
2012年第7X期5032-5034,共3页
Computer Knowledge and Technology
关键词
对象识别
可扩展性
相似度
记录对
object identification
scalability
similarity
record pair