-
题名人在回路的数据融合系统
被引量:2
- 1
-
-
作者
孙佶
李国良
-
机构
清华大学计算机系
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第3期654-668,共15页
-
基金
国家自然科学基金“众包数据库基础理论与关键技术”(61632016)、“智能数据管理”(61925205)资助
-
文摘
一个端到端的数据融合系统在如下几个阶段需要用户的反馈,包括为实体匹配收集训练数据的阶段,对计算出来的实体聚类进行纠错的阶段以及对每个实体聚类中的数据形式进行转换的阶段.经过这些步骤之后,数据融合系统可以将每个实体分组中的实体合并成一条权威的实体表示(被称作“黄金记录”).传统的数据融合系统通常会按照特定的顺序,在用户时间代价不超过预算的前提下,依次询问特定集合中的问题并且获得用户反馈.可是,由于这些问题是高度相关的,一个问题的答案会影响到数据处理管道中任何一个阶段的结果,所以将各个阶段交替进行并且对他们的执行顺序进行全局优化能带来显著的收益.在这篇文章中,我们提出一个“人在回路”的数据融合系统,通过交替询问不同种类的问题来减少获得用户回答的代价.基于这个框架,我们提出了一些不同种类问题能够带来的数据融合质量提升的收益评价模型,以及不同问题需要的用户回答时间的代价评估模型.在这个端到端的“人在回路”数据融合系统中,我们开发出一个问题调度框架来精心选择问题集合以及问题询问的顺序,最终实现利用同等的用户代价让实体合并的精确度从基线方法的70%提升到90%.
-
关键词
数据融合
实体匹配
实体合并
人在回路
机器学习
相似查询
代价优化
-
Keywords
data integration
entity matching
entity consolidation
human-in-the-loop
machine learning
similarity queries
cost optimization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名P2P环境中k最近邻搜索算法研究
被引量:1
- 2
-
-
作者
余小高
-
机构
湖北经济学院信息管理学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2009年第9期61-63,共3页
-
基金
国家社会科学基金项目(09BJY106)
-
文摘
在d维空间n个数据点中,k近邻搜索用于查找给定查询点的k个最近邻居.针对k最近邻搜索算法存在的问题,提出了一种基于P2P的k最近邻自适应搜索算法PKA.探讨了度量空间、相似性查询和GHT*规则,定义了高维数据的相似度函数ESF(X,Y),论述了GHT*中插入算法及范围查找算法和搜索算法.在此基础上,具体给出了PKA算法的实现方法,并验证了其正确性.
-
关键词
度量空间
分布式
相似性查询
-
Keywords
metric space
KNNs
similarity queries
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名超平面树:度量空间中相似性搜索的索引结构
被引量:2
- 3
-
-
作者
李建中
张兆功
-
机构
哈尔滨工业大学计算机科学与技术学院
黑龙江大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2003年第8期1209-1215,共7页
-
基金
国家自然科学基金 ( 60 2 73 0 82 )
国家"九七三"重点基础研究发展规划基金 (G19990 3 2 70 4)
+2 种基金
国家"八六三"高技术研究发展计划( 2 0 0 1- AA -415 - 410 )
国家教委博士基金 ( 2 0 0 0 0 2 13 0 3 )
黑龙江省自然科学基金 (F0 0 - 11)
-
文摘
相似性搜索是从数据库中检索出同给定数据对象相似的数据对象 ,已有的基于R tree的相似性搜索 ,当搜索空间的维的个数较小时效率较高 ,但当搜索空间的维的个数较大时则效率很低 针对此问题 ,提出了新的度量空间分割方法和索引结构 pgh tree,利用数据对象与很少几个固定参考对象的距离之差进行数据分割和索引 ,产生一个平衡的索引树 在此基础上 ,提出了新的算法 ,利用查询数据对象与固定参考对象的距离之差过滤掉大部分的不相关数据 ,具有较小的I/O代价和距离计算复杂性 ,平均复杂性为θ(n0 58) ,是目前复杂性最小的相似性搜索算法 另外还讨论了基于 pgh tree的最近相邻点搜索策略 .
-
关键词
算法
相似性搜索
度量空间
数据库
数据挖掘
-
Keywords
algorithm
similarity search queries
metric space
database
data mining
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP391
[自动化与计算机技术—计算机科学与技术]
-