期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Dtrie-allpair:高效的集合T-覆盖连接算法 被引量:2
1
作者 贾连印 奚建清 +3 位作者 李孟娟 游进国 刘勇 苗德成 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期109-117,共9页
传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie的动态索引结构——DTI结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair算法.通过该算法可以直接得到allpair连接的结果,不产生任... 传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie的动态索引结构——DTI结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair算法.通过该算法可以直接得到allpair连接的结果,不产生任何候选集,有效解决了高候选集产生的问题,克服了传统算法因生成并验证候选集而带来的开销.文中还研究了数据库中记录的顺序及记录中元素顺序对Dtrie-allpair算法性能的影响,并在msweb、msnbc两个数据集下对Dtrie-allpair算法与All-pair、PPJoin算法进行对比.结果表明:Dtrie-allpair算法具有明显的优势,覆盖阈值较小时优势更明显;对msweb数据集,阈值为2时,Dtrie-allpair算法的效率相对于All-pair、PPJoin算法提高近两个数量级;通过对数据集进行频率降序和长度升序组合预处理可大幅降低Dtrie-allpair算法访问的trie结点数量,从而显著提升性能. 展开更多
关键词 集合相似度 T-覆盖连接 覆盖阈值 基于trie的动态索引 All-pair算法 pp-join算法 频率降序 长度升序
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部