期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向不同数据分布的多维直方图算法COCA-Hist 被引量:4
1
作者 曹巍 王珊 +1 位作者 覃雄派 王秋月 《计算机学报》 EI CSCD 北大核心 2008年第6期1013-1024,共12页
基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布... 基于代价的RDBMS优化器需要对含有范围查询的合取谓词的结果集基数进行准确的估计,多维直方图对多维数据分布进行模拟,避免在估计结果集基数时采用数据独立性假设,造成估计误差过大,进而导致选择非优化的查询执行计划.在不同的数据分布情况下,传统的多维直方图(如MHist-2)效果有很大不同.数据相关系数和值域密度、值域参数是准确刻画多维数据分布的有效指标,文中提出了根据不同的指标采用不同的动态优化的多维直方图算法COCA-Hist,可以大大改善传统多维直方图在平均情况下的准确性.通过分析传统的多维直方图的最坏情况,COCA-Hist的改进算法可以改进传统的多维直方图在最坏情况下的准确性.实验比较了COCA-Hist和传统的多维直方图MHist-2以及GENHist和STHoles的准确性和时间效率.实验显示无论在平均情况下还是在最坏情况下COCA-Hist的改进算法均优于传统的MHist-2直方图,并且COCA-Hist的准确性和创建时间均比GENHist有极大的改善,在准确性方面COCA-Hist较优于STHoles,而在空间预算有限时STHoles的创建时间比COCA-Hist高两个数量级. 展开更多
关键词 多维直方图 数据相关系数 值域密度 值域参数 属性值平均跨度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部