期刊文献+
共找到514篇文章
< 1 2 26 >
每页显示 20 50 100
机器学习化数据库系统研究综述 被引量:32
1
作者 孟小峰 马超红 杨晨 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1803-1820,共18页
数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优... 数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优化偏好不能实时地调整为最佳运行时状态.而数据库系统的性能优化进入瓶颈期,优化空间收窄,进一步优化只能依托新的硬件加速器来实现,传统的数据库系统不能够有效利用现代的硬件加速器;数据库系统具有成百个可调参数,面对工作负载频繁变化,大量繁琐的参数配置已经超出DBA的能力,这使得数据库系统面对快速而又多样性的变化缺乏实时响应能力.当下机器学习技术恰好同时符合这2个条件:应用现代加速器以及从众多参数调节经验中学习.机器学习化数据库系统将机器学习技术引入到数据库系统设计中.一方面将顺序扫描转化为计算模型,从而能够利用现代硬件加速平台;另一方面将DBA的经验转化为预测模型,从而使得数据库系统更加智能地动态适应工作负载的快速多样性变化.将对机器学习化数据库系统当前的研究工作进行总结与归纳,主要包括存储管理、查询优化的机器学习化研究以及自动化的数据库管理系统.在对已有技术分析的基础上,指出了机器学习化数据库系统的未来研究方向及可能面临的问题与挑战. 展开更多
关键词 数据库系统 机器学习 学习化索引 自动化数据库系统
下载PDF
基于中间层的可扩展学习索引技术 被引量:14
2
作者 高远宁 叶金标 +2 位作者 杨念祖 高晓沨 陈贵海 《软件学报》 EI CSCD 北大核心 2020年第3期620-633,共14页
在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代... 在大数据与云计算时代,数据访问速度是衡量大规模存储系统性能的一个重要指标.因此,如何设计一种轻量、高效的数据索引结构,从而满足系统高吞吐率、低内存占用的需求,是当前数据库领域的研究热点之一.Kraska等人提出使用机器学习模型代替传统的B树索引,并在真实数据集上取得了不错的效果,但其提出的模型假设工作负载是静态的、只读的,对于索引更新问题没有提出很好的解决办法.提出了基于中间层的可扩展的学习索引模型Dabble,用来解决索引更新引发的模型重训练问题.首先,Dabble模型利用K-Means聚类算法将数据集划分为K个区域,并训练K个神经网络分别学习不同区域的数据分布.在模型训练阶段,创新性地把数据的访问热点信息融入到神经网络中,从而提高模型对热点数据的预测精度.在数据插入时,借鉴了LSM树延迟更新的思想,提高了数据写入速度.在索引更新阶段,提出一种基于中间层的机制将模型解耦,从而缓解由于数据插入带来的模型更新问题.分别在Lognormal数据集以及Weblogs数据集上进行实验验证,结果表明,与当前先进的方法相比,Dabble模型在查询以及索引更新方面都取得了非常好的效果. 展开更多
关键词 学习索引 聚类 神经网络 动态更新
下载PDF
智能数据库学习型索引研究综述 被引量:4
3
作者 蔡盼 张少敏 +3 位作者 刘沛然 孙路明 李翠平 陈红 《计算机学报》 EI CAS CSCD 北大核心 2023年第1期51-69,共19页
建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据... 建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望. 展开更多
关键词 机器学习 学习型索引 索引结构 RMI模型 智能数据库
下载PDF
APLI:一种基于持久化内存的高性能学习索引
4
作者 王中华 赖必梁 +2 位作者 赵泽阳 鲁凯 万继光 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2110-2118,共9页
持久化内存(Persistent Memory,PM)已成为容量有限的DRAM的最有潜力的补充或者替代品.学习索引(Learned Index,LI)作为一种感知数据分布的索引结构,在大数据集上能够以较小的内存使用量展现远优于B+树的性能而被广泛关注.最近,一些研究... 持久化内存(Persistent Memory,PM)已成为容量有限的DRAM的最有潜力的补充或者替代品.学习索引(Learned Index,LI)作为一种感知数据分布的索引结构,在大数据集上能够以较小的内存使用量展现远优于B+树的性能而被广泛关注.最近,一些研究者尝试将学习索引部署在持久化内存中,然而现有的持久化学习索引存在读写性能次优化、结构扩展性不足、动态负载性能不统一等问题.为此,本文在深入分析了持久化内存和学习索引特性的基础上,提出了一种自适应的持久化学习索引结构APLI.APLI由两部分组成:1)高效的混合介质的持久化学习索引树(EPL-Tree),提供稳定的读写性能和结构扩展;2)轻量级的哈希表(SW-Table),用于快速感知负载变化并提升热点访问的性能.在持久化内存真实设备上的评估表明,相比现有的持久化索引结构,APLI读写性能最高分别提升3.2倍和3.3倍,而且拥有更稳定的结构扩展性能.另外,APLI能在较小的DRAM空间占用前提下,实现各种负载场景下的稳定高性能访问. 展开更多
关键词 非易失内存 索引结构 学习索引 持久化索引 键值存储
下载PDF
基于改进的K-means聚类分区均匀化空间学习索引
5
作者 傅晨华 张丰 +1 位作者 胡林舒 王立君 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2024年第2期153-161,195,共10页
传统空间索引的体量随数据量的增加而膨胀,查询效率较低。学习索引的体量不随数据量的增加而膨胀,同时避免了层级比较查询,性能优异。将学习索引应用于空间索引存在2个难点:一是选取合适的降维方法实现空间数据的排序;二是对降维后数据... 传统空间索引的体量随数据量的增加而膨胀,查询效率较低。学习索引的体量不随数据量的增加而膨胀,同时避免了层级比较查询,性能优异。将学习索引应用于空间索引存在2个难点:一是选取合适的降维方法实现空间数据的排序;二是对降维后数据序列进行有效的简化分布计算,使其易于拟合。基于此,提出了一种网格混合聚类分区学习索引(grid-ml),用z曲线进行降维,用双层网格结构优化查询策略,用改进的K-means聚类算法进行数据分区,实现数据分布均匀化。对比实验发现,grid-ml构建速度快、存储空间小、查询效率高,较传统空间索引优势显著。 展开更多
关键词 学习索引 K-MEANS聚类 空间填充曲线 空间索引
下载PDF
一种满足动态数据高频读写的高性能学习型索引
6
作者 郭娜 孙文礼 +3 位作者 王雅琪 蔡飞 姜皓南 夏秀峰 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2808-2816,共9页
在诸多应用如目标跟踪定位服务和工厂生产线中的数据往往是大量且频繁变化的,这些数据需要被实时存储在数据库中并能够快速响应高频率读写,以备在后续环节中被及时处理.学习型索引由于其“低耗高效”的特点而被广泛应用,但现有的学习型... 在诸多应用如目标跟踪定位服务和工厂生产线中的数据往往是大量且频繁变化的,这些数据需要被实时存储在数据库中并能够快速响应高频率读写,以备在后续环节中被及时处理.学习型索引由于其“低耗高效”的特点而被广泛应用,但现有的学习型索引结构并不能很好地处理频繁变化的动态数据.针对此类频繁更新的动态数据,设计了一种新的高性能学习型索引HPLI,采用一种懒惰式内存释放策略来加速索引的更新;采用子区间独立的键值管理方法用于减少写放大;构建了一个分布转换模型来均衡学习型索引的查询性能与内存占用.对分布转换模型的参数进行压缩,用极少参数的非线性函数作为回归目标模型,可有效降低计算开销对索引性能的影响.实验结果表明,与目前最优的学习型索引结构相比,HPLI可在内存开销更小的情况下具备更好的性能. 展开更多
关键词 学习型索引 内存释放策略 子区间独立 分布转换模型 非线性变换 参数压缩
下载PDF
基于分步降维的高维学习索引研究
7
作者 刘进军 徐政 +1 位作者 乔凯 方振益 《湖北师范大学学报(自然科学版)》 2024年第3期20-24,共5页
在数据量和复杂性不断增加的时代,文本、音频和图像等高维数据的数量显著增长,这些数据的利用也变得更加频繁。因此,设计和实现一种高效的高维索引结构变得至关重要。基于降维的索引已被证明可以提高高维数据的查询效率。然而,随着数据... 在数据量和复杂性不断增加的时代,文本、音频和图像等高维数据的数量显著增长,这些数据的利用也变得更加频繁。因此,设计和实现一种高效的高维索引结构变得至关重要。基于降维的索引已被证明可以提高高维数据的查询效率。然而,随着数据量的增加,这些技术不可避免地会遇到诸如查询效率降低和内存使用增加之类的问题。为解决此问题,提出一种基于降维的高维学习索引,通过分步降维的方式,将高维数据降维为有序一维数据,并以此训练学习索引模型。在合成和真实数据集上的几个实验表明,该索引结构可以有效地提升查询效率及减少内存占用。 展开更多
关键词 机器学习 降维 学习索引
下载PDF
一种基于分段线性回归树的轨迹索引
8
作者 武凡 韩京宇 +4 位作者 刘阳 李彩云 缪祝青 王彦之 毛毅 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2055-2062,共8页
处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注.轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降... 处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注.轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降低存储代价并减少磁盘访问次数,包括数据排序和模型训练两个阶段.在第一个阶段,沿着时间维度划分轨迹点以形成一系列时空子区域,在每个时空子区域根据映射函数对轨迹点进行空间维度的存储,从而确定轨迹点的全局序号.在第二个阶段,使用初始数据构建分段线性回归树作为预测模型,并基于该模型预测位置来存储未来数据.模拟和真实的数据集上的实验表明,该方法在保证查询性能优于学习型索引的前提下,存储消耗和构建时间大幅度降低. 展开更多
关键词 轨迹点 学习型索引 分段线性回归树 范围查询 点查询
下载PDF
An efficient labeled memory system for learned indexes
9
作者 Yuxuan Mo Jingnan Jia +1 位作者 Pengfei Li Yu Hua 《Fundamental Research》 CAS CSCD 2024年第3期651-659,共9页
The appearance and wide use of memory hardware bring significant changes to the conventional vertical memory hierarchy that fails to handle contentions for shared hardware resources and expensive data movements.To dea... The appearance and wide use of memory hardware bring significant changes to the conventional vertical memory hierarchy that fails to handle contentions for shared hardware resources and expensive data movements.To deal with these problems,existing schemes have to rely on inefficient scheduling strategies that also cause extra temporal,spatial and bandwidth overheads.Based on the insights that the shared hardware resources trend to be uniformly and hierarchically offered to the requests for co-located applications in memory systems,we present an efficient abstraction of memory hierarchies,called Label,which is used to establish the connection between the application layer and underlying hardware layer.Based on labels,our paper proposes LaMem,a labeled,resource-isolated and cross-tiered memory system by leveraging the way-based partitioning technique for shared resources to guarantee QoS demands of applications,while supporting fast and low-overhead cache repartitioning technique.Besides,we customize LaMem for the learned index that fundamentally replaces storage structures with computation models as a case study to verify the applicability of LaMem.Experimental results demonstrate the efficiency and efficacy of LaMem. 展开更多
关键词 Heterogeneous memory system Cache hierarchy Data movement Resource contention learned index
原文传递
Learned Index和B-Tree在不同分布数据上的性能对比及优化
10
作者 沈怡琪 蔡鹏 刘松灵 《计算机应用》 CSCD 北大核心 2023年第S01期100-106,共7页
Learned Index是一种通过训练模型来建立输入数据和存储位置之间映射关系的索引,它能学习到数据间分布的信息,而不同的数据分布将影响模型训练准确率和模型复杂度之间的平衡。为了探索Learned Index适用的场景,使用不同分布、不同数据... Learned Index是一种通过训练模型来建立输入数据和存储位置之间映射关系的索引,它能学习到数据间分布的信息,而不同的数据分布将影响模型训练准确率和模型复杂度之间的平衡。为了探索Learned Index适用的场景,使用不同分布、不同数据量的数据对它和加以优化的可更新的自适应学习索引(ALEX)进行性能测试,并与B-Tree进行对比,最终发现Learned Index构建大批量数据的索引时间比B-Tree短,读操作性能、存储空间大小有明显的优势,但写操作性能较差,因此得出Learned Index更适用于大数据情景下的在线分析处理(OLAP)数据库,用于静态数据的存储和查询操作的结论。基于B-Tree的索引结构,对初版Learned Index的结构进行了优化和调整,最终使优化后Learned Index在大批量数据的读写操作性能上有明显提高,其中读操作最高达到原版Learned Index的2倍,写操作最高达到原版的3倍。 展开更多
关键词 learned index B-TREE 可更新的自适应学习索引 在线分析处理数据库 静态数据 优化调整
下载PDF
基于大页内存的学习索引内存分配策略 被引量:2
11
作者 官嘉林 朱艳 +2 位作者 吴庭亮 陈艳 张敬伟 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期73-81,共9页
大数据时代,数据信息的不断膨胀给数据的快速存取带来了巨大挑战.因此,设计一种高效的索引结构具有重要意义. ALEX (updatable adaptive learned index)是一种利用机器学习模型代替传统B-树索引结构的学习索引,具有较好的时间、空间性能... 大数据时代,数据信息的不断膨胀给数据的快速存取带来了巨大挑战.因此,设计一种高效的索引结构具有重要意义. ALEX (updatable adaptive learned index)是一种利用机器学习模型代替传统B-树索引结构的学习索引,具有较好的时间、空间性能,但存在频繁的缺页中断问题.为解决此问题,进一步提升ALEX性能,在ALEX基础上提出了一种基于大页内存的内存预分配策略,较好地降低了内存缺页中断率,提升了ALEX性能.在内存分配阶段,采用预分配策略;在内存回收阶段,则采用延迟释放策略.在Longitudes数据集上的实验表明,该策略具有良好的效果. 展开更多
关键词 学习索引 大页内存 数据存取
下载PDF
GDLIN:一种利用梯度下降的学习索引 被引量:2
12
作者 陈珊珊 高隽 马振禹 《计算机科学》 CSCD 北大核心 2023年第S01期527-532,共6页
在大数据时代,数据访问速度是衡量大规模存储系统性能的一个重要指标,而索引是用于提升数据库系统中数据存取性能的主要技术之一。近几年,使用机器学习模型代替B+树等传统索引,拟合数据分布规律,将数据的间接查找优化为函数直接计算的... 在大数据时代,数据访问速度是衡量大规模存储系统性能的一个重要指标,而索引是用于提升数据库系统中数据存取性能的主要技术之一。近几年,使用机器学习模型代替B+树等传统索引,拟合数据分布规律,将数据的间接查找优化为函数直接计算的学习索引(Learned Index,LI)被提出,LI提高了查询的速度,减少了索引空间开销。但是LI的拟合误差较大,不支持插入等修改性操作。文中提出了一种利用梯度下降算法拟合数据的学习索引模型GDLIN(A Learned Index By Gradient Descent)。GDLIN利用梯度下降算法更好地拟合数据,减少拟合误差,缩短本地查找的时间;同时递归调用数据拟合算法,充分利用键的分布规律,构建上层结构,避免索引结构随着数据量而增大。另外,GDLIN利用链表解决LI不支持数据插入的问题。实验结果表明,GDLIN在无新数据插入的情况下,吞吐量是B+树的2.1倍;在插入操作占比为50%的情况下,是LI的1.08倍。 展开更多
关键词 学习索引 梯度下降 拟合数据模型 链表
下载PDF
基于区域划分与降维的高维学习型索引 被引量:1
13
作者 张少敏 蔡盼 +1 位作者 李翠平 陈红 《软件学报》 EI CSCD 北大核心 2023年第5期2413-2426,共14页
在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降... 在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降低内存占用,变得至关重要.近年,Kraska等人提出了学习型索引的方法.实验证明该方法在真实数据集上表现良好.之后机器学习与深度学习在数据库系统中的运用越来越广泛.众多研究者尝试在高维数据上构建学习型索引,来提升高维数据的查询速度.但是目前的高维学习型索引采用的方法并不能将数据分布的信息有效利用起来,而且过于复杂的深度学习模型使得索引初始化开销过大.结合空间区域划分与降维两种技术,提出一种新颖的高维学习型索引.它能更有效地利用数据分布信息提高索引的查询效率,并利用多段线性模型在保证查找精确度的前提下尽可能减少索引初始化的开销.分别在随机生成的数据集和开源街区地图数据集上进行实验验证.结果表明,与现有的高维索引相比,其在索引构建、查询效率、以及内存占用方面都有显著提高. 展开更多
关键词 学习型索引 高维数据 希尔伯特曲线 机器学习
下载PDF
QML:一种混合空间索引结构 被引量:2
14
作者 崔栋 温巧燕 +1 位作者 张华 王华伟 《通信学报》 EI CSCD 北大核心 2021年第12期1-16,共16页
为了丰富现有学习多维索引的功能并提高索引效率,提出了可以保留数据分布特征的动态数据分段算法DDSA,并结合四叉树和Z顺序曲线构建了混合空间索引(QML),在此基础上分别设计范围查询算法和KNN查询算法。这种保留数据分布特征的索引可以... 为了丰富现有学习多维索引的功能并提高索引效率,提出了可以保留数据分布特征的动态数据分段算法DDSA,并结合四叉树和Z顺序曲线构建了混合空间索引(QML),在此基础上分别设计范围查询算法和KNN查询算法。这种保留数据分布特征的索引可以灵活实现快速查询和更新。实验结果表明,QML索引在实现丰富功能的前提下优化了检索效率,数据更新的时间复杂度为O(1)。与R^(*)-tree相比,QML索引存储减少约33%,更新效率提升40%~80%。查询效率与最优树形索引相近。 展开更多
关键词 数据库 空间索引 学习索引
下载PDF
大规模商品知识的组织和查询优化 被引量:2
15
作者 黄涛贻 李优 +1 位作者 宋浩 林煜明 《计算机工程与应用》 CSCD 北大核心 2020年第21期154-163,共10页
互联网正面向知识互联的Web3.0时代,其目标是实现人和机器都可以理解的更智能化的网络。在此环境下,各种类型的知识图谱应运而生。商品知识由于知识的异质性,使其管理更具挑战性。设计一种融合了客观性商品分类知识和主观性用户观点的... 互联网正面向知识互联的Web3.0时代,其目标是实现人和机器都可以理解的更智能化的网络。在此环境下,各种类型的知识图谱应运而生。商品知识由于知识的异质性,使其管理更具挑战性。设计一种融合了客观性商品分类知识和主观性用户观点的大规模商品知识组织框架;提出了一种基于神经网络的学习索引技术,以此提升查询效率;针对商品知识结构的特性和查询需求的特点,实现了一种基于子变量组合的连接策略。实验结果表明,提出的方法相对于现有的知识管理系统,在大规模商品知识的检索效率上有较大幅度的提升。 展开更多
关键词 商品知识图谱 知识组织 学习索引 查询优化
下载PDF
LI-Tree:一个基于非易失性内存和轻量级B+树的学习索引 被引量:1
16
作者 王中华 舒碧华 +3 位作者 陈书宁 刘瀚阳 崔秋 万继光 《小型微型计算机系统》 CSCD 北大核心 2023年第6期1329-1337,共9页
大数据背景下剧增的数据给经典的内存索引技术带来了巨大挑战,为了实现对海量数据的高性能索引,工业界和学术界分别从设备和结构角度推出了高性能大容量的非易失型内存(Non-Volatile Memory,NVM)和受机器学习启发的学习索引(Learned Ind... 大数据背景下剧增的数据给经典的内存索引技术带来了巨大挑战,为了实现对海量数据的高性能索引,工业界和学术界分别从设备和结构角度推出了高性能大容量的非易失型内存(Non-Volatile Memory,NVM)和受机器学习启发的学习索引(Learned Index,LI).然而目前基于NVM的学习索引结构的相关研究非常稀少,在如何结合NVM和LI来高效地索引海量数据方面还有许多问题需要解决.本文提出了一种基于NVM的新型智能索引结构LI-Tree,充分发挥了两者的优势.具体的,LI-Tree可分为三层:由机器学习模型组成的能够提高LI-Tree单点性能的模型层、由静态数组构成的减少NVM写的数据索引层和由一系列轻量级B+树组成以避免模型层插入时频繁重训练的数据层.在真实设备上评估表明,LI-Tree相比传统B+树,插入、查询和删除性能分别提高了70%、30%和130%.另外,LI-Tree与学习索引结构ALEX,PGM-Index和XIndex对比,插入性能分别提升了80%,130%和150%. 展开更多
关键词 非易失内存 索引结构 学习索引 B+树 键值存储
下载PDF
一种基于混合索引的最近邻查找方法
17
作者 彭永鑫 罗英 《商洛学院学报》 2023年第4期31-35,53,共6页
针对某些场景下可学习KD树模型在最近邻查找中准确率较低的问题,提出了一种基于可学习索引模型和传统KD树的混合索引结构。该结构将待查找数据同时输入已经训练好的可学习KD树模型和KD树中得到若干个候选的k近邻点,从而将可学习索引模... 针对某些场景下可学习KD树模型在最近邻查找中准确率较低的问题,提出了一种基于可学习索引模型和传统KD树的混合索引结构。该结构将待查找数据同时输入已经训练好的可学习KD树模型和KD树中得到若干个候选的k近邻点,从而将可学习索引模型在查找效率和传统索引方法在查找准确率上的优点相结合。试验结果证明,使用基于可学习索引模型的可学习KD树和树形结构KD树的混合索引,综合了两者在最近邻查找中的优点,实现了查找效率和查找精度的平衡,满足了多种条件下的查找需求。 展开更多
关键词 可学习索引 最近邻查找 混合索引
下载PDF
A learning-based approach for efficient visualization construction 被引量:1
18
作者 Yongjian Sun Jie Li +3 位作者 Siming Chen Gennady Andrienko Natalia Andrienko Kang Zhang 《Visual Informatics》 EI 2022年第1期14-25,共12页
We propose an approach to underpin interactive visual exploration of large data volumes by training Learned Visualization Index(LVI).Knowing in advance the data,the aggregation functions that are used for visualizatio... We propose an approach to underpin interactive visual exploration of large data volumes by training Learned Visualization Index(LVI).Knowing in advance the data,the aggregation functions that are used for visualization,the visual encoding,and available interactive operations for data selection,LVI allows to avoid time-consuming data retrieval and processing of raw data in response to user’s interactions.Instead,LVI directly predicts aggregates of interest for the user’s data selection.We demonstrate the efficiency of the proposed approach in application to two use cases of spatio-temporal data at different scales. 展开更多
关键词 learned index Neural network Visualization index Interactive exploration Spatiotemporal visualization
原文传递
COLIN:A Cache-Conscious Dynamic Learned Index with High Read/Write Performance 被引量:1
19
作者 Zhou Zhang Pei-Quan Jin +3 位作者 Xiao-Liang Wang Yan-Qi Lv Shou-Hong Wan Xi-Ke Xie 《Journal of Computer Science & Technology》 SCIE EI CSCD 2021年第4期721-740,共20页
The recently proposed learned index has higher query performance and space efficiency than the conventional B+-tree.However,the original learned index has the problems of insertion failure and unbounded query complexi... The recently proposed learned index has higher query performance and space efficiency than the conventional B+-tree.However,the original learned index has the problems of insertion failure and unbounded query complexity,meaning that it supports neither insertions nor bounded query complexity.Some variants of the learned index use an out-of-place strategy and a bottom-up build strategy to accelerate insertions and support bounded query complexity,but introduce additional query costs and frequent node splitting operations.Moreover,none of the existing learned indices are cache-friendly.In this paper,aiming to not only support efficient queries and insertions but also offer bounded query complexity,we propose a new learned index called COLIN(Cache-cOnscious Learned INdex).Unlike previous solutions using an out-of-place strategy,COLIN adopts an in-place approach to support insertions and reserves some empty slots in a node to optimize the node’s data placement.In particular,through model-based data placement and cache-conscious data layout,COLIN decouples the local-search boundary from the maximum error of the model.The experimental results on five workloads and three datasets show that COLIN achieves the best read/write performance among all compared indices and outperforms the second best index by 18.4%,6.2%,and 32.9%on the three datasets,respectively. 展开更多
关键词 learned index cache-conscious INSERTION dynamic index read/write performance
原文传递
ALERT:基于Radix Tree的工作负载自适应学习型索引 被引量:1
20
作者 陈井爽 陈珂 +2 位作者 寿黎但 江大伟 陈刚 《软件学报》 EI CSCD 北大核心 2022年第12期4688-4703,共16页
学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适... 学习型索引通过学习数据分布可以准确地预测数据存取的位置,在保持高效稳定的查询下,显著降低索引的内存占用.现有的学习型索引主要针对只读查询进行优化,而对插入和更新支持不足.针对上述挑战,设计了一种基于Radix Tree的工作负载自适应学习型索引ALERT.ALERT使用Radix Tree来管理不定长的分段,段内采用具有最大误差界的线性插值模型进行预测.同时,ALERT使用一种高效的插入缓冲来降低数据插入更新的代价.针对点查询和范围查询提出两种自适应重组优化方法,通过对工作负载进行感知,动态地调整插入缓冲的组织结构.经实验验证,ALERT与业界流行的学习型索引相比,构建时间平均降低了81%,内存占用平均降低了75%,在保持了优秀读性能的同时,使插入延迟平均降低了50%;此外,ALERT使用自适应重组优化能有效感知查询工作负载特征,与不使用自适应重组优化相比,查询延迟平均降低了15%. 展开更多
关键词 学习型索引 自适应索引 机器学习 数据库
下载PDF
上一页 1 2 26 下一页 到第
使用帮助 返回顶部