期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于列存储的大数据采样查询处理 被引量:4
1
作者 齐文 鲍玉斌 宋杰 《计算机科学》 CSCD 北大核心 2019年第12期13-19,共7页
大数据时代的到来给传统的数据查询带来了性能挑战,即使查询算法有着O(n)的线性复杂度,但当n极大时其时间开销也难以满足用户需求。在很多实际应用中,人们并不需要精确的查询结果,但要求在给定时间内完成查询,因此可适当牺牲查询精度以... 大数据时代的到来给传统的数据查询带来了性能挑战,即使查询算法有着O(n)的线性复杂度,但当n极大时其时间开销也难以满足用户需求。在很多实际应用中,人们并不需要精确的查询结果,但要求在给定时间内完成查询,因此可适当牺牲查询精度以满足性能约束。采样查询通过约简查询范围来提高查询性能,现有的采样方法多针对特定的算法和特定的应用场景,缺乏大数据环境下一般性的采样查询方法以及保证性能和精度的研究。文中研究大数据环境下列存储的采样查询处理,从数据划分和数据采样两方面改进大数据的查询效率。提出了基于加速比和势分布的采样方法,其支持各类采样算法,实现了分布式环境下采样查询的随机性保证、性能保证和近似性评价,并兼容了精确查询。该方法可以快速应用到已有大量数据的列存储中,具备良好的扩展性和可维护性。以Top-K为查询用例的实验结果证明,在不同数据量、不同数据分布和不同采样算法下,实际采样率与给定采样率的误差低于2%,查询准确度(Accuracy)稳定,方差在0.10和0.12之间,因此提出的基于段势的数据划分的采样效率高于平均划分和线性划分。 展开更多
关键词 大数据 列存储 采样查询 数据划分 加速比
下载PDF
加权投票采样学习在用户信用评级中的应用 被引量:2
2
作者 陈念 唐振民 《计算机工程与应用》 CSCD 2014年第21期259-263,共5页
以委员会投票查询算法为基础,提出在采样过程中动态修正分类器成员权值的加权投票方法。在对无标签样本标注价值评估中,该方法能够强化高精度分类器成员的查询贡献,降低高误差成员的投票影响,减少机器训练过程中的标注学习次数。通过在... 以委员会投票查询算法为基础,提出在采样过程中动态修正分类器成员权值的加权投票方法。在对无标签样本标注价值评估中,该方法能够强化高精度分类器成员的查询贡献,降低高误差成员的投票影响,减少机器训练过程中的标注学习次数。通过在UCI的Statlog(Australian Credit Approval)数据集上对用户信用度级别进行识别,并比较于其他采样方法,证明该方法能够用较小的采样标注代价获取稳定的泛化精度。 展开更多
关键词 主动学习 采样查询 加权投票 标注门槛
下载PDF
基于两阶段分层抽样的近似聚合查询方法
3
作者 房俊 赵博 左昌麒 《数据采集与处理》 CSCD 北大核心 2022年第5期1049-1058,共10页
以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近... 以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。 展开更多
关键词 聚合查询 分层抽样 SOM聚类 预计算 近似查询
下载PDF
P2P网络中时变数据的近似聚集方法
4
作者 程思瑶 姜守旭 李建中 《软件学报》 EI CSCD 北大核心 2009年第7期1800-1811,共12页
随着P2P技术在电子商务等领域的广泛应用,对分布在P2P网络中的数据进行聚集操作的需求越来越迫切.但是,由于P2P网络的大规模及分散性,这种聚集操作的实现颇具挑战性.而且在很多应用中,P2P网络中的数据往往是随时间变化的,这进一步增加... 随着P2P技术在电子商务等领域的广泛应用,对分布在P2P网络中的数据进行聚集操作的需求越来越迫切.但是,由于P2P网络的大规模及分散性,这种聚集操作的实现颇具挑战性.而且在很多应用中,P2P网络中的数据往往是随时间变化的,这进一步增加了聚集操作的难度.现有P2P网络中的聚集算法均假定网络中的数据是非时变的,如果将其直接应用在存在时变数据的P2P网络中,则会因为其聚集时间过长而导致聚集过程中数据已经发生变化的问题.为此,提出了一种P2P网络中基于均衡采样的时变数据近似聚集算法,理论分析和实验结果表明,该聚集算法在处理时变数据时优于已有的算法,可以有效地应用于存在时变数据的P2P网络中. 展开更多
关键词 P2P网络 时变数据 均衡采样 查询处理 近似聚集
下载PDF
基于SBL-PRM算法的柑橘采摘机器人实时路径规划 被引量:9
5
作者 蔡健荣 王锋 +1 位作者 吕强 王建黑 《农业工程学报》 EI CAS CSCD 北大核心 2009年第6期158-162,共5页
针对动态非结构化环境下的柑橘采摘机器人实时路径规划问题,采用单次查询、双向采样与延迟碰撞检测相结合的SBL-PRM(Single-query,Bi-directional,Lazy collision checking,Probabilistic Roadmap Method)算法,对无遮挡和遮挡两种场景... 针对动态非结构化环境下的柑橘采摘机器人实时路径规划问题,采用单次查询、双向采样与延迟碰撞检测相结合的SBL-PRM(Single-query,Bi-directional,Lazy collision checking,Probabilistic Roadmap Method)算法,对无遮挡和遮挡两种场景下的柑橘采摘情况进行仿真试验,分析最大采样点数S、邻域阈值ρ、局部路径检测阈值ε、路径平滑次数N等参数对规划时间和成功率的影响。结果表明,在S=3000,ρ=0.6,ε=0.03,N=10时,无遮挡和遮挡两种场景下路径规划的平均时间分别为1ms、60ms左右,规划成功率均为100%。仿真试验证明了SBL-PRM算法在柑橘采摘机器人实时路径规划中的有效性。 展开更多
关键词 柑橘采摘机器人 实时路径规划 双向采样 单次查询 延迟碰撞检测
下载PDF
基于主动学习的中文依存句法分析 被引量:10
6
作者 车万翔 张梅山 刘挺 《中文信息学报》 CSCD 北大核心 2012年第2期18-22,共5页
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句... 目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。 展开更多
关键词 主动学习 依存句法 不确定性度量 委员会投票
下载PDF
基于图结构特征采样数据摘要的联邦知识图谱查询 被引量:1
7
作者 高峰 李秋 顾进广 《计算机工程》 CAS CSCD 北大核心 2023年第1期73-81,共9页
联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且... 联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且在大部分环境中联邦查询无法完成对大数据集的统计工作。为在减少数据摘要索引文件生成时间和内存开销的同时捕获尽可能真实的计数信息,考虑主语和谓语的分布偏差,提出利用样图生成原始图近似数据摘要的方法。使用对RDF图出度特征加权的采样方法获取原始图的典型样图,通过改进的映射函数将样图中的信息映射到原始图上,从而生成原始图的近似数据摘要。实验结果表明,该方法相比于基线方法至少节省了70%的数据摘要索引文件生成时间,并且仅采样0.5%的原始图生成的近似数据摘要即可在查询正确率上与基线方法保持高度一致。 展开更多
关键词 数据摘要 数据源索引 RDF图采样 联邦查询 查询性能
下载PDF
基于主动学习和二次有理核的模型无关局部解释方法
8
作者 周晟昊 袁伟伟 关东海 《计算机科学》 CSCD 北大核心 2024年第2期245-251,共7页
深度学习模型的广泛使用,在更大程度上使人们意识到模型的决策是亟需解决的问题,复杂难以解释的黑盒模型阻碍了算法在实际场景中部署。LIME作为最流行的局部解释方法,生成的扰动数据却具有不稳定性,导致最终的解释产生偏差。针对上述问... 深度学习模型的广泛使用,在更大程度上使人们意识到模型的决策是亟需解决的问题,复杂难以解释的黑盒模型阻碍了算法在实际场景中部署。LIME作为最流行的局部解释方法,生成的扰动数据却具有不稳定性,导致最终的解释产生偏差。针对上述问题,提出了一种基于主动学习和二次有理核的模型无关局部解释方法ActiveLIME,使得局部解释模型更加忠于原始分类器。ActiveLIME生成扰动数据后,通过主动学习的查询策略对扰动数据进行采样,筛选不确定性高的扰动集训练,使用迭代过程中准确度最高的局部模型对感兴趣实例生成解释。并且,针对容易陷入局部过拟合的高维稀疏样本,在模型损失函数中引入了二次有理核来减少过拟合。实验结果表明,所提出的ActiveLIME方法引比传统局部解释方法具有更高的局部保真度和解释质量。 展开更多
关键词 局部解释 扰动采样 主动学习查询策略 二次有理核
下载PDF
Continuous ranking on uncertain streams 被引量:3
9
作者 Cheqing JIN Jingwei ZHANG Aoying ZHOU 《Frontiers of Computer Science》 SCIE EI CSCD 2012年第6期686-699,共14页
Data uncertainty widely exists in many web applications, financial applications and sensor networks. Ranking queries that return a number of tuples with maximal ranking scores are important in the field of database ma... Data uncertainty widely exists in many web applications, financial applications and sensor networks. Ranking queries that return a number of tuples with maximal ranking scores are important in the field of database management. Most existing work focuses on proposing static solutions for various ranking semantics over uncertain data. Our focus is to handle continuous ranking queries on uncertain data streams: testing each new tuple to output highly-ranked tuples. The main challenge comes from not only the fact that the possible world space will grow exponentially when new tuples arrive, but also the requirement for low space- and time- complexity to adapt to the streaming environments. This paper aims at handling continuous ranking queries on uncertain data streams. We first study how to handle this issue exactly, then we propose a novel method (exponential sampling) to estimate the expected rank of a tuple with high quality. Analysis in theory and detailed experimental reports evaluate the proposed methods. 展开更多
关键词 possible world semantics uncertain data stream continuous ranking query sampling
原文传递
改进的主动学习算法及在高光谱分类中的应用 被引量:5
10
作者 李宠 谷琼 +1 位作者 蔡之华 吴琼 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第S2期274-278,共5页
针对主动学习算法能主动从大量未标记样本中选择最能提高分类器性能的样本加入训练集,可从小的非最优训练集建立高性能的分类器这一特点,以及传统主动学习算法熵值装袋查询的多值偏置问题,提出了改进的均值熵值装袋查询算法,引入权值函... 针对主动学习算法能主动从大量未标记样本中选择最能提高分类器性能的样本加入训练集,可从小的非最优训练集建立高性能的分类器这一特点,以及传统主动学习算法熵值装袋查询的多值偏置问题,提出了改进的均值熵值装袋查询算法,引入权值函数保证了取样的多样性.通过对高光谱遥感图像分类的实验表明:主动学习只需大约20%的样本即可达到使用全部数据集作为训练集的分类效果,而且均值熵值装袋查询方法具有较高的分类精度,同时拥有较快的收敛速度. 展开更多
关键词 主动学习 高光谱遥感 图像分类 边缘取样 熵值装袋查询
原文传递
商务智能软件在国家药品抽验中的应用探索及意义 被引量:4
11
作者 冯磊 王淑玲 《中国药事》 CAS 2016年第6期527-534,共8页
目的:探讨我国药品抽验数据共享平台的建设思路,为系统建设提供参考。方法:通过分析调查法和专家咨询法,完成对共享平台的需求分析和功能设计,从数据分类和数据分析展示等方面,分析国家药品抽验数据共享平台构建的功能作用及面临的挑战... 目的:探讨我国药品抽验数据共享平台的建设思路,为系统建设提供参考。方法:通过分析调查法和专家咨询法,完成对共享平台的需求分析和功能设计,从数据分类和数据分析展示等方面,分析国家药品抽验数据共享平台构建的功能作用及面临的挑战,提出新的发展思路和方向。结果与结论:国家药品抽验数据共享平台的建设是一项系统工程,应坚持统一规划、顶层设计、分步实施的原则,合理推进建设,以实现国家药品抽验数据预处理、存储及查询、统计及分析的目标。 展开更多
关键词 药品抽验 数据共享平台 预处理 统计及分析 存储及查询
下载PDF
面向轨迹数据流的KNN近似查询 被引量:4
12
作者 王考杰 郑雪峰 +1 位作者 宋一丁 曲阜平 《计算机工程》 CAS CSCD 北大核心 2011年第16期17-20,共4页
提出一种基于滑动窗口的K-最近邻(KNN)近似查询算法。将滑动窗口内数据通过聚类划分成若干大小不一的基本窗口,针对每个基本窗口给定一个采样率,对窗口内数据进行偏倚采样,形成数据流摘要,并基于该摘要,采用计算几何平面扫描算法执行分... 提出一种基于滑动窗口的K-最近邻(KNN)近似查询算法。将滑动窗口内数据通过聚类划分成若干大小不一的基本窗口,针对每个基本窗口给定一个采样率,对窗口内数据进行偏倚采样,形成数据流摘要,并基于该摘要,采用计算几何平面扫描算法执行分布式最近邻查询。仿真实验结果表明该算法有效,且具有较好的可扩展性。 展开更多
关键词 轨迹数据流 局部聚类 偏倚采样 数据摘要 K-最近邻查询
下载PDF
Web整合中的资源描述技术 被引量:3
13
作者 张丽 汪语宇 《图书情报工作》 CSSCI 北大核心 2005年第10期25-28,共4页
介绍Web整合中的关键技术——资源描述技术的内涵。在总结现有的基于STARTS协议、基于提问取样技术和调焦提问探测技术三种资源描述技术的基础上,分析每种技术的原理、算法、特点等,在此基础上对目前Web整合中的资源描述技术进行简要评价。
关键词 资源描述 STARTS 基于提问的取样 调焦提问探测
原文传递
基于本地差分隐私的空间数据自适应划分算法 被引量:1
14
作者 金媛媛 倪志伟 +2 位作者 朱旭辉 陈恒恒 陈千 《计算机工程》 CAS CSCD 北大核心 2022年第5期136-144,共9页
空间位置数据分布通常具有不均匀性,不同位置区域的密度差异较大,在本地差分隐私模型中无法直接获取用户真实的位置数据,使得空间位置划分方法受到限制以及数据发布存在查询精度低、通信代价大等问题。为在本地差分隐私模型下的大规模... 空间位置数据分布通常具有不均匀性,不同位置区域的密度差异较大,在本地差分隐私模型中无法直接获取用户真实的位置数据,使得空间位置划分方法受到限制以及数据发布存在查询精度低、通信代价大等问题。为在本地差分隐私模型下的大规模空间数据采集和发布过程中进行空间划分,提出一种空间数据分层自适应划分算法KDG-HT。通过收集部分用户的数据来初步获取区域的分布情况,采用KD-树的思想划分区域,并利用抽样技术对用户进行分组,根据分组用户统计结果所提供的先验知识来完成多层细粒度划分。在此基础上,结合差分隐私模型的并行组合特性分层扰动用户数据,从总体上实现发布数据的ε-差分隐私保护。实验结果表明,KDG-HT算法适用于具有不同数据分布情况的大规模空间数据集,查询精度及运行效率优于RAPPOR、UG、GT-R等算法,其中与GT-R算法相比,KDG-HT算法发布数据的查询精度最高提升3倍,运行效率提高17%。 展开更多
关键词 本地差分隐私 空间自适应划分 用户随机采样 空间范围查询 随机响应
下载PDF
基于用户查询与样本间匹配度评估的分层抽样策略
15
作者 邬志罡 荆一楠 +1 位作者 何震瀛 王晓阳 《计算机应用与软件》 北大核心 2019年第8期196-202,共7页
在数据探索性分析场景下,用户倾向于借助抽样系统获取近似查询结果来换取更快的查询速度。现有的抽样系统通常假设用户的历史查询记录能很好地表征未来的查询情况,从而针对特定的查询特征生成特定的抽样策略。然而,在现实场景中,用户探... 在数据探索性分析场景下,用户倾向于借助抽样系统获取近似查询结果来换取更快的查询速度。现有的抽样系统通常假设用户的历史查询记录能很好地表征未来的查询情况,从而针对特定的查询特征生成特定的抽样策略。然而,在现实场景中,用户探索意图变化丰富,用户查询特征的稳定性假设通常无法得到保证。为解决上述问题,提出一种评估任意用户查询与样本间匹配度的方法。离线训练生成多份样本集,并在应对具体查询时自动选取最匹配样本集进行近似结果计算。离线样本集的生成是以在所有可能的用户查询上的预期匹配度损失总和最小作为训练目标。实验结果表明,在真实数据集上,该抽样系统与现有方法相比,将近似结果的精确度提高了26.3%。 展开更多
关键词 抽样系统 近似查询处理 分层抽样 优化问题
下载PDF
传感器网络中基于抽样的带权近似Top-k查询算法
16
作者 刘彩苹 蔡玉武 +1 位作者 毛建旭 龙亚辉 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第10期134-138,共5页
提出一种适用于传感器网络的抽样带权阀值过滤近似Top-k聚集查询算法.该近似算法会将无线传感器网络划成几个两两不相交的簇进行处理,在汇聚节点进行预处理以及在各个簇内进行抽样过滤处理,在抽样过程中给可靠而重要的节点赋上相应更大... 提出一种适用于传感器网络的抽样带权阀值过滤近似Top-k聚集查询算法.该近似算法会将无线传感器网络划成几个两两不相交的簇进行处理,在汇聚节点进行预处理以及在各个簇内进行抽样过滤处理,在抽样过程中给可靠而重要的节点赋上相应更大的权值,同时根据节点采集的信息具有时间相关特性,在簇内进行抽样阀值过滤处理,每个簇头节点都会接收到该簇内的Top-k候选子集,然后将每个簇的子集发送给Sink节点,该Sink节点将接收到能代表整网Top-k样本候选集.仿真实验结果显示该算法只需发送少量的数据,更小的抽样样本,并能满足任意精度要求. 展开更多
关键词 无线传感器网络 抽样算法 Top—k查询
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部