期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
劣质数据上代价敏感决策树的建立 被引量:9
1
作者 齐志鑫 王宏志 +2 位作者 周雄 李建中 高宏 《软件学报》 EI CSCD 北大核心 2019年第3期604-619,共16页
代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进... 代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性. 展开更多
关键词 代价敏感决策树 劣质数据 数据清洗 误分类代价 测试代价
下载PDF
基于实体的相似性连接算法 被引量:8
2
作者 刘雪莉 王宏志 +1 位作者 李建中 高宏 《软件学报》 EI CSCD 北大核心 2015年第6期1421-1437,共17页
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据... 按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果. 展开更多
关键词 实体 相似性连接 劣质数据
下载PDF
劣质数据库上阈值相似连接结果大小估计 被引量:6
3
作者 张岩 杨龙 王宏志 《计算机学报》 EI CSCD 北大核心 2012年第10期2159-2168,共10页
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现... 劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体.该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果.鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术.文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响.与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性. 展开更多
关键词 代价估计 采样估计 劣质数据 数据质量 阈值
下载PDF
嵌入式系统中劣质数据实时清理方法研究 被引量:3
4
作者 姜学军 洪伟 《科技通报》 2018年第4期118-121,共4页
提出一种基于时间相关性的劣质数据实时清理方法。对嵌入式系统中的数据进行过滤,将劣质的数据过滤出去,利用分布率与聚类的偏差和密集度的聚类方法对劣质数据进行聚类,利用时间相关性数据清理方法进行劣质数据的实时清理,克服了当前方... 提出一种基于时间相关性的劣质数据实时清理方法。对嵌入式系统中的数据进行过滤,将劣质的数据过滤出去,利用分布率与聚类的偏差和密集度的聚类方法对劣质数据进行聚类,利用时间相关性数据清理方法进行劣质数据的实时清理,克服了当前方法存在的弊端,对劣质的数据进行实时清理的效果较好,有效地提高了劣质数据实时清理的准确性,完成对嵌入式系统中劣质数据实时清理方法研究。实验的结果表明,利用本文方法能有效的对劣质数据进行实时清理,提高了数据清理的准确性。 展开更多
关键词 嵌入式系统 劣质数据 实时清理 时间相关
下载PDF
嵌入式实时系统中劣质数据动态检测方法研究 被引量:3
5
作者 陈娟 忽晓伟 陈志鹏 《科学技术与工程》 北大核心 2017年第17期277-282,共6页
在嵌入式实时系统中,数据在采集过程中容易出现丢失现象、在传输过程中容易受到外界攻击变成劣质数据,威胁整个系统的安全。当前劣质数据检测方法通过聚类法实现,不仅通信开销大,而且检测性能低下。为此,提出一种新的嵌入式实时系统中... 在嵌入式实时系统中,数据在采集过程中容易出现丢失现象、在传输过程中容易受到外界攻击变成劣质数据,威胁整个系统的安全。当前劣质数据检测方法通过聚类法实现,不仅通信开销大,而且检测性能低下。为此,提出一种新的嵌入式实时系统中劣质数据动态检测方法,建立嵌入式实时系统。介绍自回归模型的构建方法,通过优质数据的变化规律构建自回归模型。为了使构建的自回归模型的误差尽可能地接近0,面对嵌入式实时系统的动态变化对构建的模型进行自适应调整。通过调整后的模型对嵌入式实时系统中劣质数据进行检测,给出检测过程。实验结果表明,采用所提方法对劣质数据进行动态检测,检测精度和效率较高,通信开销较低,整体性能优异。 展开更多
关键词 嵌入式实时系统 劣质数据 动态检测
下载PDF
样本观测值数据筛选标准的分析 被引量:2
6
作者 柯郑林 《科学技术与工程》 2008年第20期5672-5674,5681,共4页
常用的进行数据筛选的方法一般是以样本观测值的某一靠近中心的数据为起点,向样本数据两侧以一定的距离划定范围,然后剔除这一范围之外的数据。因此,具体确定划分范围的标准是一个很重要的问题。现给出一个具体的大样本下的数据筛选标准... 常用的进行数据筛选的方法一般是以样本观测值的某一靠近中心的数据为起点,向样本数据两侧以一定的距离划定范围,然后剔除这一范围之外的数据。因此,具体确定划分范围的标准是一个很重要的问题。现给出一个具体的大样本下的数据筛选标准,并说明使用这一标准的理由和确定这一标准的过程。 展开更多
关键词 数据质量 数据筛选标准 正态分布总体 劣质数据
下载PDF
基于压缩直方图的劣质数据库上相似连接结果大小估计 被引量:2
7
作者 张岩 杨忠胜 +2 位作者 王宏志 高宏 李建中 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2113-2120,共8页
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出... 现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销. 展开更多
关键词 劣质数据 连接估计 最小哈希签名 压缩直方图
下载PDF
标签劣质的XML数据上的查询处理 被引量:1
8
作者 姜国华 姜守旭 +2 位作者 王宏志 李建中 高宏 《计算机科学与探索》 CSCD 2011年第8期673-685,共13页
XML数据中的不正确数据、不一致数据、不精确数据等劣质数据给XML数据上的有效查询处理带来了挑战。重点研究了标签劣质的XML数据上twig查询的处理方法。给出求得每个标签的拼写相近标签、松弛标签、同义标签等相似标签的方法,以及在XM... XML数据中的不正确数据、不一致数据、不精确数据等劣质数据给XML数据上的有效查询处理带来了挑战。重点研究了标签劣质的XML数据上twig查询的处理方法。给出求得每个标签的拼写相近标签、松弛标签、同义标签等相似标签的方法,以及在XML文档中求出与原查询相似的所有查询结果的高效算法。通过实验证明了所提方法的有效性和效率。 展开更多
关键词 劣质数据 可扩展标记语言(XML) TWIG查询
下载PDF
嵌入式实时系统中劣质数据动态清理方法 被引量:1
9
作者 王彩峰 姚巧鸽 《科学技术与工程》 北大核心 2017年第28期234-239,共6页
当前常用的劣质数据动态清理方法规模大,需对其进行剪枝处理后,才可应用于劣质数据动态清理中,不仅效率低;且清理结果不准确。因此,提出一种新的嵌入式实时系统中劣质数据动态清理方法。劣质数据主要包括错误数据、重复数据和不完整数据... 当前常用的劣质数据动态清理方法规模大,需对其进行剪枝处理后,才可应用于劣质数据动态清理中,不仅效率低;且清理结果不准确。因此,提出一种新的嵌入式实时系统中劣质数据动态清理方法。劣质数据主要包括错误数据、重复数据和不完整数据,利用统计学求期望方法对错误进行清理,计算得到一个可信区间的基准范围,依据该基准范围对错误数据进行清理。利用编辑距离获取两个字符串之间的相似度,通过得到的相似度对重复数据进行动态清理。对嵌入式实时系统数据库中所有记录的不完整性进行评估,依据评估结果决定是否清除相应数据。实验结果表明,所提方法针对劣质数据有很高的清理准确性。 展开更多
关键词 嵌入式实时系统 劣质数据 动态清理
下载PDF
劣质数据库上查询优化策略
10
作者 张岩 唐兴 王宏志 《小型微型计算机系统》 CSCD 北大核心 2014年第11期2410-2415,共6页
随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,既降低了数据的价值又降低了数据管理系统的效率,这给数据管理带来了新的挑战.经过长期的数据质量研究工作,目前,已经有很多管理劣质数据的数据模型面世,实... 随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,既降低了数据的价值又降低了数据管理系统的效率,这给数据管理带来了新的挑战.经过长期的数据质量研究工作,目前,已经有很多管理劣质数据的数据模型面世,实体数据模型就是其中一种,模型以每条元组表示一个现实世界中的实体,允许劣质数据的存在,并有效给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出查询结果.鉴于该模型的特点,在选择或连接等查询操作执行过程中可能产生很多已经不满足最后质量要求的中间结果,如果在中间结果中将这些最终无用的结果滤掉的话可以增进查询效率,这是区别于关系数据模型的特性,本文就如何在加入这中间结果数据过滤后有效进行查询优化的过程展开研究并加实验以论证. 展开更多
关键词 劣质数据 代价估计 查询优化 数据过滤 阈值
下载PDF
基于自回归模型的嵌入式系统劣质数据清理方法
11
作者 原虹 《信息记录材料》 2019年第11期152-153,共2页
在嵌入式系统中,数据在采集过程中极易丢失,在传输过程中易受外界攻击而变为劣质数据,威胁整个系统的运行和稳定。目前的劣质数据清理方法其清理性能低下。因此,提出基于自回归模型的嵌入式系统劣质数据清理方法。通过构建自回归模型、... 在嵌入式系统中,数据在采集过程中极易丢失,在传输过程中易受外界攻击而变为劣质数据,威胁整个系统的运行和稳定。目前的劣质数据清理方法其清理性能低下。因此,提出基于自回归模型的嵌入式系统劣质数据清理方法。通过构建自回归模型、错误数据的动态清理实现本文研究。经对比实验证明,本文设计的基于自回归模型的嵌入式系统劣质数据清理方法在对劣质数据的清理能力上远胜于传统方法,清理效率基本维持在80%以上,说明本文方法具有较强的实用性。 展开更多
关键词 自回归模型 嵌入式系统 劣质数据 清理方法
下载PDF
一种劣质数据上统计量的获取方法
12
作者 张岩 唐兴 《智能计算机与应用》 2014年第5期26-28,31,共4页
随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,这给数据管理带来了新的挑战.目前,已经有很多管理劣质数据的数据模型面世,实体数据模型就是其中一种,模型以每条元组表示一个现实世界中的实体,允许劣质数... 随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,这给数据管理带来了新的挑战.目前,已经有很多管理劣质数据的数据模型面世,实体数据模型就是其中一种,模型以每条元组表示一个现实世界中的实体,允许劣质数据的存在,鉴于该模型的特点,在进行查询操作时,要根据查询语句和数据的相似程度判断数据是否满足用户需求,因此在实体数据模型相似判断的查询操作中,统计数据库中某条记录大约可以和多少记录相似即能为查询优化工作做一定的贡献,本文就如何获取这个统计量展开研究并提出一种有效的聚类算法解决这个问题。 展开更多
关键词 劣质数据 聚类 统计量 查询优化
下载PDF
自适应带宽核密度估计在旋转机械劣质监测数据识别中的应用 被引量:2
13
作者 倪泽行 王琇峰 +1 位作者 徐波 李睿 《中国机械工程》 EI CAS CSCD 北大核心 2022年第20期2476-2482,共7页
运行环境异常、人为因素干扰及采集设备故障等问题可能导致旋转机械监测数据中出现与设备健康状态无关的异常值或缺失数据,造成机械健康状态误判及维护策略制定不当等问题,为此,提出了一种基于自适应带宽核密度估计的劣质监测数据识别... 运行环境异常、人为因素干扰及采集设备故障等问题可能导致旋转机械监测数据中出现与设备健康状态无关的异常值或缺失数据,造成机械健康状态误判及维护策略制定不当等问题,为此,提出了一种基于自适应带宽核密度估计的劣质监测数据识别方法。通过对采集数据进行频域积分从而将零点漂移与局部噪声“冲击化”,计算积分后的峭度指标;采用局部均值误差进行高斯核带宽自适应选择,获得峭度指标的概率密度函数,并将95%置信区间的边界作为劣质数据识别阈值。通过车桥耐久监测全寿命数据对提取方法进行验证,结果表明,相比于固定带宽以及基于四叉树分割算法的核密度估计方法,所提方法对劣质监测数据具有较好的识别效果。 展开更多
关键词 机械装备 劣质数据识别 自适应核密度估计 阈值划分
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部