期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种XML相似重复数据的清理方法研究
被引量:
7
1
作者
陈伟
丁秋林
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2004年第9期835-838,共4页
针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,...
针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,该算法能有效地检测XML相似重复数据 ;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法 ,避免了不必要的树编辑距离计算 ,降低了相似检测计算的复杂度 ,提高了运算效率 .
展开更多
关键词
规则库
算法库
数
据
清理
可扩展标记语言
相似
重
复数
据
下载PDF
职称材料
数据清洗研究综述
被引量:
9
2
作者
廖书妍
《电脑知识与技术》
2020年第20期44-47,共4页
数据清洗是数据分析、数据挖掘等研究的起点。本文对数据清洗的研究进行了综述。首先阐述了数据清洗与数据质量的关系,然后说明了数据清洗的概况,并分析了数据清洗的步骤及方法,最后简要介绍了国内外关于数据清洗的研究近况,同时对中文...
数据清洗是数据分析、数据挖掘等研究的起点。本文对数据清洗的研究进行了综述。首先阐述了数据清洗与数据质量的关系,然后说明了数据清洗的概况,并分析了数据清洗的步骤及方法,最后简要介绍了国内外关于数据清洗的研究近况,同时对中文数据清洗研究做了展望。
展开更多
关键词
脏数
据
数
据
清洗
数
据
质量
相似
重
复数
据
清洗步骤
下载PDF
职称材料
基于Hadoop平台的数据清洗研究
被引量:
3
3
作者
范会丽
彭宁
任薇
《电脑知识与技术》
2020年第5期27-28,共2页
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手。这三个领域也是数据清洗的主要领域。基于当前现状,结合当前各...
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手。这三个领域也是数据清洗的主要领域。基于当前现状,结合当前各大企业数据处理的平台,利用Hadoop平台中的相关组件对企业中的完全重复的数据和相似重复的数据进行清洗研究。
展开更多
关键词
HADOOP平台
数
据
清洗
完全
重
复数
据
相似
重
复数
据
下载PDF
职称材料
面向时序的相似重复数据清洗算法优化
被引量:
1
4
作者
沈沛
毛海涛
+1 位作者
胡文林
芮波
《计算机时代》
2022年第9期68-72,77,共6页
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中...
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。
展开更多
关键词
时序数
据
SNM改进算法
相似
重
复数
据
动态滑动窗口
数
据
清洗
下载PDF
职称材料
基于语义相似的中文数据清洗方法
5
作者
李碧秋
王佳斌
刘雪丽
《现代计算机》
2021年第19期58-61,共4页
目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多...
目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多词一义现象,在中文文本向量化过程中引入位置向量,降低文本数据转为数学表达后语义信息的丢失程度。
展开更多
关键词
中文文本
数
据
清洗
相似
重
复数
据
文本向量化
聚类
下载PDF
职称材料
题名
一种XML相似重复数据的清理方法研究
被引量:
7
1
作者
陈伟
丁秋林
机构
南京航空航天大学计算机应用研究所
出处
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2004年第9期835-838,共4页
文摘
针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,该算法能有效地检测XML相似重复数据 ;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法 ,避免了不必要的树编辑距离计算 ,降低了相似检测计算的复杂度 ,提高了运算效率 .
关键词
规则库
算法库
数
据
清理
可扩展标记语言
相似
重
复数
据
Keywords
Algorithms
Computational complexity
Navier Stokes equations
Structured programming
Trees (mathematics)
XML
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据清洗研究综述
被引量:
9
2
作者
廖书妍
机构
华中师范大学计算机学院
出处
《电脑知识与技术》
2020年第20期44-47,共4页
基金
“华中师范大学大学生创新创业训练计划项目资助”(项目编号为20190410005)。
文摘
数据清洗是数据分析、数据挖掘等研究的起点。本文对数据清洗的研究进行了综述。首先阐述了数据清洗与数据质量的关系,然后说明了数据清洗的概况,并分析了数据清洗的步骤及方法,最后简要介绍了国内外关于数据清洗的研究近况,同时对中文数据清洗研究做了展望。
关键词
脏数
据
数
据
清洗
数
据
质量
相似
重
复数
据
清洗步骤
Keywords
dirty data
data cleaning
data quality
similar duplicate data
cleaning steps
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Hadoop平台的数据清洗研究
被引量:
3
3
作者
范会丽
彭宁
任薇
机构
华北理工大学信息工程学院
出处
《电脑知识与技术》
2020年第5期27-28,共2页
文摘
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手。这三个领域也是数据清洗的主要领域。基于当前现状,结合当前各大企业数据处理的平台,利用Hadoop平台中的相关组件对企业中的完全重复的数据和相似重复的数据进行清洗研究。
关键词
HADOOP平台
数
据
清洗
完全
重
复数
据
相似
重
复数
据
Keywords
Hadoop platform
data cleaning
completely duplicate data
similar duplicate data
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向时序的相似重复数据清洗算法优化
被引量:
1
4
作者
沈沛
毛海涛
胡文林
芮波
机构
中国人民解放军
杭州幂链科技有限公司
出处
《计算机时代》
2022年第9期68-72,77,共6页
文摘
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。
关键词
时序数
据
SNM改进算法
相似
重
复数
据
动态滑动窗口
数
据
清洗
Keywords
time series data
SNM improved algorithm
approximately duplicate data
dynamic sliding window
data cleaning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义相似的中文数据清洗方法
5
作者
李碧秋
王佳斌
刘雪丽
机构
华侨大学工学院
出处
《现代计算机》
2021年第19期58-61,共4页
基金
厦门市科技局产学研创新项目(No.3502Z20173046)。
文摘
目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多词一义现象,在中文文本向量化过程中引入位置向量,降低文本数据转为数学表达后语义信息的丢失程度。
关键词
中文文本
数
据
清洗
相似
重
复数
据
文本向量化
聚类
Keywords
Chinese Text
Data Cleaning
Similar Duplicate Data
Text Vectorization
Clustering
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP311.13 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种XML相似重复数据的清理方法研究
陈伟
丁秋林
《北京航空航天大学学报》
EI
CAS
CSCD
北大核心
2004
7
下载PDF
职称材料
2
数据清洗研究综述
廖书妍
《电脑知识与技术》
2020
9
下载PDF
职称材料
3
基于Hadoop平台的数据清洗研究
范会丽
彭宁
任薇
《电脑知识与技术》
2020
3
下载PDF
职称材料
4
面向时序的相似重复数据清洗算法优化
沈沛
毛海涛
胡文林
芮波
《计算机时代》
2022
1
下载PDF
职称材料
5
基于语义相似的中文数据清洗方法
李碧秋
王佳斌
刘雪丽
《现代计算机》
2021
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部