期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
115
篇文章
<
1
2
…
6
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Web日志挖掘中的数据预处理的研究
被引量:
57
1
作者
陆丽娜
杨怡玲
+1 位作者
管旭东
魏恒义
《计算机工程》
EI
CAS
CSCD
北大核心
2000年第4期66-67,72,共3页
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的...
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。
展开更多
关键词
数据挖掘
WEB
日志挖掘
数据预处理
数据库
下载PDF
职称材料
神经网络数据挖掘方法中的数据准备问题
被引量:
28
2
作者
宋擒豹
沈钧毅
《计算机工程与应用》
CSCD
北大核心
2000年第12期102-104,共3页
文章讨论了神经网络数据挖掘方法中的数据准备问题.首先简要介绍数据清洗与选择的基本方法,然后详细论述数据预处理、数据表示和数据集管理等方面的问题.
关键词
数据准备
数据挖掘
神经网络
数据预处理
数据库
下载PDF
职称材料
数据整理——大数据治理的关键技术
被引量:
43
3
作者
杜小勇
陈跃国
+1 位作者
范举
卢卫
《大数据》
2019年第3期13-22,共10页
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者...
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。
展开更多
关键词
数据整理
数据准备
数据治理
数据管理
下载PDF
职称材料
统计数据预处理的理论与方法述评
被引量:
32
4
作者
程开明
《统计与信息论坛》
2007年第6期98-103,共6页
统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、...
统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、信度与效度检验、宏观数据诊断等六大类。选用恰当的方法开展统计数据预处理,有利于保证数据分析结论真实、有效。
展开更多
关键词
数据质量
数据预处理
缺失值
异常值
数据诊断
下载PDF
职称材料
基于神经网络的数据挖掘研究
被引量:
19
5
作者
刘钊
蒋良孝
《计算机工程与应用》
CSCD
北大核心
2004年第3期172-173,190,共3页
尽管神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺陷,但其对噪声数据的高承受能力和低错误率的优点是其他方法所不及的,并在数据挖掘所采用的方法中具有优势。该文对基于神经网络的数据挖掘进行了详细的研究。
关键词
数据挖掘
神经网络
数据准备
网络训练
下载PDF
职称材料
Web使用数据挖掘中数据预处理的研究
被引量:
11
6
作者
易敏昕
汪胜
+1 位作者
张有仁
陈宝树
《计算机工程与应用》
CSCD
北大核心
2003年第24期154-157,共4页
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等...
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等难点问题进行了进一步分析,提出了一个网站结构数据模型SITEDM和一个高效的会话管理算法session_manager。
展开更多
关键词
WEB
数据挖掘
数据预处理
会话
网站结构数据模型
下载PDF
职称材料
文献计量分析中的数据准备工作研究
被引量:
19
7
作者
沈艳红
张娣
《图书馆建设》
CSSCI
北大核心
2012年第5期90-92,共3页
数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数...
数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数据准备工作:分析信息需求,选用合适的检索方法;掌握数据库的使用方法;尽量提高查全率,及时补充遗漏数据;删除误检数据。
展开更多
关键词
文献计量分析
数据准备
数据采集
数据清洗
下载PDF
职称材料
对聚类算法普遍存在问题的解决办法
被引量:
10
8
作者
姜园
张朝阳
+1 位作者
仇佩亮
戚玉鹏
《电路与系统学报》
CSCD
2004年第3期92-99,共8页
聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法共同面临的五个问题:聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能,分析了对这些问题的有代表性的解决方法,...
聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法共同面临的五个问题:聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能,分析了对这些问题的有代表性的解决方法,总结并预测了未来聚类算法在这五个方面的研究方向。
展开更多
关键词
聚类
效果评估
类数目估计
预处理
相似性测量
抗干扰性能
下载PDF
职称材料
Web日志挖掘中的数据预处理技术
被引量:
12
9
作者
侯亚丽
袁方
《河北大学学报(自然科学版)》
CAS
北大核心
2005年第2期202-206,共5页
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志...
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.
展开更多
关键词
WEB
日志挖掘
数据预处理
会话划分
会话评价
下载PDF
职称材料
R软件的数据挖掘应用
被引量:
15
10
作者
陈荣鑫
《重庆工商大学学报(自然科学版)》
2011年第6期602-607,共6页
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计...
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。
展开更多
关键词
R软件
数据准备
挖掘建模
模型评估
下载PDF
职称材料
一个可扩展的数据清洗系统
被引量:
11
11
作者
郭志懋
俞荣华
+1 位作者
田增平
周傲英
《计算机工程》
CAS
CSCD
北大核心
2003年第3期95-96,183,共3页
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等...
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。
展开更多
关键词
数据挖掘
数据库
数据清洗系统
数据标准化
数据集成
可视化
下载PDF
职称材料
大数据背景下的数据安全治理研究进展
被引量:
7
12
作者
徐双
刘文斌
+2 位作者
李佳龙
李灯熬
赵菊敏
《太原理工大学学报》
北大核心
2024年第1期127-141,共15页
【目的】通过检索与分析数据安全治理相关技术文献,从数据全生命周期各阶段入手,展开实现数据安全治理的各类安全治理技术研究。【方法】首先,通过介绍数据安全治理现状,分析加强数据安全治理研究的重要性;其次,具体阐述了数据全生命周...
【目的】通过检索与分析数据安全治理相关技术文献,从数据全生命周期各阶段入手,展开实现数据安全治理的各类安全治理技术研究。【方法】首先,通过介绍数据安全治理现状,分析加强数据安全治理研究的重要性;其次,具体阐述了数据全生命周期理论,给出数据生命周期的不同阶段;然后,系统性总结了数据准备、使用、存储与销毁等不同生命周期阶段的数据安全治理技术及其应用;最后,对数据安全治理面临的挑战与未来研究方向进行了分析与展望。【结论】加强数据安全治理,不论是对个人信息的隐私保护,还是对数据产业自身发展,甚至是对国家的信息安全,都有着重大意义。数据安全治理领域应更好地将区块链技术和实际应用相结合,建立更加健全的数据追责机制,明确数据使用的责任和义务。
展开更多
关键词
数据安全治理
全生命周期
数据准备
数据使用
数据存储与销毁
下载PDF
职称材料
Web日志挖掘中的会话识别算法
被引量:
11
13
作者
蔡浩
贾宇波
+1 位作者
黄成伟
黄志强
《计算机工程与设计》
CSCD
北大核心
2009年第6期1321-1323,1390,共4页
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,...
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。
展开更多
关键词
WEB挖掘
数据预处理
会话识别
时间阈值
下载PDF
职称材料
一种改进的Web日志挖掘数据预处理方法
被引量:
5
14
作者
张小娣
《计算机工程与应用》
CSCD
北大核心
2006年第17期160-162,共3页
数据预处理在Web日志挖掘中具有非常关键的作用,只有经过预处理,才能获得准确的数据,才能正确地反映使用者的意图,从而保证分析沿着正确的方向进行。论文在对Web日志挖掘数据预处理的难点进行研究后,提出了用于用户访问页面路径补充的U...
数据预处理在Web日志挖掘中具有非常关键的作用,只有经过预处理,才能获得准确的数据,才能正确地反映使用者的意图,从而保证分析沿着正确的方向进行。论文在对Web日志挖掘数据预处理的难点进行研究后,提出了用于用户访问页面路径补充的UBPS启发式规则,以便于更好地进行事务识别和后续的用户浏览模式识别。
展开更多
关键词
数据挖掘
WEB日志挖掘
数据预处理
事务识别
下载PDF
职称材料
数据仓库系统的数据预处理问题研究与应用
被引量:
5
15
作者
王晓云
刘鲁
《北京航空航天大学学报(社会科学版)》
2004年第2期45-50,共6页
从数据仓库应用中的主要障碍之一———数据问题出发,对数据预处理的目标、原则、方法和具体技术进行讨论,并结合一个数据预处理设计的具体实例,分析了如何通过分层次逻辑模型解决数据预处理的透明性、产品化等具体问题。
关键词
数据仓库
数据预处理
数据抽取、转换和加载
分层次逻辑模型
下载PDF
职称材料
数据挖掘中并行离散化数据准备优化
被引量:
10
16
作者
刘云
袁浩恒
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2018年第5期993-999,共7页
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值...
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高.
展开更多
关键词
数据挖掘
数据准备
并行调用
分布检测
数据离散化
下载PDF
职称材料
数据挖掘中的数据准备工作
被引量:
5
17
作者
姜燕生
李凡
《湖北工学院学报》
2003年第6期35-38,42,共5页
提出数据准备的一些原则,讨论了数据准备工作的内容,包括数据选择、数据清洗、数据集成、数据 约简、数据转换等几个方面,并根据不同的内容给出了相关的处理办法和一些分析工具.
关键词
数据挖掘
数据准备
数据仓库
模式识别
孤立点
数据转换
数据清洗
下载PDF
职称材料
基于日志定制的Web使用数据挖掘预处理研究
被引量:
5
18
作者
易敏昕
张有仁
汪胜
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2003年第4期395-399,共5页
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志...
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志格式的不足,提出了定制日志的思想,并结合前面定义的数据模型,详细描述了一个预处理工具原型WUMPA。
展开更多
关键词
Web使用数据挖掘
数据预处理
数据模型
日志格式
下载PDF
职称材料
基于环形线圈检测器采集信息的数据挖掘方法研究
被引量:
5
19
作者
孙亚
彭国雄
皮晓亮
《交通与计算机》
2005年第1期46-49,共4页
智能交通系统 (ITS)是以信息和信息技术为基础 ,随着大量多源的信息采集之后 ,如何对信息进行有效处理是面临的新挑战。文章以环形线圈检测器采集的基础信息为对象 ,通过数据挖掘 ,即数据获取、数据准备、数据规约、数据转换和挖掘方法...
智能交通系统 (ITS)是以信息和信息技术为基础 ,随着大量多源的信息采集之后 ,如何对信息进行有效处理是面临的新挑战。文章以环形线圈检测器采集的基础信息为对象 ,通过数据挖掘 ,即数据获取、数据准备、数据规约、数据转换和挖掘方法流程 ,论述了各阶段的要求和算法 。
展开更多
关键词
数据挖掘
求和算法
挖掘方法
数据转换
对象
数据获取
规约
基础信息
信息技术
基础数据
下载PDF
职称材料
电脑横机控制系统数据准备
被引量:
8
20
作者
张弛
张成俊
吴晓光
《纺织学报》
EI
CAS
CSCD
北大核心
2012年第8期124-129,共6页
为实现电脑横机设计花型到控制数据的自动转换,给出一种电脑横机控制系统数据准备方案。该方案将控制系统数据分成花版行数据(PAT数据)、编织行数据(CNT数据)、系统参数数据(SYS数据)、编织参数数据(KSD数据)和编织动作数据(FKD数据)5...
为实现电脑横机设计花型到控制数据的自动转换,给出一种电脑横机控制系统数据准备方案。该方案将控制系统数据分成花版行数据(PAT数据)、编织行数据(CNT数据)、系统参数数据(SYS数据)、编织参数数据(KSD数据)和编织动作数据(FKD数据)5种。详细说明了各种数据的功能及定义,并给出了执行数据的转换算法。该方案能兼容目前市场上大部分横机花型设计软件的输出工艺数据,并能对每个花型工艺数据进行单独处理,最终生成的编织动作数据不仅运算量小,而且传输量少,可应用于各种主从式电脑横机的控制系统。经实践验证本电脑横机控制系统数据准备方案具有有效性。
展开更多
关键词
电脑横机
数据准备
花版行数据
编织行数据
编织动作数据
下载PDF
职称材料
题名
Web日志挖掘中的数据预处理的研究
被引量:
57
1
作者
陆丽娜
杨怡玲
管旭东
魏恒义
机构
西安交通大学计算机科学与技术系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2000年第4期66-67,72,共3页
文摘
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。
关键词
数据挖掘
WEB
日志挖掘
数据预处理
数据库
Keywords
data
mining
Web
log
mining
data
preparation
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
TP393 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
神经网络数据挖掘方法中的数据准备问题
被引量:
28
2
作者
宋擒豹
沈钧毅
机构
西安交通大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2000年第12期102-104,共3页
文摘
文章讨论了神经网络数据挖掘方法中的数据准备问题.首先简要介绍数据清洗与选择的基本方法,然后详细论述数据预处理、数据表示和数据集管理等方面的问题.
关键词
数据准备
数据挖掘
神经网络
数据预处理
数据库
Keywords
data
preparation
,
data
Mining,Neural
Network\
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据整理——大数据治理的关键技术
被引量:
43
3
作者
杜小勇
陈跃国
范举
卢卫
机构
中国人民大学信息学院
数据工程与知识工程教育部重点实验室(中国人民大学)
出处
《大数据》
2019年第3期13-22,共10页
基金
国家自然科学基金资助项目(No.U1711261)~~
文摘
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。
关键词
数据整理
数据准备
数据治理
数据管理
Keywords
data
wrangling
data
preparation
data
governance
data
management
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
统计数据预处理的理论与方法述评
被引量:
32
4
作者
程开明
机构
浙江工商大学统计与数学学院
出处
《统计与信息论坛》
2007年第6期98-103,共6页
基金
2006年浙江省教育厅科研计划项目"统计数据质量诊断的方法与应用研究"(20061101)
文摘
统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、信度与效度检验、宏观数据诊断等六大类。选用恰当的方法开展统计数据预处理,有利于保证数据分析结论真实、有效。
关键词
数据质量
数据预处理
缺失值
异常值
数据诊断
Keywords
data
quality
data
preparation
missing
data
outlier
data
diagnosis
分类号
F222 [经济管理—国民经济]
下载PDF
职称材料
题名
基于神经网络的数据挖掘研究
被引量:
19
5
作者
刘钊
蒋良孝
机构
中国地质大学信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2004年第3期172-173,190,共3页
文摘
尽管神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺陷,但其对噪声数据的高承受能力和低错误率的优点是其他方法所不及的,并在数据挖掘所采用的方法中具有优势。该文对基于神经网络的数据挖掘进行了详细的研究。
关键词
数据挖掘
神经网络
数据准备
网络训练
Keywords
data
mining,Neural
networks,
data
preparation
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
TP311.13 [自动化与计算机技术—控制科学与工程]
下载PDF
职称材料
题名
Web使用数据挖掘中数据预处理的研究
被引量:
11
6
作者
易敏昕
汪胜
张有仁
陈宝树
机构
华东理工大学计算机科学与工程系
出处
《计算机工程与应用》
CSCD
北大核心
2003年第24期154-157,共4页
文摘
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等难点问题进行了进一步分析,提出了一个网站结构数据模型SITEDM和一个高效的会话管理算法session_manager。
关键词
WEB
数据挖掘
数据预处理
会话
网站结构数据模型
Keywords
Web
usage
mining,
data
preparation
,Session,Site
structure
data
model
分类号
TP274 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
文献计量分析中的数据准备工作研究
被引量:
19
7
作者
沈艳红
张娣
机构
江南大学图书馆
出处
《图书馆建设》
CSSCI
北大核心
2012年第5期90-92,共3页
基金
江南大学2011年校级本科教育教学改革研究项目"基于‘卓越工程师教育培养计划’的信息素质教育改革研究"
项目编号:JGB2011129
+1 种基金
江西省教育科学"十二五"规划2011年度重点课题"高校信息检索教师学科教学知识研究"
项目编号:11ZD063的研究成果
文摘
数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数据准备工作:分析信息需求,选用合适的检索方法;掌握数据库的使用方法;尽量提高查全率,及时补充遗漏数据;删除误检数据。
关键词
文献计量分析
数据准备
数据采集
数据清洗
Keywords
Bibliometric
analysis
data
preparation
data
acquisition
data
cleaning
分类号
G250.252 [文化科学—图书馆学]
下载PDF
职称材料
题名
对聚类算法普遍存在问题的解决办法
被引量:
10
8
作者
姜园
张朝阳
仇佩亮
戚玉鹏
机构
浙江大学信息与通信工程研究所
出处
《电路与系统学报》
CSCD
2004年第3期92-99,共8页
基金
国家自然科学基金资助项目(60002003)
文摘
聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法共同面临的五个问题:聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能,分析了对这些问题的有代表性的解决方法,总结并预测了未来聚类算法在这五个方面的研究方向。
关键词
聚类
效果评估
类数目估计
预处理
相似性测量
抗干扰性能
Keywords
clustering
assessment
of
results
estimation
of
total
number
of
clusters
data
preparation
proximity
measure
outlier
handling
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web日志挖掘中的数据预处理技术
被引量:
12
9
作者
侯亚丽
袁方
机构
河北大学数学与计算机学院
出处
《河北大学学报(自然科学版)》
CAS
北大核心
2005年第2期202-206,共5页
文摘
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.
关键词
WEB
日志挖掘
数据预处理
会话划分
会话评价
Keywords
Weblog
mining
data
preparation
sessionizing
measuring
of
sessionzing
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
R软件的数据挖掘应用
被引量:
15
10
作者
陈荣鑫
机构
集美大学计算机工程学院
出处
《重庆工商大学学报(自然科学版)》
2011年第6期602-607,共6页
基金
福建省自然科学基金项目(2008J04005)
文摘
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。
关键词
R软件
数据准备
挖掘建模
模型评估
Keywords
R
data
preparation
mining
modeling
model
evaluation
分类号
TP315 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一个可扩展的数据清洗系统
被引量:
11
11
作者
郭志懋
俞荣华
田增平
周傲英
机构
复旦大学计算机系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第3期95-96,183,共3页
文摘
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。
关键词
数据挖掘
数据库
数据清洗系统
数据标准化
数据集成
可视化
Keywords
data
preparation
data
cleaning
Term
model
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
大数据背景下的数据安全治理研究进展
被引量:
7
12
作者
徐双
刘文斌
李佳龙
李灯熬
赵菊敏
机构
太原理工大学大数据学院
太原理工大学大数据融合分析与应用山西省重点实验室
太原理工大学山西省智能感知工程研究中心
太原理工大学信息与计算机学院
出处
《太原理工大学学报》
北大核心
2024年第1期127-141,共15页
基金
国家自然科学基金资助项目(62102280)
山西省基础研究计划资助项目(20210302124167)
+2 种基金
山西省重点研发计划项目(202102020101001)
国家自然科学基金面上资助项目(61972273)
山西省关键核心技术和共性技术研发攻关专项项目(2020XXX007)资助。
文摘
【目的】通过检索与分析数据安全治理相关技术文献,从数据全生命周期各阶段入手,展开实现数据安全治理的各类安全治理技术研究。【方法】首先,通过介绍数据安全治理现状,分析加强数据安全治理研究的重要性;其次,具体阐述了数据全生命周期理论,给出数据生命周期的不同阶段;然后,系统性总结了数据准备、使用、存储与销毁等不同生命周期阶段的数据安全治理技术及其应用;最后,对数据安全治理面临的挑战与未来研究方向进行了分析与展望。【结论】加强数据安全治理,不论是对个人信息的隐私保护,还是对数据产业自身发展,甚至是对国家的信息安全,都有着重大意义。数据安全治理领域应更好地将区块链技术和实际应用相结合,建立更加健全的数据追责机制,明确数据使用的责任和义务。
关键词
数据安全治理
全生命周期
数据准备
数据使用
数据存储与销毁
Keywords
data
security
governance
full
lifecycle
data
preparation
data
usage
data
storage
and
destruction
分类号
TP309.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
Web日志挖掘中的会话识别算法
被引量:
11
13
作者
蔡浩
贾宇波
黄成伟
黄志强
机构
浙江理工大学信息电子学院
出处
《计算机工程与设计》
CSCD
北大核心
2009年第6期1321-1323,1390,共4页
基金
浙江省教育厅科研计划基金项目(20060599)
浙江理工大学科学基金项目(111251A4Y04002)
文摘
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。
关键词
WEB挖掘
数据预处理
会话识别
时间阈值
Keywords
web
mining
data
preparation
session
identification
threshold
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
TP393 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
一种改进的Web日志挖掘数据预处理方法
被引量:
5
14
作者
张小娣
机构
西北工业大学信息系统系
出处
《计算机工程与应用》
CSCD
北大核心
2006年第17期160-162,共3页
文摘
数据预处理在Web日志挖掘中具有非常关键的作用,只有经过预处理,才能获得准确的数据,才能正确地反映使用者的意图,从而保证分析沿着正确的方向进行。论文在对Web日志挖掘数据预处理的难点进行研究后,提出了用于用户访问页面路径补充的UBPS启发式规则,以便于更好地进行事务识别和后续的用户浏览模式识别。
关键词
数据挖掘
WEB日志挖掘
数据预处理
事务识别
Keywords
data
Mining,Web
usage
mining,
data
preparation
,transaction
identification
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
数据仓库系统的数据预处理问题研究与应用
被引量:
5
15
作者
王晓云
刘鲁
机构
北京航空航天大学经济管理学院
出处
《北京航空航天大学学报(社会科学版)》
2004年第2期45-50,共6页
基金
教育部博士点基金(2000000601)
国家自然科学基金与香港RGC联合资助(NSFC/RGC7991061987)
文摘
从数据仓库应用中的主要障碍之一———数据问题出发,对数据预处理的目标、原则、方法和具体技术进行讨论,并结合一个数据预处理设计的具体实例,分析了如何通过分层次逻辑模型解决数据预处理的透明性、产品化等具体问题。
关键词
数据仓库
数据预处理
数据抽取、转换和加载
分层次逻辑模型
Keywords
data
warehouse
data
preparation
ETL
layer
logical
model
分类号
C931.6 [经济管理—管理学]
下载PDF
职称材料
题名
数据挖掘中并行离散化数据准备优化
被引量:
10
16
作者
刘云
袁浩恒
机构
昆明理工大学信息工程与自动化学院
出处
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2018年第5期993-999,共7页
基金
国家自然科学基金(61262040)
文摘
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高.
关键词
数据挖掘
数据准备
并行调用
分布检测
数据离散化
Keywords
data
mining
data
preparation
Parallel
invocation
Distributed
detection
data
discretization
分类号
TN929.5 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
数据挖掘中的数据准备工作
被引量:
5
17
作者
姜燕生
李凡
机构
华中科技大学计算机科学与技术学院
出处
《湖北工学院学报》
2003年第6期35-38,42,共5页
文摘
提出数据准备的一些原则,讨论了数据准备工作的内容,包括数据选择、数据清洗、数据集成、数据 约简、数据转换等几个方面,并根据不同的内容给出了相关的处理办法和一些分析工具.
关键词
数据挖掘
数据准备
数据仓库
模式识别
孤立点
数据转换
数据清洗
Keywords
data
warehouse
data
mining
data
preparation
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于日志定制的Web使用数据挖掘预处理研究
被引量:
5
18
作者
易敏昕
张有仁
汪胜
机构
华东理工大学计算机科学与工程系
出处
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2003年第4期395-399,共5页
文摘
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志格式的不足,提出了定制日志的思想,并结合前面定义的数据模型,详细描述了一个预处理工具原型WUMPA。
关键词
Web使用数据挖掘
数据预处理
数据模型
日志格式
Keywords
web
usage
mining
data
preparation
data
model
log
format
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于环形线圈检测器采集信息的数据挖掘方法研究
被引量:
5
19
作者
孙亚
彭国雄
皮晓亮
机构
同济大学
出处
《交通与计算机》
2005年第1期46-49,共4页
文摘
智能交通系统 (ITS)是以信息和信息技术为基础 ,随着大量多源的信息采集之后 ,如何对信息进行有效处理是面临的新挑战。文章以环形线圈检测器采集的基础信息为对象 ,通过数据挖掘 ,即数据获取、数据准备、数据规约、数据转换和挖掘方法流程 ,论述了各阶段的要求和算法 。
关键词
数据挖掘
求和算法
挖掘方法
数据转换
对象
数据获取
规约
基础信息
信息技术
基础数据
Keywords
collected
information
from
loop
detector
data
preparation
data
mining
traffic
state
分类号
U448.21 [建筑科学—桥梁与隧道工程]
TP311 [交通运输工程—道路与铁道工程]
下载PDF
职称材料
题名
电脑横机控制系统数据准备
被引量:
8
20
作者
张弛
张成俊
吴晓光
机构
武汉纺织大学机械与自动化学院
出处
《纺织学报》
EI
CAS
CSCD
北大核心
2012年第8期124-129,共6页
文摘
为实现电脑横机设计花型到控制数据的自动转换,给出一种电脑横机控制系统数据准备方案。该方案将控制系统数据分成花版行数据(PAT数据)、编织行数据(CNT数据)、系统参数数据(SYS数据)、编织参数数据(KSD数据)和编织动作数据(FKD数据)5种。详细说明了各种数据的功能及定义,并给出了执行数据的转换算法。该方案能兼容目前市场上大部分横机花型设计软件的输出工艺数据,并能对每个花型工艺数据进行单独处理,最终生成的编织动作数据不仅运算量小,而且传输量少,可应用于各种主从式电脑横机的控制系统。经实践验证本电脑横机控制系统数据准备方案具有有效性。
关键词
电脑横机
数据准备
花版行数据
编织行数据
编织动作数据
Keywords
computer
fiat
knitting
machine
data
preparation
PAT
data
CNT
data
FKD
data
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Web日志挖掘中的数据预处理的研究
陆丽娜
杨怡玲
管旭东
魏恒义
《计算机工程》
EI
CAS
CSCD
北大核心
2000
57
下载PDF
职称材料
2
神经网络数据挖掘方法中的数据准备问题
宋擒豹
沈钧毅
《计算机工程与应用》
CSCD
北大核心
2000
28
下载PDF
职称材料
3
数据整理——大数据治理的关键技术
杜小勇
陈跃国
范举
卢卫
《大数据》
2019
43
下载PDF
职称材料
4
统计数据预处理的理论与方法述评
程开明
《统计与信息论坛》
2007
32
下载PDF
职称材料
5
基于神经网络的数据挖掘研究
刘钊
蒋良孝
《计算机工程与应用》
CSCD
北大核心
2004
19
下载PDF
职称材料
6
Web使用数据挖掘中数据预处理的研究
易敏昕
汪胜
张有仁
陈宝树
《计算机工程与应用》
CSCD
北大核心
2003
11
下载PDF
职称材料
7
文献计量分析中的数据准备工作研究
沈艳红
张娣
《图书馆建设》
CSSCI
北大核心
2012
19
下载PDF
职称材料
8
对聚类算法普遍存在问题的解决办法
姜园
张朝阳
仇佩亮
戚玉鹏
《电路与系统学报》
CSCD
2004
10
下载PDF
职称材料
9
Web日志挖掘中的数据预处理技术
侯亚丽
袁方
《河北大学学报(自然科学版)》
CAS
北大核心
2005
12
下载PDF
职称材料
10
R软件的数据挖掘应用
陈荣鑫
《重庆工商大学学报(自然科学版)》
2011
15
下载PDF
职称材料
11
一个可扩展的数据清洗系统
郭志懋
俞荣华
田增平
周傲英
《计算机工程》
CAS
CSCD
北大核心
2003
11
下载PDF
职称材料
12
大数据背景下的数据安全治理研究进展
徐双
刘文斌
李佳龙
李灯熬
赵菊敏
《太原理工大学学报》
北大核心
2024
7
下载PDF
职称材料
13
Web日志挖掘中的会话识别算法
蔡浩
贾宇波
黄成伟
黄志强
《计算机工程与设计》
CSCD
北大核心
2009
11
下载PDF
职称材料
14
一种改进的Web日志挖掘数据预处理方法
张小娣
《计算机工程与应用》
CSCD
北大核心
2006
5
下载PDF
职称材料
15
数据仓库系统的数据预处理问题研究与应用
王晓云
刘鲁
《北京航空航天大学学报(社会科学版)》
2004
5
下载PDF
职称材料
16
数据挖掘中并行离散化数据准备优化
刘云
袁浩恒
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2018
10
下载PDF
职称材料
17
数据挖掘中的数据准备工作
姜燕生
李凡
《湖北工学院学报》
2003
5
下载PDF
职称材料
18
基于日志定制的Web使用数据挖掘预处理研究
易敏昕
张有仁
汪胜
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2003
5
下载PDF
职称材料
19
基于环形线圈检测器采集信息的数据挖掘方法研究
孙亚
彭国雄
皮晓亮
《交通与计算机》
2005
5
下载PDF
职称材料
20
电脑横机控制系统数据准备
张弛
张成俊
吴晓光
《纺织学报》
EI
CAS
CSCD
北大核心
2012
8
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
6
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部