期刊文献+
共找到115篇文章
< 1 2 6 >
每页显示 20 50 100
Web日志挖掘中的数据预处理的研究 被引量:57
1
作者 陆丽娜 杨怡玲 +1 位作者 管旭东 魏恒义 《计算机工程》 EI CAS CSCD 北大核心 2000年第4期66-67,72,共3页
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的... 为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式,而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并通过一个实例具体介绍了各过程的主要任务。 展开更多
关键词 数据挖掘 WEB 日志挖掘 数据预处理 数据库
下载PDF
神经网络数据挖掘方法中的数据准备问题 被引量:28
2
作者 宋擒豹 沈钧毅 《计算机工程与应用》 CSCD 北大核心 2000年第12期102-104,共3页
文章讨论了神经网络数据挖掘方法中的数据准备问题.首先简要介绍数据清洗与选择的基本方法,然后详细论述数据预处理、数据表示和数据集管理等方面的问题.
关键词 数据准备 数据挖掘 神经网络 数据预处理 数据库
下载PDF
数据整理——大数据治理的关键技术 被引量:43
3
作者 杜小勇 陈跃国 +1 位作者 范举 卢卫 《大数据》 2019年第3期13-22,共10页
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者... 数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。 展开更多
关键词 数据整理 数据准备 数据治理 数据管理
下载PDF
统计数据预处理的理论与方法述评 被引量:32
4
作者 程开明 《统计与信息论坛》 2007年第6期98-103,共6页
统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、... 统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、信度与效度检验、宏观数据诊断等六大类。选用恰当的方法开展统计数据预处理,有利于保证数据分析结论真实、有效。 展开更多
关键词 数据质量 数据预处理 缺失值 异常值 数据诊断
下载PDF
基于神经网络的数据挖掘研究 被引量:19
5
作者 刘钊 蒋良孝 《计算机工程与应用》 CSCD 北大核心 2004年第3期172-173,190,共3页
尽管神经网络具有结构复杂、网络训练时间长、结果表示不容易理解等缺陷,但其对噪声数据的高承受能力和低错误率的优点是其他方法所不及的,并在数据挖掘所采用的方法中具有优势。该文对基于神经网络的数据挖掘进行了详细的研究。
关键词 数据挖掘 神经网络 数据准备 网络训练
下载PDF
Web使用数据挖掘中数据预处理的研究 被引量:11
6
作者 易敏昕 汪胜 +1 位作者 张有仁 陈宝树 《计算机工程与应用》 CSCD 北大核心 2003年第24期154-157,共4页
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等... Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段。其中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出了一个预处理工具模型WUMPA。并针对预处理过程中动态页面跟踪、站点结构表示和会话管理等难点问题进行了进一步分析,提出了一个网站结构数据模型SITEDM和一个高效的会话管理算法session_manager。 展开更多
关键词 WEB 数据挖掘 数据预处理 会话 网站结构数据模型
下载PDF
文献计量分析中的数据准备工作研究 被引量:19
7
作者 沈艳红 张娣 《图书馆建设》 CSSCI 北大核心 2012年第5期90-92,共3页
数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数... 数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数据准备工作:分析信息需求,选用合适的检索方法;掌握数据库的使用方法;尽量提高查全率,及时补充遗漏数据;删除误检数据。 展开更多
关键词 文献计量分析 数据准备 数据采集 数据清洗
下载PDF
对聚类算法普遍存在问题的解决办法 被引量:10
8
作者 姜园 张朝阳 +1 位作者 仇佩亮 戚玉鹏 《电路与系统学报》 CSCD 2004年第3期92-99,共8页
聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法共同面临的五个问题:聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能,分析了对这些问题的有代表性的解决方法,... 聚类广泛应用于统计、机器学习、模式识别、数据分析等领域并越来越受重视。本文研究了各种聚类算法共同面临的五个问题:聚类效果评估、类数目估计、数据预处理、样本间相似性测量、抗干扰性能,分析了对这些问题的有代表性的解决方法,总结并预测了未来聚类算法在这五个方面的研究方向。 展开更多
关键词 聚类 效果评估 类数目估计 预处理 相似性测量 抗干扰性能
下载PDF
Web日志挖掘中的数据预处理技术 被引量:12
9
作者 侯亚丽 袁方 《河北大学学报(自然科学版)》 CAS 北大核心 2005年第2期202-206,共5页
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志... 用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统. 展开更多
关键词 WEB 日志挖掘 数据预处理 会话划分 会话评价
下载PDF
R软件的数据挖掘应用 被引量:15
10
作者 陈荣鑫 《重庆工商大学学报(自然科学版)》 2011年第6期602-607,共6页
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计... 开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。 展开更多
关键词 R软件 数据准备 挖掘建模 模型评估
下载PDF
一个可扩展的数据清洗系统 被引量:11
11
作者 郭志懋 俞荣华 +1 位作者 田增平 周傲英 《计算机工程》 CAS CSCD 北大核心 2003年第3期95-96,183,共3页
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等... 在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。 展开更多
关键词 数据挖掘 数据库 数据清洗系统 数据标准化 数据集成 可视化
下载PDF
大数据背景下的数据安全治理研究进展 被引量:7
12
作者 徐双 刘文斌 +2 位作者 李佳龙 李灯熬 赵菊敏 《太原理工大学学报》 北大核心 2024年第1期127-141,共15页
【目的】通过检索与分析数据安全治理相关技术文献,从数据全生命周期各阶段入手,展开实现数据安全治理的各类安全治理技术研究。【方法】首先,通过介绍数据安全治理现状,分析加强数据安全治理研究的重要性;其次,具体阐述了数据全生命周... 【目的】通过检索与分析数据安全治理相关技术文献,从数据全生命周期各阶段入手,展开实现数据安全治理的各类安全治理技术研究。【方法】首先,通过介绍数据安全治理现状,分析加强数据安全治理研究的重要性;其次,具体阐述了数据全生命周期理论,给出数据生命周期的不同阶段;然后,系统性总结了数据准备、使用、存储与销毁等不同生命周期阶段的数据安全治理技术及其应用;最后,对数据安全治理面临的挑战与未来研究方向进行了分析与展望。【结论】加强数据安全治理,不论是对个人信息的隐私保护,还是对数据产业自身发展,甚至是对国家的信息安全,都有着重大意义。数据安全治理领域应更好地将区块链技术和实际应用相结合,建立更加健全的数据追责机制,明确数据使用的责任和义务。 展开更多
关键词 数据安全治理 全生命周期 数据准备 数据使用 数据存储与销毁
下载PDF
Web日志挖掘中的会话识别算法 被引量:11
13
作者 蔡浩 贾宇波 +1 位作者 黄成伟 黄志强 《计算机工程与设计》 CSCD 北大核心 2009年第6期1321-1323,1390,共4页
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,... 会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。 展开更多
关键词 WEB挖掘 数据预处理 会话识别 时间阈值
下载PDF
一种改进的Web日志挖掘数据预处理方法 被引量:5
14
作者 张小娣 《计算机工程与应用》 CSCD 北大核心 2006年第17期160-162,共3页
数据预处理在Web日志挖掘中具有非常关键的作用,只有经过预处理,才能获得准确的数据,才能正确地反映使用者的意图,从而保证分析沿着正确的方向进行。论文在对Web日志挖掘数据预处理的难点进行研究后,提出了用于用户访问页面路径补充的U... 数据预处理在Web日志挖掘中具有非常关键的作用,只有经过预处理,才能获得准确的数据,才能正确地反映使用者的意图,从而保证分析沿着正确的方向进行。论文在对Web日志挖掘数据预处理的难点进行研究后,提出了用于用户访问页面路径补充的UBPS启发式规则,以便于更好地进行事务识别和后续的用户浏览模式识别。 展开更多
关键词 数据挖掘 WEB日志挖掘 数据预处理 事务识别
下载PDF
数据仓库系统的数据预处理问题研究与应用 被引量:5
15
作者 王晓云 刘鲁 《北京航空航天大学学报(社会科学版)》 2004年第2期45-50,共6页
从数据仓库应用中的主要障碍之一———数据问题出发,对数据预处理的目标、原则、方法和具体技术进行讨论,并结合一个数据预处理设计的具体实例,分析了如何通过分层次逻辑模型解决数据预处理的透明性、产品化等具体问题。
关键词 数据仓库 数据预处理 数据抽取、转换和加载 分层次逻辑模型
下载PDF
数据挖掘中并行离散化数据准备优化 被引量:10
16
作者 刘云 袁浩恒 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第5期993-999,共7页
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值... 在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高. 展开更多
关键词 数据挖掘 数据准备 并行调用 分布检测 数据离散化
下载PDF
数据挖掘中的数据准备工作 被引量:5
17
作者 姜燕生 李凡 《湖北工学院学报》 2003年第6期35-38,42,共5页
提出数据准备的一些原则,讨论了数据准备工作的内容,包括数据选择、数据清洗、数据集成、数据 约简、数据转换等几个方面,并根据不同的内容给出了相关的处理办法和一些分析工具.
关键词 数据挖掘 数据准备 数据仓库 模式识别 孤立点 数据转换 数据清洗
下载PDF
基于日志定制的Web使用数据挖掘预处理研究 被引量:5
18
作者 易敏昕 张有仁 汪胜 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第4期395-399,共5页
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志... Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志格式的不足,提出了定制日志的思想,并结合前面定义的数据模型,详细描述了一个预处理工具原型WUMPA。 展开更多
关键词 Web使用数据挖掘 数据预处理 数据模型 日志格式
下载PDF
基于环形线圈检测器采集信息的数据挖掘方法研究 被引量:5
19
作者 孙亚 彭国雄 皮晓亮 《交通与计算机》 2005年第1期46-49,共4页
智能交通系统 (ITS)是以信息和信息技术为基础 ,随着大量多源的信息采集之后 ,如何对信息进行有效处理是面临的新挑战。文章以环形线圈检测器采集的基础信息为对象 ,通过数据挖掘 ,即数据获取、数据准备、数据规约、数据转换和挖掘方法... 智能交通系统 (ITS)是以信息和信息技术为基础 ,随着大量多源的信息采集之后 ,如何对信息进行有效处理是面临的新挑战。文章以环形线圈检测器采集的基础信息为对象 ,通过数据挖掘 ,即数据获取、数据准备、数据规约、数据转换和挖掘方法流程 ,论述了各阶段的要求和算法 。 展开更多
关键词 数据挖掘 求和算法 挖掘方法 数据转换 对象 数据获取 规约 基础信息 信息技术 基础数据
下载PDF
电脑横机控制系统数据准备 被引量:8
20
作者 张弛 张成俊 吴晓光 《纺织学报》 EI CAS CSCD 北大核心 2012年第8期124-129,共6页
为实现电脑横机设计花型到控制数据的自动转换,给出一种电脑横机控制系统数据准备方案。该方案将控制系统数据分成花版行数据(PAT数据)、编织行数据(CNT数据)、系统参数数据(SYS数据)、编织参数数据(KSD数据)和编织动作数据(FKD数据)5... 为实现电脑横机设计花型到控制数据的自动转换,给出一种电脑横机控制系统数据准备方案。该方案将控制系统数据分成花版行数据(PAT数据)、编织行数据(CNT数据)、系统参数数据(SYS数据)、编织参数数据(KSD数据)和编织动作数据(FKD数据)5种。详细说明了各种数据的功能及定义,并给出了执行数据的转换算法。该方案能兼容目前市场上大部分横机花型设计软件的输出工艺数据,并能对每个花型工艺数据进行单独处理,最终生成的编织动作数据不仅运算量小,而且传输量少,可应用于各种主从式电脑横机的控制系统。经实践验证本电脑横机控制系统数据准备方案具有有效性。 展开更多
关键词 电脑横机 数据准备 花版行数据 编织行数据 编织动作数据
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部