摘要
数据挖掘 (DM)是非常具有挑战性的工作 ,数据挖掘过程是多个因素耦合的决策问题。讨论了当前流行的DM过程CRISP DM和SEMMA的不同之处及优缺点。从机器学习、统计和数据质量角度对挖掘有效性作了讨论 ,认为一个真正高效的过程应该面向算法 ,强调探索 ,以挖掘出高可靠性的具有商业价值的知识目标 ,并紧跟技术的发展。给出数据挖掘过程的多维视图 ,将算法分解为组件维、模型维和过程维等维度 。
The Applications of Data mining in business is very challengeable,and the process of data mining is affected by many factors.In this paper we discuss two main methodology of data mining process.We analyze the validity of data mining results from aspects of machine learning,statistics and data quality.We put data mining process in a multidimensional perspective,and propose a new process framework of data mining.
出处
《计算机应用研究》
CSCD
北大核心
2004年第8期211-213,216,共4页
Application Research of Computers
关键词
数据挖掘
过程
算法
Data Mining
Process
Algorithms