数据挖掘中分类算法分析与量化研究被引量：8

Quantitative Evaluation of Classification Algorithms Used in Data Mining

下载PDF

导出

摘要采用交叉验证方法对C4.5、Bayesian置信网络、序贯最小优化(SMO)3种主流数据挖掘分类算法进行了实验分析,分别得出了在相同训练、测试样本数据下3种算法建立模型所需时间、分类准确性、覆盖率及margin曲线。分析了训练样本数量对3种算法的不同影响,为使用者在不同的样本质量下选择相应的分类算法提供理论和实验依据。 Aim. In our opinion, it is important to know how to select for use the best one out of the following three typical classification algorithms： C4. 5, Bayesian network and sequential minimal optimization （SMO）. We now present our experimental results that can, in our opinion, be helpful in such selection. In the full paper, we explain in some detail how we obtain and analyze these experimental results; in this abstract, we just add some pertinent remarks to naming the first two sections in the full paper. Section 1 is： the classification algorithms. In this section, we use the cross validation method to compare the advantages and disadvantages of the three classification algorithms. Section 2 is： experimental analysis. In this section, in light of the five criteria of accuracy, speed, robustness, cover rate and comprehensibility, we analyze our experimental results and obtain the amounts of time needed respectively for the three classification algorithms to establish their models with the same training set and testing set. We also obtain their classification accuracy and margin curves as shown in Figs 1 through 3. The evaluation results, given in Tables 1 through 3, show preliminarily that the Bayesian network algorithm should be selected because its calculation speed, accuracy and robustness all satisfy its requirements.

作者张原高向阳

机构地区西北工业大学自动化学院

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2008年第6期718-722,共5页 Journal of Northwestern Polytechnical University

关键词数据挖掘分类算法训练样本 margin曲线 data mining, Bayesian networks, classification algorithm, margin curve

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1林士敏,田凤占,陆玉昌.贝叶斯网络的建造及其在数据采掘中的应用[J].清华大学学报（自然科学版）,2001,41(1):49-52. 被引量：66
2李建民,张钹,林福宗.序贯最小优化的改进算法[J].软件学报,2003,14(5):918-924. 被引量：30

二级参考文献19

1[1]Heckerman D. Bayesian networks for data mining [J]. Data Mining and Knowledge Discovery, 1997， 1: 79～119. 被引量：1
2[2]Heckerman D, Geiger D, Chickering D. Learning Bayesian Networks: the combination of knowledge and statistical data [J]. Machine Learning, 1995, 20: 196～243. 被引量：1
3[3]Geiger D, Heckerman D. A characterization of the Dirichlet distribution with applicable to learning Bayesian networks [A]. In Proceedings of Eleventh Conference on Uncertainty in Artificial Intelligence [C]. Montreal, QU, 1995. 196～207. 被引量：1
4[4]Cooper G, Herskovits E. A Bayesian method for the induction of probabilistic networks from data [J]. Machine Learning, 1992, 9: 309～347. 被引量：1
5[5]Dagum P, Luby M. Approximating probabilistic inference in Bayesian belief networks is NP-hard [J]. Artificial Intelligence, 1993, 60: 141～153. 被引量：1
6[6]Chickering D. Learning equivalence classes of Bayesian-network structures [A]. In Proceedings of Twelfth Conference on Uncertainty in Artificial Intelligence [C]. Portland, OR: Morgan Kaufmann, 1996. 被引量：1
7[7]Heckerman D, Mamdani A, Wellman M. Real-world applications of Bayesian networks [J]. Communications of the ACM, 1995, 38 (3): 24～26. 被引量：1
8[8]Sewell W, Shah V. Social class, parental encouragement, and educational aspirations [J]. American Journal of Sociology, 1968, 73: 559～572. 被引量：1
9[9]Spirtes P, Glymour C, Scheines R. Causation, Predication, and Search [M]. New York: Springer-Verlag, 1993. 被引量：1
10[10]Cheeseman P, Stutz J. Bayesian classification (AutoClass): Theory and results [A]. Fayyad U, Piatesky-Shapiro G, Smyth P, et al (Eds.). Advances in Knowledge Discovery and Data Mining [C]. Menlo Park, CA: AAAI Press, 1995. 被引量：1

共引文献94

1石康乐,孟庆刚.基于贝叶斯推理的中医诊疗小数据构建设想[J].中华中医药学刊,2022,40(5):104-107. 被引量：3
2盛春阳,张元.基于贝叶斯网络模型的交通状态预测[J].山东交通科技,2007(4):4-6. 被引量：3
3盛春阳,张元.基于贝叶斯网络模型的交通状态预测[J].西部交通科技,2007(6):111-114. 被引量：1
4杨欣斌,孙京诰,黄道.基于Bayesian网络的缺损数据处理方法[J].华东理工大学学报（社会科学版）,2002,17(S1):41-44. 被引量：3
5陈秀琼.基于贝叶斯网络的数据挖掘技术[J].三明高等专科学校学报,2004,21(2):47-52. 被引量：3
6余东峰,孙兆林.基于贝叶斯网络不确定推理的研究[J].微型电脑应用,2004,20(8):6-8. 被引量：23
7阿布都外力.买买提.贝叶斯不确定性推理及其在往复式压缩机故障诊断中的应用[J].化工装备技术,2005,26(2):65-70. 被引量：2
8胡懋智,古红英.各种不同类型的支持向量机及其性能比较分析[J].计算机工程与应用,2005,41(12):37-40. 被引量：8
9叶进,程泽凯,林士敏.基于贝叶斯网络的电信客户流失预测分析[J].计算机工程与应用,2005,41(14):212-214. 被引量：13
10纪华,郑璐石.支持向量机及其在岩土工程中的应用[J].宁夏工程技术,2005,4(2):160-164. 被引量：4

同被引文献44

1彭佳红,贺志勇,林雪梅.一种基于数据挖掘的混合生产过程质量控制方法[J].计算机工程与设计,2004,25(10):1692-1694. 被引量：2
2任萍,宋伟,刘武.基于自组织数据挖掘的房地产影响因素分析[J].统计与决策,2005,21(10X):142-143. 被引量：9
3方喜峰,赵良才,吴洪涛.基于数据挖掘的产品质量控制建模方法[J].机械工程学报,2005,41(11):20-25. 被引量：7
4李良群,姬红兵.基于最大熵模糊聚类的快速数据关联算法[J].西安电子科技大学学报,2006,33(2):251-256. 被引量：14
5IanH.数据挖掘实用机器学习技术[M].北京:机械工业出版社,2005. 被引量：2
6郭继孚,刘梦涵,等.北京市交通拥堵宏观评价指标体系开发及其应用[C]//2007第三届中国智能交通年会学术委员会.2007第三届中国智能交通年会论丈集.南京:东南大学出版社,2007:341-346. 被引量：5
7杨舒晴.基于粗糙集的决策树分类算法研究[D].赣州:江西理工大学,2009. 被引量：1
8Smyth B,Keane M.T, Curmingharn EHierarchical case-based reasoning integrating case-based and decompositional problem-solving techniques for plant-control software design[J].IEEE Transactions on Knowledge and Data Engineering,2001,13(5):793-816. 被引量：1
9杨静萍.钢铁制造业集成化生产质量管理方法研究[D].大连:大连理工大学,2008. 被引量：1
10DOAN A, HALEVY A Y. Semantic - integration research in the data- base community [ J ]. AI Magazine, 2005,26 ( 1 ) : 83-94. 被引量：1

引证文献8

1朱晓锋.第三方物流企业零担客户叛离的决策树预测[J].顺德职业技术学院学报,2011,9(2):19-22.
2薛冬娟,高天一,潘颖,潘澜澜.船舶企业质量控制模型及数据仓库的构建[J].计算机工程与应用,2012,48(6):229-232. 被引量：5
3唐蓉君,马玉波,蒋丹璐.基于多分类器的房地产客户分类[J].世界科技研究与发展,2012,34(1):108-110.
4廖律超.公众出行信息服务多源数据融合挖掘技术研究[J].福建工程学院学报,2012,10(3):266-270.
5张玉青.新型存储传输影视传媒应用工程技术在影视传媒领域的应用[J].科技创新导报,2012,9(19):32-32.
6薛瑞峰,彭墩陆.数据挖掘技术在本科毕业生就业指导中的应用研究[J].中国管理信息化,2013,16(3):108-109. 被引量：1
7李果,许成,付航,朱云霞,袁兴,闻平.基于数据挖掘算法的烟片在线质量反馈控制系统的研究[J].科技创新导报,2016,13(9):11-13.
8李凯,康彤.对恐怖袭击事件记录数据的量化分析[J].中国传媒大学学报（自然科学版）,2020,27(1):15-18. 被引量：2

二级引证文献8

1罗恒.船舶工程项目施工中的精细化质量管理[J].中国水运（下半月）,2022,22(3):38-40. 被引量：2
2宋敏,王社伟.基于ISA95的装配过程数据分析方法[J].计算机工程与设计,2013,34(9):3343-3347.
3车蕾.基于上市公司财务数据的数据仓库的构建研究[J].商业会计,2014(22):108-111. 被引量：1
4车蕾,丁峰.环境影响评价数据仓库模型的构建研究[J].河南师范大学学报（自然科学版）,2015,43(3):99-105.
5吴俊秀.修船外包工企业绩效制分配方式研究[J].商,2015,0(42):36-36.
6文益民,易新河,李忧喜,文博奚.高校人才培养全过程与信息技术深度融合中的数据挖掘[J].高教论坛,2016(4):18-24. 被引量：7
7金昕怡,刁航.信贷风险量化与信贷策略制定研究[J].科技创新与生产力,2021(7):61-64.
8姜旭初,吴沁珏.恐怖袭击嫌疑组织预测模型研究[J].安全与环境学报,2023,23(6):2017-2023.

1王塑,张萍,周新,王乙民.面向烟草企业的数据挖掘中分类算法分析与量化研究[J].办公自动化,2014,19(17):45-49.
2刘昊,扶炜.支持向量机的研究进展[J].信阳农业高等专科学校学报,2013,23(4):110-114. 被引量：1
3田大东,邓伟.基于不同惩罚系数的SMO改进算法[J].计算机应用,2008,28(9):2369-2370.
4杜晓东,李岐强.支持向量机及其算法研究[J].信息技术与信息化,2005(3):37-40. 被引量：13
5汪明,张征.SQL Server 2008 R2贝叶斯算法研究[J].河北软件职业技术学院学报,2011,13(3):58-61.
6卢龙,王静宇,王超.面向云计算的数据挖掘分类算法研究[J].微型机与应用,2017,36(6):7-9. 被引量：1
7李娟,杨福建.浅析Web数据挖掘[J].福建电脑,2011,27(11):72-73. 被引量：1
8刘俊霞.数据挖掘中分类并行算法研究[J].河南科技学院学报,2009,37(3):63-65.
9高文强,张晓梅.云计算环境下海量数据挖掘分类算法研究[J].信息与电脑,2016,28(15):96-97. 被引量：1
10范玉刚,李平,宋执环.基于样本取样的SMO算法[J].信息与控制,2004,33(6):665-669. 被引量：5

西北工业大学学报

2008年第6期

浏览历史

内容加载中请稍等...

数据挖掘中分类算法分析与量化研究被引量：8

参考文献2

二级参考文献19

共引文献94

同被引文献44

引证文献8

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

数据挖掘中分类算法分析与量化研究 被引量：8

参考文献2

二级参考文献19

共引文献94

同被引文献44

引证文献8

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

数据挖掘中分类算法分析与量化研究被引量：8