基于预处理的决策树在化学数据挖掘中的应用被引量：2

Decision Tree Based on Pretreatment and Its Application in Chemical Data Mining

下载PDF

导出

摘要化学数据挖掘可从海量数据中提取蕴含的知识,决策树方法是一种重要的挖掘工具。鉴于决策树在处理连续数据上的局限性,本研究提出先进行预处理,将连续属性离散化,通过特征选择删除其冗余量,以此为基础构建决策树。该方法可防止决策树模型“过细”,使之具有良好的预报性能。将此方法应用于两个化学样品分类实例,效果良好。与贝叶斯分析和单一的决策树方法相比,其预报正确率有显著提高,且表达形式直观明确,易于理解和分析,适用于化学分类知识模式的挖掘。 Chemical data mining can discover valuable knowledge from a large amount of data. As a data mining technique, decision tree is an important tool. Considering its limitation in dealing with continuous datasets. The pretreatment including discretization and feature selection was used to discretize continuous data and reduce the redundant attributes. Based on these steps, application of the decision tree classifier that was built can not only avoid over-fitting, but also have good predicting capacity. This method was applied to the deection of the glass and wine chemcial classification instances with good result that the prediction correct rates are 94.7% and 96.67 and the self -check correct rates are 95.5% and 96.88%, respectively. Compared with Bayes discriminant analysis and traditional decision tree algorithm, the correct prediction rate of this model is greatly improved and the classification rules that it produces are explicit and easy to understand. All these merits show that decision tree is a good tool for mining chemical pattern classification rules.

作者李琳陈德钊束志恒叶子青

机构地区浙江大学化工系仿真中心

出处《分析化学》 SCIE EI CAS CSCD 北大核心 2005年第8期1091-1094,共4页 Chinese Journal of Analytical Chemistry

基金国家自然科学基金项目(No.20276063) 浙江省重点科技项目(No.2004C21054)资助课题

关键词预处理决策树化学数据挖掘离散化特征选择化学模式分类 Data mining, decision tree, discretization, feature selection, chemical pattern classification

分类号 O6-39 [理学—化学]

引文网络
相关文献

参考文献14

1陈德钊编著..多元数据处理[M].北京:化学工业出版社,1998:302.
2张海霞,朱彭龄.固相萃取[J].分析化学,2000,28(9):1172-1180. 被引量：174
3Hart J, Kamber M, Data mining: Concepts and Techniques, Morgan Kaufmann Pubhshers, 2000. 被引量：1
4束志恒,方士,陈德钊,陈亚秋.基于正则化网络-遗传算法的属性筛选及其在化学模式识别中的应用[J].分析化学,2003,31(10):1169-1172. 被引量：5
5Quinlan J R. Machine Learning, 1986, 1 : 81 - 106. 被引量：1
6Quinlan J R. CA. 5 : Programs for Machine Learning, Morgan Kaufmann, 1993. 被引量：1
7Quinlan J R. Journal of Artificial Intelligence Research, 1996, 4:77 -90. 被引量：1
8Liu H, Hussain F, Tan C L, Dash M. Machine Learning and Knowledze ,Discoverr, 2002. 6:393 -423. 被引量：1
9Dougherty J, Konavi R, Sahami M. In Proceeding of ICMI-95, 12th International Conference on Machine Learning, Morgan Kaufmann, 1995:194-202. 被引量：1
10Fayyad U, Irani K. In Proceedings of IJCAI-93 , 13th International Joint Conference on Artificial Intelligence, Morgan Kaufmann, 1993:1022 - 1027. 被引量：1

二级参考文献9

1朱彭龄,王多加,屈莹.直接进样分析用固定相[J].中国药学杂志,1994,29(3):129-134. 被引量：10
2边肇祺.模式识别[M].清华大学出版社,1999.. 被引量：61
3Reed R. IEEE Trans. Neural Networks, 1993, 5: 740- 747. 被引量：1
4MacKay D J C.Neural Computation,1992,4:448-472. 被引量：1
5Foresee F D,Hagan M T.IEEE Int Conf Neural Networks,1997,3:1930-1935. 被引量：1
6Setiono R,Liu H.Neural-network Feature Selector,IEEE Trans.Neural Networks,1997,8(3):654-662. 被引量：1
7Verlkas A,Bacauskiene M.Elsevier Pattern Recognition Letters,2002,23:1323～1335. 被引量：1
8Chen Yaqiu, Chen Dezhao, Hu Shangxu. Generalised Error Back Propagation Training and Neural Nets for Pattern for Pattern Classification, Proceedings of the 2nd Asian Control,1997, 7:22 - 25. 被引量：1
9Chen Dezhao, Chen Yaqiu, Hu Shangxu. Chemometrics and Intelligent Laboratory Systems, 1996, 35:221 - 229. 被引量：1

共引文献177

1李红霞,许士国,范垂仁.基于贝叶斯正则化神经网络的径流长期预报[J].大连理工大学学报,2006,46(z1):174-177. 被引量：12
2戴军升,周守毅.环境水样中有机污染物前处理方法发展近况[J].兰州大学学报（自然科学版）,2008,44(S1):138-140. 被引量：1
3章新,朱惠贤,王林,李海涛,胡秋芬.3,5-二溴-2-吡啶偶氮重氮氨基偶氮苯固相萃取光度法测定生物样品中镉的研究[J].玉溪师范学院学报,2004,20(12):1-4.
4王晓明,吕海霞.β-环糊精接枝羧甲基壳聚糖吸附剂的制备及其性能[J].环境工程学报,2015,9(5):2237-2242. 被引量：1
5黄作君,李中东,施孝金,钟明康.固相萃取技术及其在体内药物分析中的应用[J].药学服务与研究,2004,4(3):250-252. 被引量：5
6刘耀驰,项伟中,徐伟箭.分子印迹技术在固相萃取中的应用与展望[J].化工学报,2004,55(10):1602-1607. 被引量：18
7吴献花,台希,李海涛,胡秋芬,杨光宇.4-羟基萘-1-亚甲基若丹宁固相萃取光度法测定环境样品中的汞[J].环境研究与监测,2004,17(3):8-10. 被引量：2
8陈树兵,单正军,胡秋辉.食品中农药残留检测的样品前处理技术[J].食品科学,2004,25(12):152-155. 被引量：41
9吴玉萍,王东丹,徐照丽,胡秋芬,尹家元,杨光宇.对磺酸基苯亚甲基硫代若丹宁固相萃取光度法测定烟草添加剂中的汞[J].分析科学学报,2005,21(1):60-62. 被引量：8
10李蔚,邓六爱,陈金东,韩同升.固相萃取高效液相色谱法测定蜂王浆啤酒中的10-羟基-2-癸烯酸[J].化学分析计量,2005,14(1):38-39. 被引量：5

同被引文献17

1束志恒,陈德钊,陈亚秋.粗糙集方法及其在化学模式分类规则挖掘中的应用[J].分析化学,2004,32(7):879-883. 被引量：6
2虞晓芬,傅玳.多指标综合评价方法综述[J].统计与决策,2004,20(11):119-121. 被引量：518
3罗党,刘思峰.灰色关联决策方法研究[J].中国管理科学,2005,13(1):101-106. 被引量：161
4高家全,何桂霞.并行遗传算法研究综述[J].浙江工业大学学报,2007,35(1):56-59. 被引量：24
5张翠军,贺毅朝,王金山.敏捷制造中制造资源选择问题的遗传算法[J].计算机工程与应用,2007,43(10):216-218. 被引量：5
6He Ping,Xu Chengjian.Improving the classification accuracy in chemistry via boosting technique[J].Chemometrics and Intelligent Laboratory Systems,2004,70:39-46. 被引量：1
7Kumar S,Naresh R.Efficient real coded genetic algorithm to solve the non -convex hydrothermal scheduling problem[J].International Journal of Electrical Power & Energy Systems,2007,29(10):738-747. 被引量：1
8Bryll R,Gutierrez O R,Quek F.Improving accuracy of classifier ensembles by using random features subsets[J].Pattern Recognition Letters,2003,36(6):1291-1302. 被引量：1
9Hsu C W,Lin C J.A comparison of methods for multiclass support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2):415-425. 被引量：1
10Renato Bueno.Genetic algorithms for approximate similarity queries[J].Data & Knowledge Engineering,2007,62(3):459-482. 被引量：1

引证文献2

1杨俊丽,戚务勤,李祥生.一种用于化学模式分类规则的遗传算法[J].微计算机应用,2010,31(12):54-58.
2董奕鑫,张欢欢,王昌会,陈昊,李孝诚.抗乳腺癌候选药物的优化模型[J].高师理科学刊,2022,42(6):30-37.

1霍卫峰,高娜,颜岩,李激扬,于吉红,徐如人.基于特征选择的决策树方法在磷酸铝AlPO4-5定向合成中的应用[J].物理化学学报,2011,27(9):2111-2117. 被引量：4
2李倩倩,田旷达,唐果,熊艳梅,闵顺耕.多元校正结合质谱数据进行四种有机物快速含量分析研究[J].光谱学与光谱分析,2016,36(2):532-536. 被引量：2
3魏光.论哲学与当代化学分类[J].化学通报,1996(2):59-62. 被引量：5
4陈志生.浅谈＂化学必修1＂元素化合物的教学策略[J].中学理科园地,2011(2):16-17.
5汪帆.周环反应的立体选律[J].曲靖师范学院学报,1998,18(Z3):75-78.
6雷志芳,张晓丹,金鑫,张存善,熊绍珍,赵颖.EDTA对太阳电池用纳米上转换材料性能的影响[J].人工晶体学报,2008,37(4):927-930. 被引量：4
7张鞍灵,高锦明,王姝清.黄酮类化合物的分布及开发利用[J].西北林学院学报,2000,15(1):69-74. 被引量：110
8姚志湘,杨锦瑜,张倩,刘雪颖,陈晓伟.Boosting算法及其在化学数据挖掘中的应用[J].广西工学院学报,2006,17(4):13-18. 被引量：1
9刘言,蔡文生,邵学广.大数据与化学数据挖掘[J].科学通报,2015,60(8):694-703. 被引量：14
10田勇,唐素芳.NDVI/NDWI/DEM决策树方法在东莞ALOS影像土地利用分类中的应用[J].中国医药工业杂志,2012,43(2):134-136. 被引量：7

分析化学

2005年第8期

浏览历史

内容加载中请稍等...

基于预处理的决策树在化学数据挖掘中的应用被引量：2

参考文献14

二级参考文献9

共引文献177

同被引文献17

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于预处理的决策树在化学数据挖掘中的应用 被引量：2

参考文献14

二级参考文献9

共引文献177

同被引文献17

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于预处理的决策树在化学数据挖掘中的应用被引量：2