劣质数据上代价敏感决策树的建立被引量：9

Cost-sensitive Decision Tree Induction on Dirty Data

下载PDF

导出

摘要代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性. Cost-sensitive decision tree is a kind of decision tree which maximizes the sum of misclassification costs and test costs. Recently, with the explosive growth of data size, dirty data appears more frequently. In the process of cost-sensitive decision tree induction, dirty data in training datasets have negative impacts on selection of splitting attributes and division of decision tree nodes. Therefore, dirty data cleaning is necessary before classification tasks. Nevertheless, in practice, many users provide an acceptable threshold of data cleaning costs since time costs and expenses of data cleaning are expensive. Therefore, in addition to misclassification cost and test cost, data-cleaning cost is also an essential factor in cost-sensitive decision tree induction. However, existing researches have not considered data quality in the problem. To fill this gap, this study aims to focus on cost-sensitive decision tree induction on dirty data. Three decision tree induction methods integrated with data cleaning algorithms are presented. Experimental results demonstrate the effective of the proposed approaches.

作者齐志鑫王宏志周雄李建中高宏 QI Zhi-Xin;WANG Hong-Zhi;ZHOU Xiong;LI Jian-Zhong;GAO Hong(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

机构地区哈尔滨工业大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2019年第3期604-619,共16页 Journal of Software

基金国家自然科学基金(U1509216 61472099) 国家科技支撑计划(2015BAH10F01)~~

关键词代价敏感决策树劣质数据数据清洗误分类代价测试代价 cost-sensitive decision tree dirty data data cleaning misclassification cost test cost

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献109

1董泽,贾昊.基于EWT-LOF的热工过程数据异常值检测方法[J].仪器仪表学报,2020,41(2):126-134. 被引量：25
2蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
3周首华,杨济华,王平.论财务危机的预警分析——F分数模式[J].会计研究,1996(8):8-11. 被引量：466
4凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
5郭鹏,葛玮.基于不平衡数据集的级联决策树改进算法[J].计算机工程,2009,35(24):75-77. 被引量：2
6付忠良.多分类问题代价敏感AdaBoost算法[J].自动化学报,2011,37(8):973-983. 被引量：32
7王超学,潘正茂,马春森,董丽丽,张涛.改进型加权KNN算法的不平衡数据集分类[J].计算机工程,2012,38(20):160-163. 被引量：26
8马茜,谷峪,张天成,于戈.一种基于数据质量的异构多源多模态感知数据获取方法[J].计算机学报,2013,36(10):2120-2131. 被引量：21
9方匡南,章贵军,张惠颖.基于Lasso-logistic模型的个人信用风险预警方法[J].数量经济技术经济研究,2014,31(2):125-136. 被引量：112
10蔡加欣,冯国灿,汤鑫,罗志宏.基于局部轮廓和随机森林的人体行为识别[J].光学学报,2014,34(10):204-213. 被引量：29

引证文献9

1丁杰,任妮,戴秀,毛晓娟,刘家祥,刘杨.智能温室大数据集成体系架构研究[J].现代园艺,2020,43(19):38-42. 被引量：1
2于安池,储茂祥,杨永辉,董秀.具有强化学习策略的决策树算法[J].合肥工业大学学报（自然科学版）,2021,44(5):616-620. 被引量：10
3任婷婷,鲁统宇,崔俊.基于改进AdaBoost算法的动态不平衡财务预警模型[J].数量经济技术经济研究,2021,38(11):182-196. 被引量：16
4周炎龙,孙广路.双重代价敏感随机森林算法[J].哈尔滨理工大学学报,2021,26(5):44-50. 被引量：3
5张天琪.石油化工装置安全仪表运行误差在线监测技术[J].能源与环保,2022,44(6):260-265.
6王清.基于随机森林的图书馆馆藏文献自动分类方法[J].自动化技术与应用,2022,41(7):51-53. 被引量：3
7张世良,孙刚,唐良运.基于决策树的供应商全链路动态特征挖掘算法[J].沈阳工业大学学报,2023,45(4):447-452. 被引量：1
8黄赓.条件优化KNN算法在水声主动目标杂波不平衡数据集上的分类应用[J].舰船电子工程,2023,43(10):200-203.
9闫佳和,李红辉,马英,刘真,张大林,江周娴,段宇航.多源异构数据融合关键技术与政务大数据治理体系[J].计算机科学,2024,51(2):1-14. 被引量：10

二级引证文献44

1中国医学科学院北京协和医学院群医学及公共卫生学院,北京大学公共卫生学院,中国疾病预防控制中心传染病管理处,四川大学华西公共卫生学院,中国科学院地理科学与资源研究所,首都医科大学附属北京地坛医院,中华医学会公共卫生分会,杨维中,刘珏,李中杰,兰亚佳,叶楚楚,廖一兰,张婷.传染病多点触发智慧化监测预警系统关键技术专家共识[J].中华医学杂志,2024,104(32):2995-3009.
2莫晓楠.云计算背景下流数据的集成与服务发展研究[J].电子测试,2022(10):74-76.
3黄好,赖建文,梁丽边,苏玉淋.融合面部表情与驾驶行为的路怒症识别方法研究[J].装备制造技术,2022(3):26-28. 被引量：1
4张品一,薛京京.多分形互联网金融市场的风险预警模型研究[J].数量经济技术经济研究,2022,39(8):162-180. 被引量：3
5贾若晖,马振禹.基于机器学习的Web代理缓存替换策略性能改进[J].信息与电脑,2022,34(10):61-63.
6杨冰清,赵金虎.基于迁移学习的违约预测模型研究[J].阜阳师范大学学报（自然科学版）,2022,39(3):6-11.
7詹辰.基于机器学习的财务危机预警模型研究——来自科创企业的实证分析[J].财务管理研究,2023(2):107-118. 被引量：1
8潘裕庆,张苏宁,冯仁君,景栋盛.结合粒子群优化和LightGBM的入侵检测方法[J].计算机与现代化,2023(4):123-126. 被引量：3
9贾宁.结合KPCA和XGBoost模型的企业经济危机风险预测研究[J].佳木斯大学学报（自然科学版）,2023,41(2):177-180. 被引量：1
10程平,施阳,张菁.基于SVM-VIKOR的自营电商供应商选择研究[J].会计之友,2023(13):147-155. 被引量：1

1李军,丁雷龙,王芳.不动产登记分析数据库建设研究[J].信息技术与信息化,2018(7):152-155. 被引量：4
2冯心欣,胡淑英,邹其昊,徐艺文.基于HBase的车联网海量数据查询[J].福州大学学报（自然科学版）,2018,46(4):466-471. 被引量：4
3何大伟,彭靖波,胡金海,李腾辉,贾伟州.基于改进FOA优化的CS-SVM轴承故障诊断研究[J].振动与冲击,2018,37(18):108-114. 被引量：17
4赵斌.高等教育质量评价中的代价问题探讨[J].上海教育评估研究,2018,7(5):1-5. 被引量：4
5舒毅彪.浅析毛泽东民主革命时期代价控制思维的方法论启示[J].攀登（哲学社会科学版）,2018,37(5):28-32.
6刘丽倩,董东.基于代价敏感集成分类器的长方法检测[J].计算机科学,2018,45(B11):497-500. 被引量：3
7靳丹丹.高效清洁烧瓶刷的研制与应用[J].内江科技,2018,39(10):20-20.
8沈思.基于本体构建技术的食品安全事件数据清洗研究[J].电脑与电信,2018(11):26-30.
9刘朴方,慎英才.新型VOCs采样气袋清洗装置在环境监测中的应用研究[J].环境科学与管理,2019,44(2):169-171. 被引量：1
10黄浩.含二氧化碳天然气藏开发和二氧化碳驱标准体系建立方法[J].化工管理,2019(3):211-212. 被引量：2

软件学报

2019年第3期

浏览历史

内容加载中请稍等...

劣质数据上代价敏感决策树的建立被引量：9

同被引文献109

引证文献9

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

劣质数据上代价敏感决策树的建立 被引量：9

同被引文献109

引证文献9

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

劣质数据上代价敏感决策树的建立被引量：9