基于正则化KL距离的交叉验证折数K的选择被引量：5

A Selection Criterion of Fold K in Cross-validation Based on Regularized KL Distance

下载PDF

导出

摘要在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提假定是训练集和测试集的分布一致,但是实际数据划分中,往往不是这样。因此,可以通过度量训练集和测试集的分布一致性来进行K折交叉验证折数K的选择。直观地,KL(Kullback-Leibler)距离是一种合适的度量方法,因为它度量了两个分布之间的差异。然而直接基于KL距离进行K的选择时,从多个数据实验结果发现随着K的增加KL距离也在增大,显然这是不合适的。为此,提出了一种基于正则化KL距离的K折交叉验证折数K的选择准则,通过最小化此正则KL距离来选择合适的折数K。进一步多个真实数据实验验证了提出准则的有效性和合理性。 In machine learning,the K-fold cross-validation method often divides the data into multiple training and test sets for model evaluation and selection.However,the selection of the fold K is always an open problem.Note that one of the premises of the above cross-validation data division assumes that the training set and the test set have the same distribution,but in actual data division,this is often not the case.Therefore,the selection of the fold K can be performed by measuring the distribution consistency of the training set and the test set in K-fold cross-validation.Intuitively,KL(Kullback-Leibler)distance is a suitable measure because it measures the difference between two distributions.However,when selecting K directly based on the KL distance,it is found from multiple data experimental results that the KL distance also increases with the increase of K,which is obviously inappropriate.To this end,a selection criterion of the fold K in K-fold cross-validation based on regularized KL distance is proposed,and the appropriate fold K is selected by minimizing this regular KL distance.Multiple real data experiments in a recent step have verified the effectiveness and rationality of the proposed criterion.

作者褚荣燕王钰杨杏丽李济洪 CHU Rong-yan;WANG Yu;YANG Xing-li;LI Ji-hong(School of Mathematical Sciences,Shanxi University,Taiyuan 030006,China;School of Modern Educational Technology,Shanxi University,Taiyuan 030006,China;School of Software,Shanxi University,Taiyuan 030006,China)

机构地区山西大学数学科学学院山西大学现代教育技术学院山西大学软件学院

出处《计算机技术与发展》 2021年第3期52-57,共6页 Computer Technology and Development

基金山西省应用基础项目研究计划(201901D111034,201801D211002) 国家自然科学基金资助项目(61806115)。

关键词 K折交叉验证折数K的选择 KL(Kullback-Leibler)距离正则化机器学习 K-fold cross-validation selection of the fold K KL distance(Kullback-Leibler distance) regularized machine learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1王瑞波,王钰,李济洪.面向文本数据的正则化交叉验证方法[J].中文信息学报,2019,33(5):54-65. 被引量：10
2杨柳,王钰.泛化误差的各种交叉验证估计方法综述[J].计算机应用研究,2015,32(5):1287-1290. 被引量：66
3杨稳,刘晓宁,朱菲.基于支持向量机的颅骨性别识别[J].计算机技术与发展,2019,29(2):43-47. 被引量：2
4同鸣,王凡,王硕,姬成龙.一种3DHOGTCC和3DHOOFG的行为识别新框架[J].计算机研究与发展,2015,52(12):2802-2812. 被引量：2

二级参考文献57

1王兴玲,李占斌.基于网格搜索的支持向量机核函数参数的确定[J].中国海洋大学学报（自然科学版）,2005,35(5):859-862. 被引量：127
2VapnikVN.统计学习理论的本质[M].北京：清华大学出版社,2000.. 被引量：171
3HASTIE T,TIBSHRANI R,FRIEDMAN J. The elements of statistical learning:data mining,inference,and prediction[M].New York:Springer,2001. 被引量：1
4WASSEMAN L. Bayesian model selection and model averaging[J].Journal of Mathematical Psychology,2000,44(1):92-107. 被引量：1
5SPIEGELHALTER D J,BES N G,CARLIN B P,et al. Bayesian measures of model complexity and fit[J].Statistical Methodology,2002,64(4):583-639. 被引量：1
6KADANE J B,LAZAR N A. Methods and criteria for model selection[J].Journal of the American Statistical Association,2004,99(465):279-290. 被引量：1
7FRONMONT M. Model selection by bootstrap penalization for classification[J].Machine Learning,2007,66(2-3):165-207. 被引量：1
8BENGIO Y,GRANDVALET Y. No unbiased estimator of variance of K-fold cross validation[J].Machine Learning,2004,5:1089-1105. 被引量：1
9GRANDVALET Y,BENGIO Y. Hypothesis testing for cross validation[D].Montreal:University of Montreal,2006. 被引量：1
10ARLOT S,CELISSE A. A survey of cross-validation procedures for model selection[J].Statistics Surveys,2010,4:40-79. 被引量：1

共引文献76

1李文娟,赵放,郦敏杰,陈列,彭霞云.基于数值预报和随机森林算法的强对流天气分类预报技术[J].气象,2018,44(12):1555-1564. 被引量：36
2赵妍,崔浩瀚,荣子超.次同步振荡在线监测的同步提取变换和朴素贝叶斯方法[J].电力系统自动化,2019,43(3):187-192. 被引量：28
3余胜男,陈元芳,顾圣华,康有,贺冉冉.随机森林在降水量长期预报中的应用[J].南水北调与水利科技,2016,14(1):78-83. 被引量：20
4王秀美,牟少敏,时爱菊,浩庆波.局部支持向量回归在小麦蚜虫预测中的研究与应用[J].山东农业大学学报（自然科学版）,2016,47(1):52-56. 被引量：6
5宋康明,谭志祥,邓喀中,魏飞,王智福.利用随机森林回归模型预计水平移动系数[J].金属矿山,2016,45(6):180-184. 被引量：6
6王诗琦,赵书敏,耿江东,杨非,蒋忠进.变长增量型极限学习机及其泛化性能研究[J].计算机应用研究,2016,33(12):3696-3699. 被引量：3
7陈婕卿,杨秋英,陈卉.计算机辅助诊断模型内部验证方法的定量评价[J].北京生物医学工程,2016,35(6):588-592. 被引量：1
8刘继辉,许磊,马晓龙,李达,林鸿佳,杨洋,杨晶津,李兴绪,王慧.基于随机森林回归的制丝过程参数影响权重分析[J].烟草科技,2017,50(2):63-71. 被引量：12
9季念坤,李淑英,王志涛.基于克里金模型优选的压气机特性重构研究[J].热能动力工程,2017,32(4):70-75. 被引量：2
10吴非,吴向前,陈晓燕.改进随机森林算法在Android恶意软件检测中的应用[J].新疆大学学报（自然科学版）,2017,34(3):322-327. 被引量：3

同被引文献32

1吕东.美国音乐发展史简介[J].乐府新声（沈阳音乐学院学报）,1987,5(1):43-46. 被引量：4
2杨森,王少会,熊伟,周正发,徐卫兵.无机填料的表面改性研究进展[J].现代塑料加工应用,2006,18(5):53-56. 被引量：24
3苏珊·菲勒,吕常乐（译）.“新古典主义”在音乐中的不同表现[J].中央音乐学院学报,2007(4):93-97. 被引量：4
4黄云翔.三氧化二锑的性质及其在阻燃聚氯乙烯塑料中的应用[J].聚氯乙烯,1997(2):20-23. 被引量：6
5周华生.摇滚音乐叙事及终结[J].人民音乐,2009(5):82-85. 被引量：3
6喻晓雯,张楠,张勇.音乐作品风格流派的神经网络识别方法研究[J].计算机工程与应用,2011,47(27):246-248. 被引量：7
7李玉宝,沈志敏,苏明,赵运帅.地铁盾构隧道收敛和沉降监测数据处理与分析[J].东南大学学报（自然科学版）,2013,43(A02):296-301. 被引量：21
8郝爽,李国良,冯建华,王宁.结构化数据清洗技术综述[J].清华大学学报（自然科学版）,2018,58(12):1037-1050. 被引量：72
9谭学清,何珊.音乐个性化推荐系统研究综述[J].现代图书情报技术,2014(9):22-32. 被引量：23
10周奇才,范思遐,赵炯,熊肖磊.基于改进的支持向量机隧道变形预测模型[J].铁道工程学报,2015,32(3):67-72. 被引量：19

引证文献5

1李照众,王浩,畅翔宇,张一鸣,王飞球.基于组合模型的高铁隧道围岩收敛变形预测[J].东南大学学报（自然科学版）,2021,51(5):851-858. 被引量：9
2李若琳,陈丽萍,姜红,杨俊,满吉.X射线荧光光谱结合支持向量机对眼药水塑料瓶的分类研究[J].上海塑料,2022,50(6):56-63. 被引量：2
3沈赛拉,钟锋,梁兴,陈思悦,沈诗钰,陈璐静.基于随机森林和梯度提升决策树的高血压分析预测[J].计算机时代,2023(5):15-19.
4赵常兰,王天一.基于K近邻的相位编码连续变量量子密钥分发安全性分析[J].激光与光电子学进展,2023,60(19):222-229.
5罗红霞,罗娜.基于支持向量机算法的音乐风格识别系统[J].安徽师范大学学报（自然科学版）,2024,47(2):123-128.

二级引证文献11

1魏冠军,梁斌,戴嵩,张幸,王瀚弘.一种优化组合模型及其在高铁路基冻胀变形预测的应用[J].科学技术与工程,2022,22(19):8459-8466. 被引量：2
2周军强,凌涛,龙明华,彭学军,孙望成.泥-砂岩混合地层隧道施工围岩稳定性数值模拟分析[J].矿冶工程,2023,43(1):35-39. 被引量：1
3李照众,畅翔宇,王浩,茅建校.基于LS-SVR算法的多源监测数据高铁隧道围岩参数反分析方法[J].Journal of Southeast University(English Edition),2023,39(1):1-7. 被引量：2
4周贯旭,姜红,周飞翔,倪婷婷,黄凯,莫旖.无色透明塑料包装瓶的快速无损检验[J].实验与分析,2023,1(2):22-27.
5胡晓光,姜红,吴爱平,吴倩,吴兵,王阳.基于拉力数值的服装包装塑料袋分析研究[J].实验与分析,2023,1(2):97-101.
6张书豪,艾亚鹏,陈健,靳春玲,姬照泰.物元可拓法在引水隧洞围岩稳定性评价中的应用[J].安全与环境学报,2024,24(1):10-18. 被引量：2
7曹明星,严松宏,杜嘉轩.基于突变理论的泥岩隧道稳定性及极限位移确定[J].兰州交通大学学报,2024,43(1):8-15. 被引量：1
8封周权,邓佳逸,华旭刚,陈政清.基于贝叶斯优化支持向量回归的流线型箱梁颤振气动外形优化方法[J].东南大学学报（自然科学版）,2024,54(2):275-284. 被引量：1
9李丹,陈燕秋,王浩,聂佳豪,刘洋,王建国.基于声发射的钢桥面板焊接气孔缺陷在线识别[J].东南大学学报（自然科学版）,2024,54(2):285-293.
10李利平,范宏运,刘洪亮,周申,高靖遥,张延欢.三维DDA方法的验证及其在隧道围岩垮塌控制中的应用[J].东南大学学报（自然科学版）,2024,54(3):531-538.

1侯庆山,邢进生.基于Grad-CAM与KL损失的SSD目标检测算法[J].电子学报,2020,48(12):2409-2416. 被引量：8
2朱喜安,马樱格.人口普查质量评估抽样问题探讨[J].统计与决策,2020(20):9-14. 被引量：1
3杨晶显,刘俊勇,韩晓言,刘继春,丁理杰,张帅,胡帅.基于深度嵌入聚类的水光荷不确定性源场景生成方法[J].中国电机工程学报,2020,40(22):7296-7305. 被引量：19
4冯明.中国经济中长期潜在增长率研究:进展、共识和分歧[J].财经智库,2020,5(5):29-57. 被引量：10
5陈俊秀,李立丰.“机器意识”何以可能——人工智能时代“机器不能被骗”立场之坚守[J].大连理工大学学报（社会科学版）,2020,41(6):108-114. 被引量：12
6陈忠圣,朱梅玉,贺彦林,徐圆,朱群雄.基于分位数回归CGAN的虚拟样本生成方法及其过程建模应用[J].化工学报,2021,72(3):1529-1538. 被引量：2

计算机技术与发展

2021年第3期

浏览历史

内容加载中请稍等...

基于正则化KL距离的交叉验证折数K的选择被引量：5

参考文献4

二级参考文献57

共引文献76

同被引文献32

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于正则化KL距离的交叉验证折数K的选择 被引量：5

参考文献4

二级参考文献57

共引文献76

同被引文献32

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于正则化KL距离的交叉验证折数K的选择被引量：5