基于递归特征消除和Stacking集成学习的股票预测实证研究被引量：7

An Empirical Study of Stock Forecasting Based on Recursive Characteristic Elimination and Stacking Integrated Learning

下载PDF

导出

摘要该文以沪深300为投资标的池,选取波动指标、收益指标、经典技术指标和交易指标等4大类指标共24个二级指标作为评价因子,用递归特征消除法结合Stacking集成学习以及传统的随机森林、支持向量机和逻辑回归等4个机器学习算法分别构建分类模型,预测投资标的池中周频收益率排名前20%的股票标的,为投资者提供量化投资策略.实证研究对这4个模型的分类预测效果进行了比较.结果表明,基于递归特征消除法和Stacking集成学习的模型的预测性能最高,其AUC值达到0.6447,准确率为60.21%,精确率为59.87%,召回率为62.65%,F 1值为61.23%.因此,基于递归特征消除法和Stacking集成学习的模型能够有效地为投资者选取高收益率的投资标的,是一个可行的基于机器学习的量化投资策略. In this paper we take Shanghai and Shenzhen 300 as the investment target pool,and select 24 secondary indexes as evaluation factors,including volatility,income,classical technical indexes and trading indicators.We respectively establish a classification model by recursive feature elimination method combined with stacking integrated learning(RFE_Stacking),by the traditional random forest,by support vector machine and by logical regression,in order to predict and select the stock targets with the top 20%weekly frequency yield in the investment target pool,and to provide investors with quantifiable investment strategies.Our empirical study compare the prediction effects of the four classification models,and the results show that RFE_Stacking behaves best,of which the AUC reaches 0.6447,the accuracy is 60.21%,the precision is 59.87%,the recall is 62.65%and the F 1-score is 61.23%.Therefore,the model based on RFE_Stacking can effectively select high-yield investment targets for investors,which is a feasible quantifiable investment strategy based on machine learning.

作者黄秋丽黄柱兴杨燕 HUANG Qiu-li;HUANG Zhu-xing;YANG Yan(School of Mathematics and Statistics,Nanning Normal University,Nanning,530100,China)

机构地区南宁师范大学数学与统计学院

出处《南宁师范大学学报（自然科学版）》 2021年第3期37-43,共7页 Journal of Nanning Normal University：Natural Science Edition

关键词股票递归特征消除 Stacking集成学习沪深300 收益率 stock recursive features elimination stacking integrated learning CSI 300 yield

分类号 F832 [经济管理—金融学] TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1王淑燕,曹正凤,陈铭芷.随机森林在量化选股中的应用研究[J].运筹与管理,2016,25(3):163-168. 被引量：36
2周志华著..机器学习[M].北京:清华大学出版社,2016:425.
3丁岚,骆品亮.基于Stacking集成策略的P2P网贷违约风险预警研究[J].投资研究,2017,36(4):41-54. 被引量：28
4杨博文,曹布阳.基于集成学习的房价预测模型[J].电脑知识与技术（过刊）,2017,23(10X):191-194. 被引量：7
5吴辰文,梁靖涵,王伟,李长生.基于递归特征消除方法的随机森林算法[J].统计与决策,2017,33(21):60-63. 被引量：40
6魏小敏,徐彬,关佶红.基于递归特征消除法的蛋白质能量热点预测[J].山东大学学报（工学版）,2014,44(2):12-20. 被引量：4
7吕凯晨,闫宏飞,陈翀.基于沪深300成分股的量化投资策略研究[J].广西师范大学学报（自然科学版）,2019,37(1):1-12. 被引量：11

二级参考文献57

1罗洪浪,王浣尘.中国股市动量策略和反向策略的赢利性[J].系统工程理论方法应用,2004,13(6):495-499. 被引量：15
2宋永辉,刘飞.基于神经网络模型的股票买卖时机探索[J].商场现代化,2005(11X):356-356. 被引量：1
3李东月.房价预测模型的比较研究[J].工业技术经济,2006,25(9):65-67. 被引量：19
4邱一卉,林成德.基于随机森林方法的异常样本检测方法[J].福建工程学院学报,2007,5(4):392-396. 被引量：7
5MOREIRA I S, FERNANDES P A, RAMOS M J. Hot spots-A review of the protein-protein interface determinant amino-acid residues [ J ]. Proteins, 2007, 68 ( 4 ) : 803- 812. 被引量：1
6CUNNINGHAM B C, WELLS J A. High-resolution epitope mapping of hgh receptor interactions by alanine- scanning mutagenesis [ J] . Science, 1989, 244 (4908) : 1081-1085. 被引量：1
7THORN K S, BOGAN A A. Asedb:a database of alanine mutations and their effects on the free energy of binding in protein interactions [ J ]. Bioinformatics, 2001, 17 ( 3 ) : 284-285. 被引量：1
8FISCHER T B, ARUNACHALAM K V, BAILEY D, et al. The binding interface database (bid) :a compilation of amino acid hot spots in protein interfaces [ J ]. Bioinfor- matics, 2003, 19 ( 11 ) : 1453-1454. 被引量：1
9SAEYS Y, INZA I, LARRANAGA P. A review of fea- ture selection techniques in bioinformatics [ J ]. Bioinfor- matics, 2007, 23 (19):2507-2517. 被引量：1
10XIA J F, ZHAO X M, SONG J, et al. APIS : accurate prediction of hot spots in protein interfaces by combining protrusion index with solvent accessibility [J]- BMC Bioinformatics, 2010, 11 : 174-187. 被引量：1

共引文献117

1王晓翌,张金领.基于Python的“烟蒂”量化投资策略构建与实证分析[J].中国物价,2021(3):78-81. 被引量：2
2罗泽南.基于集成树模型的Stacking量化选股策略研究[J].中国物价,2021(2):81-84. 被引量：1
3赵子铭.基于支持向量机模型的价值投资策略分析[J].时代金融,2020(22):68-72.
4张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
5陈一秋,吕大永,吴文锋.中国A股的Group LASSO非参数样条估计多因子选股策略研究[J].计量经济学报,2021(2):452-468. 被引量：1
6冉哲,李英娜,刘爱莲.基于RFE+CatBoost模型的异常用电检测方法研究[J].电视技术,2021,45(8):121-126. 被引量：3
7谭开明,魏世红,汪明媛.科技规划制定中技术预测方法经验借鉴——以韩国第四次国家技术预测为例[J].产业与科技论坛,2020(18):94-95. 被引量：1
8陈熙,张晓博.基于LightGBM的住房租金预测分析[J].产业与科技论坛,2020(6):103-105. 被引量：3
9秦德龙.流浪儿[J].传奇故事（百家讲堂）,2000(8):73-74.
10郭海山,高波涌,陆慧娟.基于Boruta-PSO-SVM的股票收益率研究[J].传感器与微系统,2018,37(3):51-53. 被引量：10

同被引文献88

1王娜,贺毅岳,张珊.基于LSTM神经网络的股票日内交易分布预测建模[J].财富生活,2020(18):9-11. 被引量：1
2毛开银,赵长名,何嘉.基于XGBoost的10 m风速订正研究[J].成都信息工程大学学报,2020(6):604-609. 被引量：7
3赵声蓉.多模式温度集成预报[J].应用气象学报,2006,17(1):52-58. 被引量：84
4王谨乐.股票成交量的马尔可夫链分析与预测[J].职业圈,2007(09S):13-14. 被引量：4
5陈明轩,王迎春,俞小鼎.交叉相关外推算法的改进及其在对流临近预报中的应用[J].应用气象学报,2007,18(5):690-701. 被引量：71
6张人禾,沈学顺.中国国家级新一代业务数值预报系统GRAPES的发展[J].科学通报,2008,53(20):2393-2395. 被引量：53
7王占锋,吴耀华,赵林城.删失回归模型中一个LASSO型变量选择和估计方法(英文)[J].应用概率统计,2010,26(1):66-80. 被引量：8
8陈明轩,高峰,孔荣,王迎春,王建捷,谭晓光,肖现,张文龙,王令,丁青兰.自动临近预报系统及其在北京奥运期间的应用[J].应用气象学报,2010,21(4):395-404. 被引量：69
9邓国,龚建东,邓莲堂,陈静,崔应杰,胡江凯,王晓聪,李应林,李莉.国家级区域集合预报系统研发和性能检验[J].应用气象学报,2010,21(5):513-523. 被引量：56
10张燕,张晨光,张夏欢.基于改进图半监督学习的个人信用评估方法[J].计算机科学与探索,2012,6(5):473-480. 被引量：5

引证文献7

1李亚玲,杨杰.基于支持向量机的人体着装识别研究[J].自动化与仪器仪表,2022(6):47-51.
2韩念霏,杨璐,陈明轩,宋林烨,曹伟华,韩雷.京津冀站点风温湿要素的机器学习订正方法[J].应用气象学报,2022,33(4):489-500. 被引量：11
3扎西群宗,次央.基于递归学习的静态逻辑电路功耗优化方法[J].通信电源技术,2022,39(13):79-81.
4廖明艳,骆明,王右雪.“量化投资问题”评阅综述[J].数学建模及其应用,2022,11(4):87-92.
5黄柱兴,杨燕,刘宇婷.基于财经新闻的多维情感特征融合交易特征的股票预测模型研究[J].南宁师范大学学报（自然科学版）,2023,40(1):64-71.
6李德伦,肖志祥,谢宁新,龚荣.机器学习中混合特征选择对模式预报广西春夏气温的订正研究[J].成都信息工程大学学报,2023,38(5):602-609.
7唐灵慧,李林,李丹.基于图卷积网络的个人信用评估研究[J].计算机与数字工程,2024,52(3):768-774.

二级引证文献11

1王瑞丽,马鹤翟,程攀,李武阶,刘火胜,刘佩廷.基于ECMWF模式的武汉市冬季高空气温订正预报研究[J].湖北农业科学,2023,62(S01):90-94.
2张春桂.福建省空气负氧离子分布特征及气象预测模型[J].应用气象学报,2023,34(2):193-205. 被引量：9
3邱贵强,于波,陶亦为,阎宏亮,王扬.基于集成学习算法的冬奥会延庆赛区极大风速预报[J].气象,2023,49(6):721-732. 被引量：2
4邱贵强,时少英,王洪霞,荆浩,张磊.2m气温集成订正方法及在冬奥延庆赛区的应用[J].应用气象学报,2023,34(4):400-412. 被引量：3
5胡莹莹,庞林,王启光.基于深度学习的7~15 d温度格点预报偏差订正[J].应用气象学报,2023,34(4):426-437. 被引量：5
6胡海川,钱传海,渠鸿宇.黄渤海及其邻近地区阵风估测改进[J].应用气象学报,2023,34(6):668-680.
7刘嘉慧敏,潘留杰,戴昌明,胡启元,何林,燕若彤.我国气温网格预报检验及客观订正方法研究进展[J].气象科技进展,2023,13(6):10-20.
8张庆,段丽瑶,柳艳香,蒋萍,陈子煊,刘博.集成多种机器学习算法的哮喘疾病发病风险预测模型研究[J].环境卫生学杂志,2024,14(2):113-120.
9焦洋,郑丽娜,张永婧,苏轶.两种降水客观统计方法对ECMWF集合平均降水预报的订正研究[J].干旱气象,2024,42(2):293-304.
10胡海川,代刊.我国近海阵风预报研究[J].气象,2024,50(6):711-722.

1无.8月A股走势分化[J].投资有道,2021(9):87-87.
2常志朋,陈闻鹤,王治莹.核主成分马田系统及其应用[J].系统工程理论与实践,2021,41(9):2447-2456. 被引量：3

南宁师范大学学报（自然科学版）

2021年第3期

浏览历史

内容加载中请稍等...

基于递归特征消除和Stacking集成学习的股票预测实证研究被引量：7

参考文献7

二级参考文献57

共引文献117

同被引文献88

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于递归特征消除和Stacking集成学习的股票预测实证研究 被引量：7

参考文献7

二级参考文献57

共引文献117

同被引文献88

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于递归特征消除和Stacking集成学习的股票预测实证研究被引量：7