基于主题模型的改进随机森林算法在文本分类中的应用被引量：7

IMPROVED RANDOM FORESTS ALGORITHM BASED ON TOPIC MODEL AND ITS APPLICATION IN TEXT CLASSIFICATION

下载PDF

导出

摘要针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。 In view of some problem emerged in text classification which has high dimension and big noise, the traditional random forest algorithm has exposed the defect of the computational complexity and the poor classification performance. We present an improved random forest algorithm based on LDA. This algorithm uses the LDA to model the original text, maps the original text to the topic space, ensures the consistency of the purport between text and the original text, and greatly reduces the impact of text noise on the classification. Moreover, to solve the problem of the random selection method for the features of decision tree in random forests, a method which utilizes the symmetrical uncertainty to calculate the correlation between all features is presented during the generation process of decision trees and reduces the correlation between different decision trees. Finally, we used the improved random forests algorithm in topic space for text classification. The experiment shows that the algorithm has good superiority classification ability in text.

作者姚立张曦煌

机构地区江南大学物联网工程学院

出处《计算机应用与软件》 2017年第8期173-178,212,共7页 Computer Applications and Software

基金江苏省产学研合作项目(BY2015019-30)

关键词隐狄利克雷模型主题模型随机森林特征评估文本分类 Latent Diriehlet Allocation （LDA） Topic model Random forest Feature evaluation Text categoriza-tion

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：68
2张翔,周明全,耿国华.Bagging中文文本分类器的改进方法研究[J].小型微型计算机系统,2010,31(2):281-284. 被引量：8
3姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：56
4方匡南,吴见彬,朱建平,谢邦昌.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(S1):97-107. 被引量：64
5周志华著..机器学习[M].北京:清华大学出版社,2016:425.

二级参考文献57

1刘闽,林成德.基于支持向量机的商业银行信用风险评估模型[J].厦门大学学报（自然科学版）,2005,44(1):29-32. 被引量：26
2刘云焘,吴冲,王敏,乔木.基于支持向量机的商业银行信用风险评估模型研究[J].预测,2005,24(1):52-55. 被引量：16
3吴高巍,陶卿,王珏.基于后验概率的支持向量机[J].计算机研究与发展,2005,42(2):196-202. 被引量：12
4燕继坤,郑辉,王艳,曾立君.基于可信度的投票法[J].计算机学报,2005,28(8):1308-1313. 被引量：8
5迟国泰,许文,孙秀峰.个人信用卡信用风险评价体系与模型研究[J].同济大学学报（自然科学版）,2006,34(4):557-563. 被引量：28
6周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
8董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
9伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
10边肇琪,等编著.模式识别(第二版)[M].北京:清华大学出版社,2000.176-210. 被引量：3

共引文献191

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2黄丹阳,毕博洋,朱映秋.基于高斯谱聚类的风险商户聚类分析[J].统计研究,2021,38(6):145-160. 被引量：4
3范新妍,方匡南,郑陈璐,张志远.基于整合治愈率模型的信贷违约时点预测[J].统计研究,2021(2):99-113. 被引量：2
4张维,曾薇,熊熊.消费行为改变下的信用卡风险仿真[J].华东经济管理,2012,26(4):79-83. 被引量：4
5孙建文,刘三(女牙),杨宗凯,王佩.采用集成特征选择的网络书写纹识别研究[J].小型微型计算机系统,2012,33(5):1108-1112.
6刘筱,阎小培.九十年代广东省不同经济地域差异分析[J].热带地理,2000,20(1):1-7. 被引量：25
7贺喜,蒋建春,丁丽萍,王永吉,廖晓峰.基于LDA模型的主机异常检测方法[J].计算机应用与软件,2012,29(8):1-4. 被引量：5
8赖玥,黄柳芬.商业银行贷记卡业务中的逆向选择——来自农业银行柳南支行的证据[J].广西工学院学报,2012,23(4):89-93.
9赵旭剑,金培权,岳丽华.TTP:一个面向中文新闻网页的主题时间解析器[J].小型微型计算机系统,2013,34(5):1042-1049. 被引量：7
10李冬睿,李梅.基于潜在狄利克雷分配的图像多层视觉表示方法[J].计算机应用,2013,33(8):2310-2312.

同被引文献60

1赵卓翔,王轶彤,田家堂,周泽学.社会网络中基于标签传播的社区发现新算法[J].计算机研究与发展,2011,48(S3):8-15. 被引量：37
2东明,郭亚军,郭宏.统一价格竞价机制下发电商报价策略研究[J].系统工程理论与实践,2004,24(4):83-87. 被引量：11
3虞晓芬,傅玳.多指标综合评价方法综述[J].统计与决策,2004,20(11):119-121. 被引量：522
4孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
5田民,刘思峰,卜志坤.灰色关联度算法模型的研究综述[J].统计与决策,2008(1):24-27. 被引量：179
6周朴雄.基于神经网络集成的WEB文档分类研究[J].图书情报工作,2008,52(7):110-112. 被引量：4
7曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
8张红旭,姚建刚,杨洪.决策树和粒子群算法在日前电价预测中的应用[J].电力系统及其自动化学报,2009,21(3):80-84. 被引量：1
9涂启玉,张茂林.小波神经网络预测电价的新改进[J].电力系统及其自动化学报,2011,23(2):157-160. 被引量：5
10熊高峰,韩鹏,聂坤凯.时间序列分解在短期电价分析与预测中的应用[J].电力系统及其自动化学报,2011,23(3):95-100. 被引量：13

引证文献7

1刘翱,胡超,邓旭东,童泽平,任亮.基于标签传播的P2P网络借贷平台分类[J].计算机应用与软件,2018,35(6):292-297. 被引量：1
2谢晓龙,叶笑冬,董亚明.梯度提升随机森林模型及其在日前出清电价预测中的应用[J].计算机应用与软件,2018,35(9):327-333. 被引量：12
3马欣.主题模型的发展及应用研究[J].电脑知识与技术,2018,14(5X):16-18.
4王吉俐,彭敦陆,陈章,刘丛.AM-CNN:一种基于注意力的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(4):710-714. 被引量：17
5岳丹阳,方帅.基于Filter模型和随机森林的电信客户投诉分类方法[J].计算机应用与软件,2020,37(7):221-226. 被引量：3
6尹春勇,何苗.基于改进胶囊网络的文本分类[J].计算机应用,2020,40(9):2525-2530. 被引量：10
7于游,付钰,吴晓平.一种基于词和事件主题的卷积网络的新闻文本分类方法[J].计算机应用与软件,2021,38(5):170-174. 被引量：3

二级引证文献46

1时德廷.生肌敛疡法治疗消化性溃疡[J].河南中医,2000,20(3):29-29. 被引量：4
2李琦,孙咏,焦艳菲,高岑,王美吉.基于HMIGW特征选择和XGBoost的毕业生就业预测方法[J].计算机系统应用,2019,28(6):203-208. 被引量：7
3孙明喆,毕瑶家,孙驰.改进随机森林算法综述[J].现代信息科技,2019,3(20):28-30. 被引量：9
4邱宁佳,王晓霞,王鹏,周思丞,王艳春.结合迁移学习模型的卷积神经网络算法研究[J].计算机工程与应用,2020,56(5):43-48. 被引量：10
5吕飞亚,张英俊,潘理虎.注意力机制的BiLSTM模型在招聘信息分类中的应用[J].计算机系统应用,2020,29(4):242-247. 被引量：2
6王静,邹慧敏,曲东东,白丽.基于经验模态分解生成对抗网络的金融时间序列预测[J].计算机应用与软件,2020,37(5):293-297. 被引量：12
7王孟轩,张胜,王月,雷霆,杜渂.改进的CRNN模型在警情文本分类中的研究与应用[J].应用科学学报,2020,38(3):388-400. 被引量：1
8毕瑶家,刘国柱,王华东,孙驰,付兆殊.改进随机森林算法在人才培养质量评价中的应用[J].计算机系统应用,2020,29(7):212-216. 被引量：2
9李昭昱,艾芊,张宇帆,殷爽睿,孙东磊,李雪亮.数据驱动技术在虚拟电厂中的应用综述[J].电网技术,2020,44(7):2411-2419. 被引量：34
10董玉坤,沈胜楠,路欣,武小雨,及翠婷.基于梯度提升树的电力物资在库时长预测[J].电力信息与通信技术,2020,18(9):50-56. 被引量：3

1李天彩,王波,席耀一,张佳明.基于分层狄利克雷过程模型的文本分割[J].数据采集与处理,2017,32(2):408-416. 被引量：2
2韩敏捷.基于深度学习框架的多模态动作识别[J].计算机与现代化,2017(7):48-52. 被引量：6
3杨红红,曲仕茹,金红霞.基于包级空间多示例稀疏表示的图像分类算法[J].西北工业大学学报,2017,35(4):690-697. 被引量：5
4曾利,孟文.CLIPS和C#结合实现电力操作票的自动生成[J].计算机应用与软件,2017,34(8):121-124. 被引量：7

计算机应用与软件

2017年第8期

浏览历史

内容加载中请稍等...

基于主题模型的改进随机森林算法在文本分类中的应用被引量：7

参考文献5

二级参考文献57

共引文献191

同被引文献60

引证文献7

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于主题模型的改进随机森林算法在文本分类中的应用 被引量：7

参考文献5

二级参考文献57

共引文献191

同被引文献60

引证文献7

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于主题模型的改进随机森林算法在文本分类中的应用被引量：7