期刊文献+
共找到173篇文章
< 1 2 9 >
每页显示 20 50 100
基于随机森林的特征选择算法 被引量:254
1
作者 姚登举 杨静 詹晓娟 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第1期137-141,共5页
提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方... 提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。 展开更多
关键词 人工智能 随机森林 特征选择 封装式
下载PDF
基于随机森林算法的农耕区土地利用分类研究 被引量:114
2
作者 马玥 姜琦刚 +3 位作者 孟治国 李远华 王栋 刘骅欣 《农业机械学报》 EI CAS CSCD 北大核心 2016年第1期297-303,共7页
基于随机森林算法,采用多季节、多时相光谱信息、纹理信息和地形信息进行分类研究,选出最佳分类方案对农耕区土地利用信息进行提取,并利用随机森林算法对所有特征变量进行降维,将降维后的变量分别用于随机森林、支持向量机和最大似然分... 基于随机森林算法,采用多季节、多时相光谱信息、纹理信息和地形信息进行分类研究,选出最佳分类方案对农耕区土地利用信息进行提取,并利用随机森林算法对所有特征变量进行降维,将降维后的变量分别用于随机森林、支持向量机和最大似然分类法,分析不同分类方法对农耕区土地利用类型提取的适用性。研究结果表明:基于随机森林算法的多源信息综合分类方案进行土地利用信息提取效果最佳,总体精度85.54%,Kappa系数0.835 9;利用随机森林算法进行特征选择可以在有效降低数据维度的同时保证分类精度;3种分类方法中,随机森林算法总体分类精度81.08%,分别较支持向量机和最大似然法高9.46%和5.27%。利用随机森林分类法结合多源信息能够有效对农耕区土地利用类型进行分类,为土地类型的划分提供了快捷可行的方法。 展开更多
关键词 土地利用分类 农耕区 随机森林算法 多源信息 特征选择
下载PDF
Sentinel-2影像多特征优选的黄河三角洲湿地信息提取 被引量:110
3
作者 张磊 宫兆宁 +2 位作者 王启为 金点点 汪星 《遥感学报》 EI CSCD 北大核心 2019年第2期313-326,共14页
以北方典型河口湿地—黄河三角洲湿地为研究区,采用在特征选择和分类提取等方面具有明显优势的随机森林算法,对研究区内的湿地信息进行提取。首先基于多时相、光谱信息丰富的Sentinel-2数据生成4类不同的特征变量,包括光谱特征、植被指... 以北方典型河口湿地—黄河三角洲湿地为研究区,采用在特征选择和分类提取等方面具有明显优势的随机森林算法,对研究区内的湿地信息进行提取。首先基于多时相、光谱信息丰富的Sentinel-2数据生成4类不同的特征变量,包括光谱特征、植被指数和水体指数、红边指数、纹理特征;再根据以上特征构建6种不同的提取方案,对黄河三角洲湿地信息进行提取并验证不同方案的提取精度,旨在选择最佳方案改善湿地信息提取的效果。结果表明:(1)有效地使用多种特征变量是提高湿地信息提取的关键,就不同特征对湿地信息提取的贡献率而言,红边指数>植被指数和水体指数>光谱特征>纹理特征;(2)基于随机森林算法优选的特征变量提取效果最佳,总体精度高达90.93%,Kappa系数为0.90,表明随机森林算法可以有效地进行特征选择,在特征变量数据挖掘的同时,仍能保证湿地信息提取的精度,提高运行效率。本研究为湿地信息提取在数据源选择、特征选择和方法选择方面提供了一种新思路、方法和技术手段。 展开更多
关键词 河口湿地 信息提取 Sentinel-2 随机森林 特征选择 红边指数 多时相数据
原文传递
利用随机森林回归的现货市场出清价格预测方法 被引量:56
4
作者 魏勤 陈仕军 +2 位作者 黄炜斌 马光文 陶春华 《中国电机工程学报》 EI CSCD 北大核心 2021年第4期1360-1367,共8页
为得到一种实用性较强且具有较高精度的电力现货市场出清价格的预测方法,该文尝试将随机森林回归应用到现货市场出清价格预测。首先通过随机森林回归的特征重要度分析功能对历史出清价和负荷输入进行特征筛选,然后建立基于随机森林回归... 为得到一种实用性较强且具有较高精度的电力现货市场出清价格的预测方法,该文尝试将随机森林回归应用到现货市场出清价格预测。首先通过随机森林回归的特征重要度分析功能对历史出清价和负荷输入进行特征筛选,然后建立基于随机森林回归的市场出清价预测模型,以网格搜索和交叉验证的方法确定模型参数,最后与基于决策回归树、支持向量机回归和人工神经网络的方法在北欧现货市场公开数据的基础上进行对比试验。试验结果表明该文设计预测方法相较其他方法的平均预测精度至少提高了25%,且预测效果较为稳定,同时输入特征筛选方法的应用能够进一步提高各个模型的预测精度。 展开更多
关键词 电力现货市场 市场出清价 随机森林 特征筛选 网格搜索 交叉验证
下载PDF
随机森林在企业信用评估指标体系确定中的应用 被引量:37
5
作者 林成德 彭国兰 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第2期199-203,共5页
评估指标体系的确定是企业信用评估的一个关键环节,指标体系选取的好坏直接影响模型的预测准确率.本文引进组合学习算法的新方法随机森林(Random Forest,RF)来选择指标,使得到的指标体系更加客观,更加符合机器学习的特点.实验证明,该方... 评估指标体系的确定是企业信用评估的一个关键环节,指标体系选取的好坏直接影响模型的预测准确率.本文引进组合学习算法的新方法随机森林(Random Forest,RF)来选择指标,使得到的指标体系更加客观,更加符合机器学习的特点.实验证明,该方法确定的指标体系能更有效地体现企业的信用状况,使用该指标体系建立的随机森林评估模型具有更高的预测准确率. 展开更多
关键词 随机森林 企业信用评估 评估指标体系 特征选择
下载PDF
随机森林方法支持的复杂地形区土地利用/土地覆被分类研究 被引量:42
6
作者 马慧娟 高小红 谷晓天 《地球信息科学学报》 CSCD 北大核心 2019年第3期359-371,共13页
随机森林方法目前已经成为遥感分类机器学习中一种有效方法,探索基于中等分辨率的Landsat卫星数据与随机森林方法相结合对复杂地形区长时间序列数据的获取及土地利用/土地覆被变化及模拟研究是非常有意义的。本文基于Landsat8OLI卫星多... 随机森林方法目前已经成为遥感分类机器学习中一种有效方法,探索基于中等分辨率的Landsat卫星数据与随机森林方法相结合对复杂地形区长时间序列数据的获取及土地利用/土地覆被变化及模拟研究是非常有意义的。本文基于Landsat8OLI卫星多光谱数据,采用随机森林分类方法对青海省湟水流域复杂地形区土地利用类型进行了分类研究。针对复杂地形区域的情况,将研究区进行地理分区,根据每个分区的特点,选择相应的地形特征参数,并通过提取Landsat 8数据的光谱信息与纹理信息构建最优特征集,探索随机森林方法在复杂地形区土地利用分类的适用性。结果表明:使用Landsat8OLI数据进行随机森林分类,能较好地得到湟水流域复杂地形区域的土地利用类型结果;光谱、地形及纹理信息的结合在不同分区的表现结果不同。在脑山区光谱与地形信息结合能使随机森林分类效果最佳,总体精度达到91.33%,Kappa系数为0.886;而在浅山区与川水区综合考虑光谱、地形、纹理信息进行随机森林分类效果最佳,浅山区与川水区总体精度分别达到92.09%和87.85%,Kappa系数分别为0.902和0.859;利用随机森林算法进行优化选择纹理特征组合可以在保证分类精度的同时能够快速地提取土地利用类型信息,为复杂地形区土地利用类型的区分提供了实际可行的方法。 展开更多
关键词 随机森林算法 复杂地形区 土地利用/土地覆盖分类 特征选择 湟水流域
原文传递
基于随机森林的高寒湿地地区土地覆盖遥感分类方法 被引量:35
7
作者 侯蒙京 殷建鹏 +3 位作者 葛静 李元春 冯琦胜 梁天刚 《农业机械学报》 EI CAS CSCD 北大核心 2020年第7期220-227,共8页
高寒湿地是青藏高原典型独特的生态系统,是全球气候变化的敏感地带和预警区。利用遥感技术快速、准确地分类提取高寒湿地的土地覆盖信息,对当地生态安全监测和保护具有重要意义。本文以若尔盖湿地国家级自然保护区为研究区,首先,以高分... 高寒湿地是青藏高原典型独特的生态系统,是全球气候变化的敏感地带和预警区。利用遥感技术快速、准确地分类提取高寒湿地的土地覆盖信息,对当地生态安全监测和保护具有重要意义。本文以若尔盖湿地国家级自然保护区为研究区,首先,以高分一号(GF-1)遥感影像为数据源,融合光谱特征、水体指数、地形特征、植被指数和纹理信息等26个变量进行随机森林(Random forest,RF)分类实验;然后,根据袋外数据(Out of bag,OOB)的特征变量重要性得分和精度评价结果,选出高寒湿地地区土地覆盖类型的最优分类方案和特征;最后,对特征变量进行降维,并基于相同的变量,采用极大似然法(Maximum likelihood classification,MLC)、支持向量机(Support vector machine,SVM)、人工神经网络(Artificial neural network,ANN)和RF等方法进行分类,比较不同方法的优适性。结果表明:结合GF-1影像光谱、水体、植被、纹理特征和地形信息,使用26个变量的RF模型的分类精度最高,总体精度(Overall accuracy,OA)为90.07%,Kappa系数为0.86;通过RF模型的变量重要性分析可以有效选出重要的特征信息,在降低特征变量维度的同时,还能保证较高的分类精度;4种分类方法中,RF算法是高寒湿地地区较合适的分类方法,OA比MLC基准方法高17.63个百分点,比SVM和ANN等机器学习算法分别高6.98、6.56个百分点。 展开更多
关键词 高寒湿地 土地覆盖 随机森林 特征选择 遥感 分类
下载PDF
基于随机森林特征选择的城市绿化乔木树种分类 被引量:32
8
作者 温小乐 钟奥 胡秀娟 《地球信息科学学报》 CSCD 北大核心 2018年第12期1777-1786,共10页
城市绿化在改善空气、水和土壤质量,吸收和减少二氧化碳及各种污染物,缓解城市热岛和减少雨水径流等方面发挥着重要作用。及时准确地获取树种信息是城市规划与绿化管理的先决条件,对进一步改善城市生态环境也具有重要意义。基于遥感技术... 城市绿化在改善空气、水和土壤质量,吸收和减少二氧化碳及各种污染物,缓解城市热岛和减少雨水径流等方面发挥着重要作用。及时准确地获取树种信息是城市规划与绿化管理的先决条件,对进一步改善城市生态环境也具有重要意义。基于遥感技术,使用高空间分辨率的WorldView-2卫星影像,采用光谱、纹理、指数以及几何等多种特征相结合的面向对象方法,并通过随机森林进行特征选择,对福州大学旗山校区北部的榕树、杧果、香樟、重阳木、羊蹄甲、垂叶榕以及木棉7种主要绿化乔木进行树种分类。实地验证结果表明:通过特征选择可以减少或规避数据冗余以及休斯效应的产生,该方法可以提高现有同类型树种分类的精度,当淘汰全部特征的20%,利用34个特征(包括15个光谱特征、6个纹理特征、8个指数特征和5个几何特征)进行分类时,总精度最高,可达74.95%,Kappa系数为0.67。其中,光谱平均值的特征重要性最高,而各波段的标准差的重要性较低。WorldView-2卫星影像的4个新增波段,特别是黄光和红边波段及其构建的指数特征重要性较高,也说明这些波段在植被遥感,特别是树种分类中极具应用前景。 展开更多
关键词 WorldView-2 面向对象 随机森林 特征选择 树种分类
原文传递
基于随机森林的地理要素面向对象自动解译方法 被引量:31
9
作者 顾海燕 闫利 +1 位作者 李海涛 贾莹 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2016年第2期228-234,共7页
面向地理对象影像分析(GEOBIA)技术取得了显著的进展,代表了遥感影像解译的发展范式,其主要目标是发展智能化分析方法。随机森林机器学习方法是一种相对新的、数据驱动的非参数分类方法,具有自动特征优选、自动模型构建等优势,为智能化... 面向地理对象影像分析(GEOBIA)技术取得了显著的进展,代表了遥感影像解译的发展范式,其主要目标是发展智能化分析方法。随机森林机器学习方法是一种相对新的、数据驱动的非参数分类方法,具有自动特征优选、自动模型构建等优势,为智能化分析提供了有效手段。充分利用GEOBIA及随机森林机器学习的优势,提出了基于随机森林的地理要素面向对象自动解译方法,阐述了随机森林面向对象分类方法的技术流程,为设计和实现该方法提供了详细指导,有助于指导用户优选特征和构建分类模型。通过与支持向量机分类的对比实验证明,该方法可以自动进行特征优选及分类模型的构建,利用较少的特征得到较高的分类精度,在不损失性能的前提下减少了计算量和内存使用,能够为大范围、大区域地理要素自动解译提供先验知识及自动化的手段。 展开更多
关键词 面向地理对象影像分析 随机森林 分类模型 特征选择
原文传递
地块尺度的复杂种植区作物遥感精细分类 被引量:31
10
作者 张鹏 胡守庚 《农业工程学报》 EI CAS CSCD 北大核心 2019年第20期125-134,共10页
实现复杂农区作物种植信息的精准、动态监测是中国农业精细化管理面临的迫切需求,而作物种植碎片化和异质性给作物遥感精细分类带来了诸多挑战,该文旨在探索基于高分辨率影像的地块尺度多种作物同步识别方法,以满足实时获取复杂农区作... 实现复杂农区作物种植信息的精准、动态监测是中国农业精细化管理面临的迫切需求,而作物种植碎片化和异质性给作物遥感精细分类带来了诸多挑战,该文旨在探索基于高分辨率影像的地块尺度多种作物同步识别方法,以满足实时获取复杂农区作物详细分布信息需要。研究选取武汉市新洲北部为典型区,以WorldView-2影像为数据源,利用ReliefF-Pearson方法优选作物遥感特征,采用人工神经网络、K最近邻和随机森林算法进行作物分类,并对比分析其精度。研究发现:1)RVI、NDVI、相关性和边界长度等12个特征构成了地块尺度作物分类的相对较优特征,可在充分表征影像信息同时降低数据冗余;2)相比于人工神经网络和K最近邻算法,随机森林算法分类精度最高,其总体精度达79.07%;3)以光谱特征差异为作物区分基础,形状和纹理特征的使用能有效改善地块尺度作物分类精度,总体精度可提高4%左右;4)研究所采用的方法体系能有效提升复杂种植区地物分类精度,水稻、棉花、荷等主要作物以及裸旱地、裸水田等地物分类精度均达到了80%以上。研究成果可为复杂种植区作物遥感精细分类提供新的思路和方法借鉴,亦可为作物种植信息精准普查、土地利用精细化管理以及农业产业结构调整动态监测等提供参考。 展开更多
关键词 遥感 作物 分类 地块尺度 复杂种植区 随机森林 特征选择 高分辨率影像
下载PDF
基于网格搜索随机森林算法的工矿复垦区土地利用分类 被引量:29
11
作者 陈元鹏 罗明 +3 位作者 彭军还 王军 周旭 李少帅 《农业工程学报》 EI CAS CSCD 北大核心 2017年第14期250-257,F0003,共9页
为提高工矿复垦区遥感影像土地利用分类精度,为土地复垦监测工作提供数据支持,该文探讨了基于网格搜索(Grid-Search)的随机森林(random forest)复垦区土地利用分类方法。研究利用GF-1影像、DEM(digital elevation model)和野外调查等数... 为提高工矿复垦区遥感影像土地利用分类精度,为土地复垦监测工作提供数据支持,该文探讨了基于网格搜索(Grid-Search)的随机森林(random forest)复垦区土地利用分类方法。研究利用GF-1影像、DEM(digital elevation model)和野外调查等数据,以随机森林分类算法为框架,采用基于OOB(Out-of-Bag)误差的网格搜索法对算法进行参数寻优,结合影像光谱、地形、纹理、空间信息,计算选取了33个特征变量,构建了4种变量组合模型开展随机森林分类试验,4个组合模型的分类精度分别达到82.79%、84.91%、86.75%、88.16%。为去除33个特征变量中的冗余信息、降低影像波段变量维度、缩短分类执行时间并保证影像分类精度,试验分别利用变量重要性估计和Relief F方法进行特征选择后再次执行随机森林分类,将分类结果与不同组合模型、不同分类方法进行比较,结果表明:基于网格搜索参数寻优的随机森林算法在多特征变量的影像分类中可以达到88.16%的分类精度,在利用不同方法降维后依然可以将分类精度保持在85%以上,精度优于相同特征变量下的SVM(support vector machine)和MLC(maximum likelihood classification)分类方法;在效率方面,随机森林分类方法执行时间优于SVM,并且在处理多维特征变量时能力更强。由此可见,采用基于网格搜索的随机森林方法对工矿复垦区土地利用信息进行分类提取可以得到较高的精度,基于该方法开展遥感影像解译可为土地复垦监测工作提供技术支持和理论参考。 展开更多
关键词 土地复垦 土地利用 工矿 复垦区 随机森林 网格搜索 多特征变量 特征选择
下载PDF
基于随机森林特征选择的茶园遥感提取 被引量:26
12
作者 王斌 何丙辉 +2 位作者 林娜 王伟 李天阳 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第7期1719-1732,共14页
由于茶园空间分布零散、形状不规则、与周围植被光谱特征接近等原因,从卫星影像中提取茶园非常具有挑战性。针对这一问题,本文研究提出了基于随机森林特征选择方法和Landsat-8 OLI影像进行茶园提取的技术路线,以浙江省安吉县为例,采用... 由于茶园空间分布零散、形状不规则、与周围植被光谱特征接近等原因,从卫星影像中提取茶园非常具有挑战性。针对这一问题,本文研究提出了基于随机森林特征选择方法和Landsat-8 OLI影像进行茶园提取的技术路线,以浙江省安吉县为例,采用春、秋、冬季Landsat-8 OLI影像作为主要数据源,利用随机森林对茶园影像特征进行重要性评估、排序和特征选择,设计了单季节初始特征集、单季节优选特征集、多季节优选特征集,并进行了9组茶园提取实验。结果表明,融合了特征选择和多季节信息优势于一体的多季节优选特征集具有最好的性能表现,其精度如下:生产者精度为87.5%、总体精度为92.4%、Kappa系数为0.897。本文提出的技术路线充分发挥了其在提高遥感分类精度和降低维度等方面的作用,实现了对空间分布离散、形状欠规则的茶园的有效提取。 展开更多
关键词 农业工程 茶园 随机森林 特征选择 遥感 提取
原文传递
基于随机森林的黄土地貌分类研究 被引量:23
13
作者 曹泽涛 方子东 +1 位作者 姚瑾 熊礼阳 《地球信息科学学报》 CSCD 北大核心 2020年第3期452-463,共12页
地貌分类在指导人类建设活动的规模与布局中有着重要的意义。然而,传统的基于数字高程模型(DEM)的地貌分类方法使用的地形因子和考虑到的地貌特征往往比较单一。本文提出了一种基于流域单元的地貌分类方法,该方法考虑了流域单元的多方... 地貌分类在指导人类建设活动的规模与布局中有着重要的意义。然而,传统的基于数字高程模型(DEM)的地貌分类方法使用的地形因子和考虑到的地貌特征往往比较单一。本文提出了一种基于流域单元的地貌分类方法,该方法考虑了流域单元的多方面特征,包括基本地形因子统计量、地形特征点线统计量、小流域特征和纹理特征。本研究首先基于DEM进行水文分析将研究区域划分成不同的小流域。然后利用数字地形分析提取29个不同方面的特征来表征流域的形态,并基于随机森林(RF)算法进行了特征选择和参数标定。RF是一种基于决策树算法的集成分类器,能有效地处理高维数据,分类精度高。最后选择训练集小流域对RF分类器进行训练,使用训练完成的分类器对整个研究区域的地貌进行分类,研究地貌分异的规律。该实验在我国陕北黄土高原典型黄土地貌区域的地貌分类中取得了较好的结果,结果表明不同的地貌之间存在明显的区域界线,特定的地貌类型在空间上表现出明显的聚集性。通过人工判读进行验证的分类精度达到了85%,Kappa系数为0.83。 展开更多
关键词 地貌 随机森林 黄土高原 地形特征 特征选择 地貌分类 DEM 小流域
原文传递
基于随机森林的加权特征选择算法 被引量:23
14
作者 徐少成 李东喜 《统计与决策》 CSSCI 北大核心 2018年第18期25-28,共4页
文章提出了一种基于随机森林的加权特征选择算法WRFFS。算法以随机森林为基础,以分类精度作为筛选特征子集的标准,通过在数据集上构造多棵决策树,采用交叉验证的方式进行特征的重要性度量,各决策树的权重和特征重要性度量加权求和决定... 文章提出了一种基于随机森林的加权特征选择算法WRFFS。算法以随机森林为基础,以分类精度作为筛选特征子集的标准,通过在数据集上构造多棵决策树,采用交叉验证的方式进行特征的重要性度量,各决策树的权重和特征重要性度量加权求和决定了最终的特征重要性排序,然后再采用序列后向选择法(Se-quential backward selection,SBS)进行特征的筛选,其中决策树的权重由该决策树与预测结果的相符程度来决定。最后,通过对比实验表明该方法WRFFS比已有文献中方法具有更好的分类性能。 展开更多
关键词 高维数据 随机森林 加权特征选择 封装式
下载PDF
随机森林针对小样本数据类权重设置 被引量:19
15
作者 李建更 高志坤 《计算机工程与应用》 CSCD 北大核心 2009年第26期131-134,共4页
随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小,但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题,研究了随机森林中类权重的设置。为了比较在不... 随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小,但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题,研究了随机森林中类权重的设置。为了比较在不同的类权重下特征选择的效果,同时使用支持向量机(Support Vector Machine,SVM)方法。最终结果显示最优的类权重是不确定的。最后总结出几条规律指导研究者选择合适的权重使分类和特征选择效果得到改善。 展开更多
关键词 随机森林 类权重 小样本 支持向量机 特征选择
下载PDF
基于随机森林和支持向量机的船舶柴油机故障诊断 被引量:21
16
作者 贺立敏 王岘昕 韩冰 《中国航海》 CSCD 北大核心 2017年第2期29-33,共5页
针对船舶低速二冲程柴油机故障的分析问题,提出基于随机森林和支持向量机的船舶柴油机故障诊断方法。对船舶低速二冲程柴油机MAN B&W 6S50MC-C建立故障仿真模型并验证其有效性;在此基础上,通过故障仿真模型生成故障样本。运用基于... 针对船舶低速二冲程柴油机故障的分析问题,提出基于随机森林和支持向量机的船舶柴油机故障诊断方法。对船舶低速二冲程柴油机MAN B&W 6S50MC-C建立故障仿真模型并验证其有效性;在此基础上,通过故障仿真模型生成故障样本。运用基于随机森林的VarSelRF特征选择算法对故障数据进行降维,提出运用支持向量机对降维后的故障数据进行分类的方法。通过仿真试验验证并分析该方法的有效性。 展开更多
关键词 船舶工程 船舶柴油机 故障诊断 随机森林 特征选择 支持向量机
下载PDF
基于随机森林和多标记学习算法的慢性胃炎实证特征选择和证候分类识别研究 被引量:21
17
作者 徐玮斐 顾巍杰 +3 位作者 刘国萍 刘晏 颜建军 钟涛 《中国中医药信息杂志》 CAS CSCD 2016年第8期18-23,共6页
目的对慢性胃炎实证证候的特征症状进行选择,并建立证候模型,为慢性胃炎证候量化诊断的建立提供方法学参考。方法运用慢性胃炎中医问诊规范化量表采集临床症状和体征,并运用机器学习领域新提出的随机森林和多标记学习算法对慢性胃炎的... 目的对慢性胃炎实证证候的特征症状进行选择,并建立证候模型,为慢性胃炎证候量化诊断的建立提供方法学参考。方法运用慢性胃炎中医问诊规范化量表采集临床症状和体征,并运用机器学习领域新提出的随机森林和多标记学习算法对慢性胃炎的实证症状进行选择和模型构建。结果运用随机森林和信息增益算法,结合多标记学习算法对证候分别建模,随机森林算法挑选出15个特征症状,信息增益方法挑选出20个特征症状,二者的模型最高准确率分别为83%、82%。通过评价,随机森林算法选出的特征症状更加精简,提高了诊断模型的识别率。结论随机森林结合多标记学习算法可实现慢性胃炎实证证候特征症状的选择,同时还可解决几个证候相兼问题,弥补传统学习算法的不足。 展开更多
关键词 随机森林算法 多标记学习算法 慢性胃炎 特征选择 证候
下载PDF
基于filter+wrapper模式的特征选择算法 被引量:20
18
作者 周传华 柳智才 +1 位作者 丁敬安 周家亿 《计算机应用研究》 CSCD 北大核心 2019年第7期1975-1979,2010,共6页
特征选择是数据挖掘、机器学习和模式识别中始终面临的一个重要问题。针对类和特征分布不均时,传统信息增益在特征选择中存在的选择偏好问题,提出了一种基于信息增益率与随机森林的特征选择算法。该算法结合filter和wrapper模式的优点,... 特征选择是数据挖掘、机器学习和模式识别中始终面临的一个重要问题。针对类和特征分布不均时,传统信息增益在特征选择中存在的选择偏好问题,提出了一种基于信息增益率与随机森林的特征选择算法。该算法结合filter和wrapper模式的优点,首先从信息相关性和分类能力两个方面对特征进行综合度量,然后采用序列前向选择(sequential forward selection,SFS)策略对特征进行选择,并以分类精度作为评价指标对特征子集进行度量,从而获取最优特征子集。实验结果表明,该算法不仅能够达到特征空间降维的效果,而且能够有效提高分类算法的分类性能和查全率。 展开更多
关键词 信息增益率 随机森林 特征选择 filter模式 wrapper模式
下载PDF
基于Sentinel-1A雷达影像的思茅松林蓄积量估测 被引量:20
19
作者 杨明星 徐天蜀 +2 位作者 牛晓花 霍鹏 岳彩荣 《西部林业科学》 CAS 北大核心 2019年第2期52-58,共7页
探讨C波段雷达影像估测森林蓄积量的应用潜力,建立思茅松林蓄积量遥感估测模型,为利用遥感技术快速、准确、大面积的估测森林蓄积量提供参考。以云南省普洱市思茅区思茅松林为研究对象,采用C波段双极化合成孔径雷达Sentinel-1A影像为数... 探讨C波段雷达影像估测森林蓄积量的应用潜力,建立思茅松林蓄积量遥感估测模型,为利用遥感技术快速、准确、大面积的估测森林蓄积量提供参考。以云南省普洱市思茅区思茅松林为研究对象,采用C波段双极化合成孔径雷达Sentinel-1A影像为数据源,提取影像不同极化方式下的后向散射系数,并分别计算4个窗口(5×5、7×7、9×9、11×11)下的9种纹理特征,共计提取75维影像特征作为备选自变量,结合45块地面蓄积量调查样地,采用随机森林算法,进行建模因子重要性分析,选择最优特征,即选取VH极化方式、5×5窗口下VH极化方式的均值和异质性、7×7和9×9窗口下VH极化方式的最大概率、11×11窗口下VH极化方式的最大概率和协同性,共7个特征因子,建立随机森林蓄积量估测模型,R^2达到0.64,RMSE为30.35m^3/hm^2,模型的估测精度达到75.46%,森林蓄积量估测效果较好。研究表明,基于C波段双极化雷达影像提取纹理特征,利用随机森林算法进行特征选择,建立的森林蓄积量估测模型具有一定的可行性和推广性。 展开更多
关键词 森林蓄积量 Sentinel-1A 随机森林 纹理 特征选择 思茅松
下载PDF
基于混合采样和特征选择的改进随机森林算法研究 被引量:18
20
作者 汪力纯 刘水生 《南京邮电大学学报(自然科学版)》 北大核心 2022年第1期81-89,共9页
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算... 随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest,HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。 展开更多
关键词 随机森林 混合采样 特征选择 高维不平衡数据 HF_RF算法
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部