期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于ReliefF和最大相关最小冗余的多标记特征选择 被引量:7
1
作者 孙林 徐枫 +1 位作者 李硕 王振 《河南师范大学学报(自然科学版)》 CAS 北大核心 2023年第6期21-29,F0002,共10页
针对现有的特征选择模型未涉及特征和标记集之间的相关度,造成分类精度偏低等情况,提出了基于ReliefF和最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)的多标记特征选择.首先,运用互信息计算每个标记和标记集之间的... 针对现有的特征选择模型未涉及特征和标记集之间的相关度,造成分类精度偏低等情况,提出了基于ReliefF和最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)的多标记特征选择.首先,运用互信息计算每个标记和标记集之间的相关度,使用每项相关度占其相关度之和的比例设计了标记权重,由此构建了特征和标记集间的相关度,初选与标记集相关度高的特征;其次,计算对象在特征上的距离,构建了新的特征权值更新公式,基于标记权重改进多标记ReliefF模型.然后,基于互信息和标记权重构建了最大相关性,设计了最小冗余性及其新的最大相关最小冗余评价准则,并将其应用于多标记特征选择,进一步剔除冗余特征;最后,设计了一种基于ReliefF和最大相关最小冗余的多标记特征选择算法,有效提高了多标记分类性能.在8个多标记数据集上测试所提算法的平均分类精度、覆盖率、汉明损失、1错误率和排序损失,实验结果证明了该算法的有效性. 展开更多
关键词 多标记学习 特征选择 标记权重 RELIEFF 最大相关最小冗余
下载PDF
基于改进ReliefF的多标记特征选择算法 被引量:9
2
作者 孙林 陈雨生 徐久成 《山东大学学报(理学版)》 CAS CSCD 北大核心 2022年第4期1-11,共11页
针对传统的ReliefF算法仅能处理单标记数据,以及其改进算法没有充分利用样本间相关性等问题,提出一种基于改进ReliefF的多标记特征选择算法。首先使用余弦相似度函数衡量样本特征间的相似程度,利用杰卡德距离度量样本的标记之间的标记... 针对传统的ReliefF算法仅能处理单标记数据,以及其改进算法没有充分利用样本间相关性等问题,提出一种基于改进ReliefF的多标记特征选择算法。首先使用余弦相似度函数衡量样本特征间的相似程度,利用杰卡德距离度量样本的标记之间的标记相关性,定义样本间相似度函数度量样本在整个样本空间的相似关系。然后,定义样本的同类或异类判别公式,判断随机样本的最近邻同类和异类样本。最后,提出新的特征权值迭代公式改进ReliefF算法,设计多标记特征选择算法。通过平均分类精度、覆盖率、1错误率、排序损失、汉明损失这5种评价指标,在7个公开多标记数据集上分析和测试所提算法的分类性能。实验结果表明所提算法是有效的。 展开更多
关键词 多标记 特征选择 标记相关性 RELIEFF
原文传递
基于Fisher score与模糊邻域熵的多标记特征选择算法 被引量:3
3
作者 孙林 马天娇 薛占熬 《计算机应用》 CSCD 北大核心 2023年第12期3779-3789,共11页
针对Fisher score未充分考虑特征与标记以及标记之间的相关性,以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性,导致算法分类性能偏低等问题,提出一种基于Fisher score与模糊邻域熵的多标记特征选择算法(MLFSF)。首先,利用最... 针对Fisher score未充分考虑特征与标记以及标记之间的相关性,以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性,导致算法分类性能偏低等问题,提出一种基于Fisher score与模糊邻域熵的多标记特征选择算法(MLFSF)。首先,利用最大信息系数(MIC)衡量特征与标记之间的关联程度,构建特征与标记关系矩阵;基于修正余弦相似度定义标记关系矩阵,分析标记之间的相关性。其次,给出一种二阶策略获得多个二阶标记关系组,以此重新划分多标记论域;通过增强标记之间的强相关性和削弱标记之间的弱相关性得到每个特征的得分,进而改进Fisher score模型,对多标记数据进行预处理。再次,引入多标记分类间隔,定义自适应邻域半径和邻域类并构造了上、下近似集;在此基础上提出了多标记粗糙隶属度函数,将多标记邻域粗糙集映射到模糊集,基于多标记模糊邻域给出了上、下近似集以及多标记模糊邻域粗糙集模型,由此定义模糊邻域熵和多标记模糊邻域熵,有效度量边界域的不确定性。最后,设计基于二阶标记相关性的多标记Fisher score特征选择算法(MFSLC),从而构建MLFSF。在多标记K近邻(MLKNN)分类器下11个多标记数据集上的实验结果表明,相较于ReliefF多标记特征选择(MFSR)等6种先进算法,MLFSF的平均分类精度(AP)的均值提高了2.47~6.66个百分点;同时,在多数数据集上,MLFSF在5个评价指标上均能取得最优值。 展开更多
关键词 多标记学习 特征选择 Fisher score 多标记模糊邻域粗糙集 模糊邻域熵
下载PDF
基于中心偏移的Fisher score与直觉邻域模糊熵的多标记特征选择
4
作者 孙林 马天娇 《计算机科学》 CSCD 北大核心 2024年第7期96-107,共12页
现有多标记Fisher score模型中边缘样本会影响算法分类效果。鉴于邻域直觉模糊熵处理不确定信息时具有更强的表达能力与分辨能力的优势,文中提出了一种基于中心偏移的Fisher score与邻域直觉模糊熵的多标记特征选择方法。首先,根据标记... 现有多标记Fisher score模型中边缘样本会影响算法分类效果。鉴于邻域直觉模糊熵处理不确定信息时具有更强的表达能力与分辨能力的优势,文中提出了一种基于中心偏移的Fisher score与邻域直觉模糊熵的多标记特征选择方法。首先,根据标记将多标记论域划分为多个样本集,计算样本集的特征均值作为标记下样本的原始中心点,以最远样本的距离乘以距离系数,去除边缘样本集,定义了新的有效样本集,计算中心偏移处理后的标记下每个特征的得分以及标记集的特征得分,进而建立了基于中心偏移的多标记Fisher score模型,预处理多标记数据。然后,引入多标记分类间隔作为自适应模糊邻域半径参数,定义了模糊邻域相似关系和模糊邻域粒,由此构造了多标记模糊邻域粗糙集的上、下近似集;在此基础上提出了多标记邻域粗糙直觉隶属度函数和非隶属度函数,定义了多标记邻域直觉模糊熵。最后,给出了特征的外部和内部重要度的计算公式,设计了基于邻域直觉模糊熵的多标记特征选择算法,筛选出最优特征子集。在多标记K近邻分类器下、9个多标记数据集上的实验结果表明,所提算法选择的最优子集具有良好的分类性能。 展开更多
关键词 多标记学习 特征选择 Fisher score 多标记模糊邻域粗糙集 邻域直觉模糊熵
下载PDF
不稳定型心绞痛患者不良结局的多标签预测模型构建
5
作者 王紫芸 张瑜 +2 位作者 韩港飞 闫晶晶 田晶 《中国循证心血管医学杂志》 2024年第6期651-656,共6页
目的不稳定型心绞痛患者不良结局具有多维性的特点,传统统计方法多对不稳定型心绞痛的单维结局进行预测,无法解决多标签数据特征冗余、标签不平衡等问题。本文尝试采用多标签合成少数类过采样技术(MLSMOTE)算法进行处理,并构建多标签预... 目的不稳定型心绞痛患者不良结局具有多维性的特点,传统统计方法多对不稳定型心绞痛的单维结局进行预测,无法解决多标签数据特征冗余、标签不平衡等问题。本文尝试采用多标签合成少数类过采样技术(MLSMOTE)算法进行处理,并构建多标签预测模型,以提高其预测性能。方法收集来自2017年1月~2020年5月于山西医科大学第二医院收治的不稳定型心绞痛患者纳入本研究。采用回顾性和前瞻性相结合的临床队列收集患者信息。以不稳定型心绞痛患者发生心肌梗死、心力衰竭、血运重建、脑卒中、死亡为结局,使用改进Relief F的多标记特征选择(RF-ML)算法选择多标签特征子集,MLSMOTE算法进行多标签不平衡处理,在此基础上构建分类器链(CC)的多标签分类模型,选取随机森林、朴素贝叶斯、支持向量机、K近邻(K-nearest neighbors,KNN)算法等为基分类器进行比较,并评价模型性能。结果采用多标签特征选择方法RF-ML进行变量筛选,最终筛选出18个变量纳入模型,分别为:尿酸、肌酐、血小板、氯、血红蛋白、收缩压、舒张压、心率、钠、血清总胆红素、血清间接胆红素、白蛋白、血清总胆汁酸、体质指数(BMI)、血糖、血清直接胆红素、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇。采用多标签不平衡算法MLSMOTE对此次研究涉及的5个标签:心肌梗死、心力衰竭、血运重建、脑卒中、死亡进行不平衡处理。采用不平衡处理后的数据,选择随机森林、朴素贝叶斯、支持向量机、KNN作为基分类器,建立CC模型,结果显示以朴素贝叶斯为基分类器的CC模型在Ranking loss、Macro_AUC、Micro_AUC、Macro_F1、Micro_F1、Macro_recall六个指标上的表现性能均优于其他模型。结论本研究采用MLSMOTE算法进行不平衡处理,使原始标签的不平衡率得到一定改善。运用均衡化数据建立CC模型,充分考虑了标签的特定特� 展开更多
关键词 不稳定型心绞痛 多标签特征选择 多标签不平衡 标签特定特征
下载PDF
基于标记相关性和ReliefF的多标记特征选择 被引量:6
6
作者 孙林 杜雯娟 +1 位作者 李硕 徐久成 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第5期834-846,共13页
针对现有一些特征选择算法未充分考虑特征和标记之间的相关性,造成分类精度偏低,以及ReliefF算法中样本间分类间隔较大导致分类无意义的问题,提出了一种基于标记相关性和改进ReliefF的多标记特征选择方法。首先,根据正类样本在标记集合... 针对现有一些特征选择算法未充分考虑特征和标记之间的相关性,造成分类精度偏低,以及ReliefF算法中样本间分类间隔较大导致分类无意义的问题,提出了一种基于标记相关性和改进ReliefF的多标记特征选择方法。首先,根据正类样本在标记集合中的所占比例定义标记权重,结合互信息和标记权重,构建特征与标记集合之间的相关度计算公式,有效反映特征与标记集的相关性,进而提高算法的分类精度。然后,依据ReliefF模型中的距离计算公式,分别计算样本与最近邻异类样本、最近邻同类样本的距离,提出一种新的样本分类间隔,结合标记权重与分类间隔构建新的特征权值更新公式,有效解决了传统ReliefF算法中因样本间距离过大导致异类样本和同类样本失效的问题。最后,结合标记相关性和改进的ReliefF算法,设计了一种新的多标记特征选择算法。在7个多标记数据集上选择不同评价指标,对所提多标记特征选择算法进行仿真实验与分析,实验结果表明所提算法是有效的。 展开更多
关键词 多标记学习 特征选择 标记相关性 RELIEFF
下载PDF
基于互信息的Fisher Score多标记特征选择 被引量:2
7
作者 孙林 张起峰 徐久成 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第1期55-66,共12页
目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法.首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与... 目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法.首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与同类样本之间的欧式距离定义权重公式,并在特征空间下对标记赋予权重衡量标记的重要程度.然后,基于互信息理论定义特征与每个标记之间的互信息来计算每个特征和每个标记之间的相关度,将特征与标记之间的相关度与该标记所占的权重相结合来定义特征和标记集之间的总相关度.将Fisher得分与总相关度结合,定义每个特征的新的Fisher得分,进而构建多标记Fisher Score模型.最后,设计了一种基于互信息的Fisher Score多标记特征选择算法.在六个多标记数据集上的实验证明,提出的算法与其他算法相比,其四种评价指标都表现良好,分类性能出色. 展开更多
关键词 多标记学习 特征选择 互信息 Fisher Score
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部