模式识别、自然语言处理和生物信息学等各领域的高维数据,存在着大量的无关和冗余特征,增加了数据分析时问题的复杂度,因此有必要通过特征选择来剔除无关和冗余特征。基于互信息的特征选择算法评价准则存在以下不足:评价标准单一,以最...模式识别、自然语言处理和生物信息学等各领域的高维数据,存在着大量的无关和冗余特征,增加了数据分析时问题的复杂度,因此有必要通过特征选择来剔除无关和冗余特征。基于互信息的特征选择算法评价准则存在以下不足:评价标准单一,以最小化特征之间冗余性或最大化特征提供的新分类信息评价特征,选择出的特征不具有最佳的类辨别能力;基于累加求和的评价准则易过高估计特征的重要性。为此,提出一种基于最大相关性独立分类信息最大化(maximum relevance and independent classification information maximization,MRICIM)的特征选择算法。该算法以互信息评价特征与类别的相关性,采用独立分类信息综合衡量新分类信息和特征冗余,利用最大最小准则对特征的重要性进行非线性评价。在6个评测数据集上与4个具有代表性的特征选择算法进行比较,结果表明,MRICIM能够有效地提升分类准确率和F-measure。展开更多
文摘模式识别、自然语言处理和生物信息学等各领域的高维数据,存在着大量的无关和冗余特征,增加了数据分析时问题的复杂度,因此有必要通过特征选择来剔除无关和冗余特征。基于互信息的特征选择算法评价准则存在以下不足:评价标准单一,以最小化特征之间冗余性或最大化特征提供的新分类信息评价特征,选择出的特征不具有最佳的类辨别能力;基于累加求和的评价准则易过高估计特征的重要性。为此,提出一种基于最大相关性独立分类信息最大化(maximum relevance and independent classification information maximization,MRICIM)的特征选择算法。该算法以互信息评价特征与类别的相关性,采用独立分类信息综合衡量新分类信息和特征冗余,利用最大最小准则对特征的重要性进行非线性评价。在6个评测数据集上与4个具有代表性的特征选择算法进行比较,结果表明,MRICIM能够有效地提升分类准确率和F-measure。