复杂产品生产数据具有高维度、不平衡的特点,为在复杂产品的生产阶段有效识别关键质量特性,及时进行质量控制,论文提出了一种基于聚类欠采样的改进随机森林算法(Random forest algorithm base on K-Means clustering under sampling,KMU...复杂产品生产数据具有高维度、不平衡的特点,为在复杂产品的生产阶段有效识别关键质量特性,及时进行质量控制,论文提出了一种基于聚类欠采样的改进随机森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF),利用K-Means算法对多数样本进行聚类,并根据聚类结果进行多次欠采样形成多个平衡数据集,以随机森林为基分类器进行识别,最终根据分类过程中的特征重要性输出关键质量特性集。算例表明,KMUS-RF算法相比现有的多种分类器有良好的整体分类性能,并能显著降低复杂产品分类的第二类错误率,满足产品实际生产需求。展开更多
文摘复杂产品生产数据具有高维度、不平衡的特点,为在复杂产品的生产阶段有效识别关键质量特性,及时进行质量控制,论文提出了一种基于聚类欠采样的改进随机森林算法(Random forest algorithm base on K-Means clustering under sampling,KMUS-RF),利用K-Means算法对多数样本进行聚类,并根据聚类结果进行多次欠采样形成多个平衡数据集,以随机森林为基分类器进行识别,最终根据分类过程中的特征重要性输出关键质量特性集。算例表明,KMUS-RF算法相比现有的多种分类器有良好的整体分类性能,并能显著降低复杂产品分类的第二类错误率,满足产品实际生产需求。