中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销...中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销大等缺陷。单类SVM对只有一类的分类问题具有很好的效果,但不适用于多类分类问题,因此针对KNN存在的缺陷及单类SVM的特点提出One Class SVM-KNN算法,并给出了算法的定义及详细分析。通过实验证明此方法很好地克服了KNN算法的缺陷,并且查全率、查准率明显优于K-近邻算法。展开更多
基于miRNA表达谱数据集,提出了一种新的数据挖掘算法——tSVM-kNN(t statistic with support vector machine-k nearest neighbor).该算法的思想为:首先,采用统计量法对该数据集进行特征初选;其次,将融合了支持向量机和K-最近邻判别法...基于miRNA表达谱数据集,提出了一种新的数据挖掘算法——tSVM-kNN(t statistic with support vector machine-k nearest neighbor).该算法的思想为:首先,采用统计量法对该数据集进行特征初选;其次,将融合了支持向量机和K-最近邻判别法思想的算法——SVM-kNN算法作为分类器;最后,输出分类结果.仿真实验表明,SVMkNN算法分类器的分类能力比单独运行SVM和kNN都好;在miRNA"标签"的数量和识别精度方面,tSVM-kNN算法只需要取5个miRNAs即可获得96.08%的分类准确率.与同类的算法相比,其具有明显的优越性.展开更多
文摘中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销大等缺陷。单类SVM对只有一类的分类问题具有很好的效果,但不适用于多类分类问题,因此针对KNN存在的缺陷及单类SVM的特点提出One Class SVM-KNN算法,并给出了算法的定义及详细分析。通过实验证明此方法很好地克服了KNN算法的缺陷,并且查全率、查准率明显优于K-近邻算法。
文摘基于miRNA表达谱数据集,提出了一种新的数据挖掘算法——tSVM-kNN(t statistic with support vector machine-k nearest neighbor).该算法的思想为:首先,采用统计量法对该数据集进行特征初选;其次,将融合了支持向量机和K-最近邻判别法思想的算法——SVM-kNN算法作为分类器;最后,输出分类结果.仿真实验表明,SVMkNN算法分类器的分类能力比单独运行SVM和kNN都好;在miRNA"标签"的数量和识别精度方面,tSVM-kNN算法只需要取5个miRNAs即可获得96.08%的分类准确率.与同类的算法相比,其具有明显的优越性.