-
题名基于中心向量的多级分类KNN算法研究
被引量:10
- 1
-
-
作者
刘述昌
张忠林
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2017年第9期1758-1764,共7页
-
基金
国家自然科学基金(61662043)
-
文摘
针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。
-
关键词
文本分类
多级分类器
类中心向量
K最近邻
-
Keywords
text classification
multi-stage classifier
class center vector
K-nearest neighbor
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的K-近邻算法在中文网页分类的应用
- 2
-
-
作者
盛魁
-
机构
亳州职业技术学院信息工程系
-
出处
《佳木斯大学学报(自然科学版)》
CAS
2011年第6期908-911,共4页
-
文摘
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.
-
关键词
K-近邻
网页分类
相似度
类中心向量
-
Keywords
K-nearest neighbor
Web page classification
similarity
class center vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中心向量KNN算法的改进
- 3
-
-
作者
王兆龙
-
机构
安徽文达信息工程学院
-
出处
《哈尔滨师范大学自然科学学报》
CAS
2017年第2期18-21,共4页
-
文摘
针对KNN算法在中文文本分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出改进的基于中心向量KNN算法.算法首先引入基于密度的思想对训练样本进行调整,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.实验结果表明,该算法在不损失精确度的情况下,提高了分类实时性.
-
关键词
文本分类
多级分类器
类中心向量
-
Keywords
Text classification
Multi -stage classifier
class center vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进相似度与类中心向量的半监督短文本聚类算法
被引量:1
- 4
-
-
作者
李晓红
冉宏艳
龚继恒
颜丽
马慧芳
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2018年第9期1710-1716,共7页
-
基金
国家自然科学基金(61163039)
甘肃省青年科技基金(1606RJYA269
+3 种基金
145RJYA259)
甘肃省高等学校科研项目(2015A-008)
西北师范大学青年教师科研能力提升计划项目(NWNU-LKQN-14-5
NWNU-LKQN-16-20)
-
文摘
通过分析现有短文本聚类算法的缺陷,提出了一种基于改进相似度与类中心向量的半监督短文本聚类算法。首先,定义强类别区分度词,利用已加标数据的类别信息提取并构造强类别区分度词集合,并对基于初始特征的余弦相似度和基于强类别区分度词项的相似度进行有效融合,得到更加合理的改进的短文本相似度计算公式。然后,通过计算样本与类中心向量的相似度实现对未分类样本的正确划分,与此同时,更新加标数据集合、类中心向量,重新抽取强类别区分度词。重复这个过程,直到实现所有数据的类别划分。实验表明:与其他同类算法相比,本文算法在聚类准确性和时间效率上有了较大的改进。
-
关键词
强类别区分度
相似度
类中心向量
半监督聚类
短文本
-
Keywords
strong category differentiation
similarity
class-center vector
semi-supervised clustering
short text
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-