摘要
针对现有的Web文本分类与表示方法中出现的各种分类效果与性能优化等问题,基于局部潜在语义分析的理论原理,利用支持向量机分类优势,设计出一种基于文档与类别之间相关度的生成局部区域的算法,即S-LLSA。该算法在语义分析使用矩阵的奇异值分解过程中引入不同类别信息,分析特征词的局部特征,使用支持向量机分类器计算文本对类别的相关度参数,并应用于局部区域生成过程。通过实验表明,S-LLSA算法有效解决了局部区域如何进行局部奇异值分解问题,有效提高并优化了Web文本分类效果,更好地表示了Web文本潜在语义空间。
Based on the theoretical principles of latent semantic analysis, and combined with support vector machine (SVM) classifier performance, we propose a local latent semantic analysis algorithm (S- LLSA) to solve multiple problems about classification effect and performance optimization in web text categorization and representation. We introduce category information into singular value decomposition (SVD), analyze the local features of feature words, uses the SVM classifier to compute the dependency degree, and select local areas . Experimental results show that the S-LLSA algorithm effectively solves the key problems of SVD, greatly improves the effectiveness of web text classification, and better represents the latent semantic space of web texts.
出处
《计算机工程与科学》
CSCD
北大核心
2016年第1期177-182,共6页
Computer Engineering & Science
基金
江西省博士研究生创新项目科研基金(YC2011-B026)