-
题名基于特征词相交和流形学习的文本分类方法
被引量:1
- 1
-
-
作者
石陆魁
王歌
杨璐
张军
-
机构
河北工业大学计算机科学与软件学院
-
出处
《河北工业大学学报》
CAS
北大核心
2014年第2期1-7,共7页
-
基金
国家自然科学基金(51107027)
河北省自然科学基金(F2013202104)
+1 种基金
天津市应用基础及前沿技术研究计划(13JCYBJC15400)
河北省教育厅指导项目(Z2012164)
-
文摘
针对文本分类中特征空间的高维性导致的"维数灾难"问题,提出了一种基于流形学习的文本分类模型,该模型利用流形学习算法对高维文本特征数据降维后再分类.同时针对夹角余弦中存在的相似性偏移问题,提出了一种新的文本相似性度量措施——特征词相交距离,其实质是计算两个文档中所包含的特征词的交集,并将该措施作为流形学习算法中选择邻域的依据.实验结果表明,特征词相交距离较好地表达了文档之间的相似性,利用基于特征词相交的流形学习算法对文本数据降维后再分类,在保证分类精度的前提下极大地提高了分类算法的执行效率,克服了采用欧式距离和夹角余弦选择邻域造成低维流形的扭曲从而导致的分类精度降低的问题.
-
关键词
文本分类
特征词相交
流形学习
相似性偏移
夹角余弦
-
Keywords
text classification
item word intersection
manifold learning
similarity deviation
angle cosine
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-