-
题名一种基于词义降维的主题特征选择算法
被引量:1
- 1
-
-
作者
肖雷
王旭
粟武林
-
机构
河北大学电子信息工程学院
河北大学数学与计算机学院
-
出处
《计算机应用与软件》
CSCD
2016年第3期244-247,263,共5页
-
基金
国家自然科学基金项目(60903089)
河北大学博士项目(Y2009157)
-
文摘
在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想这一目的,提取出一种基于词义降维的主题特征选择算法。该算法通过在词林基础上构建"同义词表",作为词到词义的映射矩阵,构造一个基于词义之上的概率分布,通过LDA提取文本特征用于分类,分类准确率得到了明显提高。实验表明,基于此种方法所建立的主题模型将有更强的主题表示维度,通过该算法基本解决文本特征提取中词语概率和词义概率之间差异的问题。
-
关键词
LDA
主题模型
主题表示维度
-
Keywords
Linear discriminant analysis(LDA)
theme model
theme representation dimension
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-