摘要
为提高维吾尔文情感分析的准确率,提出一种基于信息增益的有监督维吾尔文分词方法,并将其用在情感分析中,避免传统空格分词方法造成的维数灾难和特征项语义不完整等问题。实验结果表明,用该分词方法得到的特征空间规模更小,在此特征空间上训练出来的模型性能更好,能够有效提高维吾尔文情感分析的准确率。
To improve the accuracy of Uyghur sentiment analysis,a design method of supervised word segmentation based on information gain was presented.The supervised word segmentation method was used in sentiment analysis,which avoided the curse of dimensionality and meaningless feature.Results of experiment show that the feature space is smaller and the model trained on the feature space can get higher accuracy using the proposed feature extraction method.
作者
伊尔夏提.吐尔贡
吾守尔.斯拉木
热西旦木.吐尔洪太
Yierxiati·Tuergong Wushouer·Silamu Rexidanmu·Tuerhongtai(School of Information Science and Engineering, Xinj iang University, Wulumuqi 830046, Chin)
出处
《计算机工程与设计》
北大核心
2017年第11期3143-3146,3178,共5页
Computer Engineering and Design
基金
国家973重点基础研究发展计划基金项目(2014CB340506)
国家自然科学基金项目(61562082)
关键词
分词
维吾尔文
情感分析
信息增益
特征提取
word segmentation
Uyghur
sentiment analysis
information gain
feature extraction