-
题名基于语义空间的藏文微博情感分析方法
被引量:10
- 1
-
-
作者
袁斌
江涛
于洪志
-
机构
西北民族大学中国民族信息技术研究院
-
出处
《计算机应用研究》
CSCD
北大核心
2016年第3期682-685,共4页
-
基金
国家自然科学基金资助项目(61262054)
甘肃省科技重大专项资助项目(1203FKDA033)
+1 种基金
西北民族大学中央专项资金资助研究生项目(Yxm2014001)
国家科技支撑计划资助项目(2014BAK10B03)
-
文摘
藏文微博具有独特的语法特点,传统方法对藏文文本进行情感分类很难取得较好效果。结合藏文句法结构和语义特征向量构建语义特征空间,提出了一种基于语义空间的藏文微博情感分析方法。首先使用句法树生成句法结构并结合语义特征向量构建特征空间,运用K-means方法聚类形成语义簇质心,将基于簇的TF-IDF值作为最终的微博情感特征值。实验结果表明,该方法的情感分类效果均优于SVM+TF-IDF和naive Bayes+最大熵的方法。
-
关键词
藏语微博
情感分类
语义空间
文本聚类
语义簇
-
Keywords
tibetan micro-blog
emotional classification
semantic space
text clustering
semantic clusters
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多特征的藏文微博情感倾向性分析
被引量:8
- 2
-
-
作者
江涛
袁斌
于洪志
加羊吉
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2017年第3期163-169,共7页
-
基金
国家自然基金(61262054)
西北民族大学中央专项资金资助研究生项目(Yxm2014001)
+1 种基金
国家科技支撑计划项目(2014BAK10B03)
甘肃省科技重大专项项目(1203FKDA033)
-
文摘
中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。
-
关键词
藏文微博
混合文本
情感倾向
情感词
词性序列
-
Keywords
tibetan micro-blog
mixed text
sentiment orientation
emotional words
part of speech sequence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文情感词典的构建及微博情感计算研究
被引量:6
- 3
-
-
作者
孙本旺
田芳
-
机构
青海大学计算机技术与应用系
青海大学信息化技术中心
-
出处
《计算机技术与发展》
2018年第11期212-216,共5页
-
基金
国家自然科学基金(61461045)
青海省科技计划项目(2016-ZJ-743)
-
文摘
针对国内尚缺乏系统的藏文情感词典,提出借助中文情感词典资源自动构建藏文情感词典的方法,并基于构建的藏文情感词典对藏文微博进行情感分析研究。首先,通过合并去重算法、字符串匹配算法等自动地构建了藏汉情感词典;然后,通过去重算法得到藏文情感词典和藏文停用词词典;最后,通过加权叠加微博中的情感词或情感短语相应的权值来研究藏文微博的情感倾向。实验自动构建了藏文情感词典,包含基础情感词、程度词、否定词、转折词、双重否定词、藏文停用词。基于实验构建的藏文情感词典,与其他藏文情感词典相比,有效地提高了藏文微博情感倾向分类的准确率。实验结果表明,该词典达到了良好的实用性。
-
关键词
中文情感词典
藏汉情感词典
藏文情感词典
藏文微博
权值
情感分类
-
Keywords
Chinese emotion dictionary
tibetan-Chinese sentiment lexicon
tibetan emotion dictionary
tibetan micro-blog
weight
emotional analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习算法的藏文微博情感计算研究
被引量:6
- 4
-
-
作者
孙本旺
田芳
-
机构
青海大学计算机技术与应用系
青海大学信息化技术中心
-
出处
《计算机技术与发展》
2019年第10期55-58,99,共5页
-
基金
国家自然科学基金(61461045)
青海省科技计划项目(2016-ZJ-743)
-
文摘
针对藏文文本情感计算研究,将CNN-LSTM深度学习模型引入到藏文微博情感计算,弥补了少数语言自然语言处理研究的缺乏,对藏文研究具有一定的推动作用。针对藏文语料的不公开,通过藏文同反义情感词典对标注好的藏文微博语料中情感词汇的同反义词进行替换,进一步扩充了藏文微博语料,以适合深度学习对大数据语料的要求。藏文微博分词后,利用Word2vec工具训练出藏文微博词向量模型,提高特征向量对文本深层次语义信息的表达;然后,将训练好的词向量和对应的情感倾向标签直接引到由卷积层、池化层、LSTM层、全连接层等构成的CNN-LSTM模型,在每一层的输出做归一化处理;最后经过Softmax分类器对藏文微博进行情感倾向分类,并与LSTM以及传统的情感词典做了实验对比。结果表明,该算法获得了较好的分类效果。
-
关键词
深度学习
藏文微博
词向量
情感计算
-
Keywords
deep learning
tibetan micro-blog
word vector
emotional calculation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-