深度学习算法在藏文情感分析中的应用研究被引量：7

Deep Learning Algorithm Applied in Tibetan Sentiment Analysis

下载PDF

导出

摘要针对以往进行藏文情感分析时算法忽略藏文语句结构、词序等重要信息而导致结果准确率较低的问题,将深度学习领域内的递归自编码算法引入藏文情感分析中,以更深层次提取语义情感信息。将藏文分词后,用词向量表示词语,则藏文语句变为由词向量组成的矩阵;利用无监督递归自编码算法对该矩阵向量化,此时获得的最佳藏文语句向量编码融合了语义、语序等重要信息;利用藏文语句向量和其对应的情感标签,有监督地训练输出层分类器以预测藏文语句的情感倾向。在实例验证部分,探讨了不同向量维度、重构误差系数及语料库大小对算法准确度的影响,并分析了语料库大小和模型训练时间之间的关系,指出若要快速完成模型的训练,可适当减小数据集语句条数。实例验证表明,在最佳参数组合下,所提算法准确度比传统机器学习算法中性能较好的语义空间模型高约8.6%。 During Tibetan sentiment analysis in past,the algorithm always ignores some important information like sentences structure and words order etc,which lead low accuracy of sentiment analysis.To deeply get more sentiment details,this paper proposes a novel approach of Tibetan sentiment analysis based on deep learning.Firstly,one word in Tibetan is represented by a word vector while one sentence is represented by a matrix which is composed by its word vectors;Secondly,the matrix is turned into a vector which contains most important details such as sentence meaning and words order etc,through an unsupervised recursive auto encoder algorithm;Finally,the classifier in output layer is trained by supervised method which uses the word vectors and its sentiment tags.In the experiment part,this paper discusses the selection of word vector dimensions and reconstruction error weights,studies corpus amount how to affect algorithm accuracy,and analyzes the relation between corpus amount and training time.The experimental results demonstrate that the proposed method can improve accuracy up8.6%compared with semantic space model which is almost the best in traditional machine learning algorithm.

作者普次仁侯佳林刘月翟东海 PU Ciren;HOU Jialin;LIU Yue;ZHAI Donghai(Tibetan Information Technology Research Center, Tibet University, Lhasa 850000, China;School of Information Science and Technology, Southwest Jiaotong University, Chengdu 610031, China)

机构地区西藏大学藏文信息技术研究中心西南交通大学信息科学与技术学院

出处《计算机科学与探索》 CSCD 北大核心 2017年第7期1122-1130,共9页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金61540060 国家软科学研究计划项目2013GXS4D150 西藏自治区科技厅科学研究项目~~

关键词深度学习情感分析递归自编码递归神经网络 deep learning sentiment analysis recursive auto encoder recursive neural networks

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1曹晖,董晓芳,孟祥和.藏文报纸词语统计研究[J].西北民族大学学报（自然科学版）,2012,33(3):50-54. 被引量：1
2梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：110
3袁斌,江涛,于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究,2016,33(3):682-685. 被引量：10
4杜治娟,王硕,王秋月,孟小峰.社会媒体大数据分析研究综述[J].计算机科学与探索,2017,11(1):1-23. 被引量：13
5侯佳林,王佳君,聂洪玉.基于异常检测模型的异构环境下MapReduce性能优化[J].计算机应用,2015,35(9):2476-2481. 被引量：3
6韩开旭..基于支持向量机的文本情感分析研究[D].东北石油大学,2014:
7朱少杰..基于深度学习的文本情感分类研究[D].哈尔滨工业大学,2014:

二级参考文献58

1格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3王铁琨,侯敏,杨尔弘等.中国语言生活状况报告2009(下编)[M].商务印书馆,2010. 被引量：1
4唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
5B.Pang,L.Lee.Seeing stars:Exploiting class relationships for sentiment categorization with respect to rating scales[C]Proceedings of the ACL,2005:115-124. 被引量：1
6Y.Bengio,R.Ducharme,P.Vincent,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3:1137-1155. 被引量：1
7Collobert R,Weston J.A unified architecture for natural language processing:Deep neural networks with multitask learning[C]//Proceedings of the 25th international conference on Machine learning.ACM,2008:160-167. 被引量：1
8Mnih A,Hinton G E.A Scalable Hierarchical Distributed Language Model[C]//Proceedings of NIPS.2008::1081-1088. 被引量：1
9Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model[C]//Proceedingsof INTERSPEECH.2010:1045-1048. 被引量：1
10Mikolov T,Kombrink S,Burget L,et al.Extensions of recurrent neural network language model[C]//Proceedings of Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on.IEEE,2011:5528-5531. 被引量：1

共引文献131

1王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
2张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
3热孜瓦姑丽·吾斯曼,艾孜尔古丽·玉素甫.论现代的维吾尔语情感分析方法进展[J].电脑知识与技术,2020,0(4):178-179.
4王文,王树锋,李洪华.基于文本语义和表情倾向的微博情感分析方法[J].南京理工大学学报,2014,38(6):733-738. 被引量：23
5苏小英,孟环建.基于神经网络的微博情感分析[J].计算机技术与发展,2015,25(12):161-164. 被引量：14
6梁军,柴玉梅,原慧斌,高明磊,昝红英.基于极性转移和LSTM递归网络的情感分析[J].中文信息学报,2015,29(5):152-159. 被引量：91
7蔡国永,夏彬彬.基于卷积神经网络的图文融合媒体情感预测[J].计算机应用,2016,36(2):428-431. 被引量：25
8刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：96
9王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(4):495-511. 被引量：70
10李冬白,田生伟,禹龙,艾斯卡尔.艾木都拉,吐尔根.依布拉音.深度学习的维吾尔语语句隐式情感分类[J].计算机工程与设计,2016,37(9):2577-2580. 被引量：5

同被引文献70

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
4祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
5余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
6才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112. 被引量：18
7李纲,程洋洋,寇广增.句子情感分析及其关键问题[J].图书情报工作,2010,54(11):104-107. 被引量：16
8赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：539
9多杰卓玛.基于信息处理的藏文框架语义关系研究[J].西北民族大学学报（自然科学版）,2010,31(1):16-19. 被引量：2
10李海刚,于洪志.藏文文本情感分类系统设计[J].甘肃科技纵横,2011,40(1):106-107. 被引量：6

引证文献7

1孙本旺,田芳.藏文情感词典的构建及微博情感计算研究[J].计算机技术与发展,2018,28(11):212-216. 被引量：6
2张瑞.藏文在线评论情感分析研究综述[J].智库时代,2018(35):206-208. 被引量：2
3孙本旺,田芳.基于深度学习算法的藏文微博情感计算研究[J].计算机技术与发展,2019,29(10):55-58. 被引量：6
4柔特,才让加.基于循环卷积神经网络的藏文句类识别[J].中文信息学报,2019,33(12):76-82. 被引量：3
5胡仁青.基于深度学习算法的机器自动翻译质量评估模型[J].电子设计工程,2021,29(21):33-37. 被引量：8
6拉桑吉,安见才让.多模态藏语情感分类的研究[J].计算机时代,2022(10):98-102. 被引量：1
7朱宇雷,德吉卡卓,群诺,尼玛扎西.基于图神经网络结合预训练模型的藏文短文本情感分析研究[J].中文信息学报,2023,37(2):71-79. 被引量：3

二级引证文献25

1周生丹.从翻译质量分析两类翻译软件的特点[J].汉字文化,2022(3):171-172.
2申莹,刘春阳,赵永翼.基于SVM算法的微博评论数据情感分析[J].数字通信世界,2020(1):111-111. 被引量：3
3李丽华,胡小龙.基于深度学习的文本情感分析[J].湖北大学学报（自然科学版）,2020,42(2):142-149. 被引量：2
4黄晨晨,索朗拉姆,拉姆卓嘎,群诺.基于SVM的藏文微博文本情感分析研究与实现[J].高原科学研究,2020,4(1):92-96. 被引量：7
5班玛宝,才让加,张瑞,色差甲,卓玛扎西.融合双通道音节特征的藏文La格例句自动分类模型[J].北京大学学报（自然科学版）,2022,58(1):91-98. 被引量：4
6单睿康,江涛,张婷婷,李多吉草,索南达杰.基于改进SO-PMI的藏文情感词典自动构建方法[J].高原科学研究,2022,6(1):104-112. 被引量：1
7付敏.基于特征提取的英汉机器自动转换翻译系统设计[J].自动化与仪器仪表,2022(5):166-169. 被引量：1
8朱亚军,次曲,拥措.基于SVM算法的藏文微博情感分析研究[J].计算机仿真,2022,39(8):226-229. 被引量：6
9拉桑吉,安见才让.多模态藏语情感分类的研究[J].计算机时代,2022(10):98-102. 被引量：1
10孔春伟,吕学强,张乐.HRTNSC:基于混合表示的藏文新闻主客观句子分类模型[J].中文信息学报,2022,36(12):94-103.

1蔡毅,朱秀芳,孙章丽,陈阿娇.半监督集成学习综述[J].计算机科学,2017,44(S1):7-13. 被引量：33
2付秀丽,黎玲萍,毛克彪,谭雪兰,李建军,孙旭,左志远.基于卷积神经网络模型的遥感图像分类[J].高技术通讯,2017,27(3):203-212. 被引量：26
3郭振洲,刘然,拱长青,赵亮.基于改进灰狼算法的RBF神经网络研究[J].微电子学与计算机,2017,34(7):7-10. 被引量：11
4余修武,张可,周利兴,张枫,胡沐芳,刘琴.基于误差修正距离约束的深井巷道目标定位算法[J].中国安全生产科学技术,2017,13(5):68-72. 被引量：3
5齐爱芹,徐蔚然.基于词向量的实体链接方法[J].数据采集与处理,2017,32(3):604-611. 被引量：2
6李金泽,徐喜荣,潘子琦,李晓杰.改进的自适应谱聚类NJW算法[J].计算机科学,2017,44(S1):424-427. 被引量：6
7李灿,钱江波,董一鸿,陈华辉.M2LSH:基于LSH的高维数据近似最近邻查找算法[J].电子学报,2017,45(6):1431-1442. 被引量：5
8动物实验有助解释女孩青春期成绩波动[J].发明与创新（大科技）,2017,0(7):56-56.
9吴艳玲.一种基于局部信息最小二乘法的节点定位算法[J].吉林大学学报（理学版）,2017,55(4):952-956. 被引量：9
10李舰,李波,陈鹏,杨丹.基于可比语料库的双语词典抽取方法比较研究[J].小型微型计算机系统,2017,38(7):1554-1561. 被引量：4

计算机科学与探索

2017年第7期

浏览历史

内容加载中请稍等...

深度学习算法在藏文情感分析中的应用研究被引量：7

参考文献7

二级参考文献58

共引文献131

同被引文献70

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

深度学习算法在藏文情感分析中的应用研究 被引量：7

参考文献7

二级参考文献58

共引文献131

同被引文献70

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

深度学习算法在藏文情感分析中的应用研究被引量：7