-
题名基于LDA主题模型的文本语料情感分类改进方法
被引量:3
- 1
-
-
作者
郭晓慧
-
机构
阳光学院信息工程学院
-
出处
《延边大学学报(自然科学版)》
CAS
2018年第3期266-273,共8页
-
基金
福建省教育厅科研项目(JA15631)
-
文摘
针对传统LDA主题模型无法体现词与词之间的顺序及关联性这一不足,提出一种改进的加权W-LDA情感分类方法.首先,在该模型的主题采样及其分布期望计算过程中引入平均加权值,以此避免与主题紧密相关词被高频词所淹没,从而提高主题间的区分度;然后,以提取到的高质量文档-主题分布及主题-词向量为基础,引入支持向量机算法(SVM),构建一个集有情感词分析与提取、主题分布计算与情感分类功能的文本语料情感分析方法;最后,利用真实的教学评价数据和公共评论集对本文方法的有效性进行了验证.结果表明,本文提出的方法在主题区分度、分类准确率以及F1-Measure方面均明显优于SVM算法和文献[15]中的算法.
-
关键词
评论语料
LDA主题模型
支持向量机
情感分类
-
Keywords
commentary corpus
LDA topic model
support vector machine
emotion classification
-
分类号
TP309.3
[自动化与计算机技术—计算机系统结构]
-
-
题名基于爬虫和SVM的微博评论情感分析研究
被引量:1
- 2
-
-
作者
汪兰兰
-
机构
武汉工程科技学院
-
出处
《无线互联科技》
2024年第9期19-22,26,共5页
-
文摘
微博作为热点时事的重要传播平台,每个文章或视频下面的评论是各路网友关注的重点,手动下拉后复制粘贴微博评论是日常行为,但此操作会降低情感分析速率。针对以上情况,文章采用Selenium技术模拟人登录和输入验证码,导入Requests库对网页源代码进行解析后保存微博评论。将ChnSentiCorp情感分析语料库导入支持向量机(Support Vector Machines,SVM)分类模型进行训练,对所爬取的微博评论进行文本预处理后,用训练好的SVM模型对微博评论进行情感分类。分类后的实验结果表明:SVM分类精度较低,主要原因是情感分析语料库并不具有广泛性,利用爬虫技术自建微博评论语料库,导入分类模型进行训练,会使得情感分类的准确性更高。
-
关键词
微博评论
Selenium技术
ChnSentiCorp情感分析语料库
SVM
自建微博评论语料库
-
Keywords
Weibo comments
Selenium technology
ChnSentiCorp emotional analysis library
SVM
self-built Weibo review corpus
-
分类号
TP389.1
[自动化与计算机技术—计算机系统结构]
-