-
题名基于短文本扩展和特征融合的市民热线文本分类
被引量:1
- 1
-
-
作者
郭小磊
张吴波
-
机构
湖北汽车工业学院电气与信息工程学院
-
出处
《山西大同大学学报(自然科学版)》
2024年第1期42-47,62,共7页
-
基金
湖北省重点研究项目[TA02002]
湖北省中央引导地方科技发展专项[2018ZYYD007]。
-
文摘
针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Word2Vec计算词语相似度,完成对短文本内容和词向量特征的扩展;最终通过融合BERT-TextCNN和BERT-BiGRU-Attention两个通道特征信息的BGTC模型实现了对扩展后文本的分类。经过多组对比实验,结果表明该方法在市民热线文本分类任务中具有更好的性能,准确率和F1值分别达到了85.6%和85.8%。
-
关键词
市民热线
短文本扩展
文本分类
特征融合
-
Keywords
citizen hotline
short text extension
text classification
feature fusion
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于BTM和长文本语义增强的用户评论分类
被引量:3
- 2
-
-
作者
关慧
宗福焱
曲盼
-
机构
沈阳化工大学计算机科学与技术学院
辽宁省化工过程工业智能化技术重点实验室
-
出处
《计算机技术与发展》
2023年第7期181-187,共7页
-
基金
辽宁省2021年度教育科学研究经费项目(LJKZ0434)。
-
文摘
用户评论分类是挖掘用户评论中的有用信息,为企业和用户提供有效信息的直接手段,但是用户评论类短文本具有特征稀疏、表达形式不规范、反馈的信息量少等特点,这使得传统分类算法对短文本分类的效果不佳。该文提出了一种融合词向量和BTM主题模型,并以长文本辅助的短文本分类方法。首先,选取特定的长文本,利用LDA主题模型得到长文本的文档-主题分布,选取最大概率主题进一步挖掘该主题下的主题-词项分布,选取概率最大的前n个词项作为短文本的扩充词项并基于匹配规则对用户评论进行长文本语义增强;然后,将扩充后的短文本进行特征扩展,使用Word2vec和LSTM对用户评论进行训练得到词向量的编码特征;同时对用户评论短文本进行基于吉布斯采样的BTM主题模型构建,得到短文本的主题的概率特征;将词向量的编码特征与主题概率特征融合得到扩展后的文本特征,最后利用SVM(支持向量机)方法进行文本分类。对比其他分类方法,该分类方法在准确率、召回率、F-measure上表现均有提高。
-
关键词
词向量
主题模型
用户评论
短文本扩展
长文本
支持向量机
-
Keywords
word vector
topic model
user comments
short text extension
long text
support vector machine
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-