-
题名稀疏数据下结合词向量的短文本分类模型研究
被引量:8
- 1
-
-
作者
杨阳
刘恩博
顾春华
裴颂文
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2022年第3期711-715,750,共6页
-
基金
国家自然科学基金资助项目(61975124)
上海自然科学基金资助项目(20ZR1438500)
+1 种基金
上海市科委科技行动计划资助项目(20DZ2308700)
上海市经信委软件和集成电路产业发展专项(RX-RJJC-02-20-4212)。
-
文摘
针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题。实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%。
-
关键词
短文本分类
词嵌入
单词网络主题模型
注意力机制
-
Keywords
short text classification
word embedding
word network topic model(WNTM)
attention mechanism
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-