【目的】为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类...【目的】为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类。【方法】考虑到中文文本的最小表达单元是字,通过BERT的字向量编码联动TextCNN缓解一词多义的问题。为捕获长距离上下文语义信息,模型设计了BERT联动BiLSTM的通道。充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特征抽取的字向量编码结果。模型最终融合两个通道的特征向量,完成文本分类任务。【结果】本文提出的MFFMB(Multi-Features Fusion Model BERT-based)模型在公开的电子商务评论多分类数据集上的准确率高达0.9007,相对于基线模型BERT+TextCNN、BERT+BiLSTM、BERT+LSTM+MaxPooling、BERT+LSTM+Attention分别提升2.36、8.55、4.61、5.11个百分点。同时,实验结果说明BERT和注意力机制的引入,相对于基线模型中的较优者,准确率分别提升约1.48和4.81个百分点。【局限】注意力机制仅在BiLSTM通道引入,没有在全局设计;本文模型未在更多数据集上验证效果。【结论】本文模型能够更好地结合多维度信息,更加充分地挖掘BERT预训练模型在文本分类任务上的作用,提高了分类的准确性。展开更多
文摘【目的】为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类。【方法】考虑到中文文本的最小表达单元是字,通过BERT的字向量编码联动TextCNN缓解一词多义的问题。为捕获长距离上下文语义信息,模型设计了BERT联动BiLSTM的通道。充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特征抽取的字向量编码结果。模型最终融合两个通道的特征向量,完成文本分类任务。【结果】本文提出的MFFMB(Multi-Features Fusion Model BERT-based)模型在公开的电子商务评论多分类数据集上的准确率高达0.9007,相对于基线模型BERT+TextCNN、BERT+BiLSTM、BERT+LSTM+MaxPooling、BERT+LSTM+Attention分别提升2.36、8.55、4.61、5.11个百分点。同时,实验结果说明BERT和注意力机制的引入,相对于基线模型中的较优者,准确率分别提升约1.48和4.81个百分点。【局限】注意力机制仅在BiLSTM通道引入,没有在全局设计;本文模型未在更多数据集上验证效果。【结论】本文模型能够更好地结合多维度信息,更加充分地挖掘BERT预训练模型在文本分类任务上的作用,提高了分类的准确性。