如今,电话诈骗案件层出不穷,严重危害到了人们的财产安全和社会的和谐安定。针对社会中的一些诈骗电话问题,提出了一种基于词嵌入和混合神经网络的文本分类方法,实现对诈骗电话文本的分类。首先构造了诈骗电话文本数据集,内容涵盖了金...如今,电话诈骗案件层出不穷,严重危害到了人们的财产安全和社会的和谐安定。针对社会中的一些诈骗电话问题,提出了一种基于词嵌入和混合神经网络的文本分类方法,实现对诈骗电话文本的分类。首先构造了诈骗电话文本数据集,内容涵盖了金融、教育、邮递、银行等多类诈骗事件。为了优化文本的输入词向量,词嵌入部分采用基于Transformer的BERT(Bidirectional Encoder Representation from Transformers)模型来表示诈骗文本,同时采用基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)以及多尺度卷积神经网络(Convolutional Neural Network,CNN)的混合神经网络(BiLCNN)对文本的词嵌入表示进行特征提取,充分提取出文本的时序特征和局部相关特征,最后将特征融合在一起通过Softmax进行分类。通过实验比较了Word2vec、ELMo(Embedding from Language Model)和BERT三种词嵌入模型,表明BERT作为输入向量的优越性,同时在诈骗电话文本数据集上的实验结果表明,提出的模型BERT+BiLCNN相比Word2vec+CNN、ELMo+CNN和BERT+CNN模型,诈骗电话文本分类准确率分别提高了4.12%、2.84%和0.95%。展开更多
文摘如今,电话诈骗案件层出不穷,严重危害到了人们的财产安全和社会的和谐安定。针对社会中的一些诈骗电话问题,提出了一种基于词嵌入和混合神经网络的文本分类方法,实现对诈骗电话文本的分类。首先构造了诈骗电话文本数据集,内容涵盖了金融、教育、邮递、银行等多类诈骗事件。为了优化文本的输入词向量,词嵌入部分采用基于Transformer的BERT(Bidirectional Encoder Representation from Transformers)模型来表示诈骗文本,同时采用基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)以及多尺度卷积神经网络(Convolutional Neural Network,CNN)的混合神经网络(BiLCNN)对文本的词嵌入表示进行特征提取,充分提取出文本的时序特征和局部相关特征,最后将特征融合在一起通过Softmax进行分类。通过实验比较了Word2vec、ELMo(Embedding from Language Model)和BERT三种词嵌入模型,表明BERT作为输入向量的优越性,同时在诈骗电话文本数据集上的实验结果表明,提出的模型BERT+BiLCNN相比Word2vec+CNN、ELMo+CNN和BERT+CNN模型,诈骗电话文本分类准确率分别提高了4.12%、2.84%和0.95%。