【目的】为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类...【目的】为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类。【方法】考虑到中文文本的最小表达单元是字,通过BERT的字向量编码联动TextCNN缓解一词多义的问题。为捕获长距离上下文语义信息,模型设计了BERT联动BiLSTM的通道。充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特征抽取的字向量编码结果。模型最终融合两个通道的特征向量,完成文本分类任务。【结果】本文提出的MFFMB(Multi-Features Fusion Model BERT-based)模型在公开的电子商务评论多分类数据集上的准确率高达0.9007,相对于基线模型BERT+TextCNN、BERT+BiLSTM、BERT+LSTM+MaxPooling、BERT+LSTM+Attention分别提升2.36、8.55、4.61、5.11个百分点。同时,实验结果说明BERT和注意力机制的引入,相对于基线模型中的较优者,准确率分别提升约1.48和4.81个百分点。【局限】注意力机制仅在BiLSTM通道引入,没有在全局设计;本文模型未在更多数据集上验证效果。【结论】本文模型能够更好地结合多维度信息,更加充分地挖掘BERT预训练模型在文本分类任务上的作用,提高了分类的准确性。展开更多
为了解决挖掘机作业阶段识别方法可靠性较低的问题,提出了一种基于信息融合和多粒度级联森林模型(information fusion and multi-granularity cascade forest model,IFMCFM)的智能识别方法。利用信息融合技术将挖掘机作业阶段的类别概...为了解决挖掘机作业阶段识别方法可靠性较低的问题,提出了一种基于信息融合和多粒度级联森林模型(information fusion and multi-granularity cascade forest model,IFMCFM)的智能识别方法。利用信息融合技术将挖掘机作业阶段的类别概率向量与高重要度特征进行融合,形成新的识别特征;将新特征输入级联森林模型,采用不同比例的训练集对模型进行训练并对识别结果进行分析;将IFMCFM的识别结果与DAGSVM(directed acyclic graph support vector machine,有向无环图支持向量机)、PCA-SVM(support vector machine based on principal component analysis,基于主成分分析的支持向量机)、LIBSVM(library for support vector machines,支持向量机库)和LSTM(long short-term memory,长短期记忆)的识别结果进行对比。研究结果表明:当训练集比例为80%时,IFMCFM的识别准确率、召回率和F1(精确度和召回率的调和平均数)指标分别为95.00%,95.17%和95.02%,识别效果较优;相比于其他识别模型,IFMCFM的识别准确性和可靠性最高。IFMCFM可以有效地识别挖掘机作业阶段,具有较高的应用价值。展开更多
文摘【目的】为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类。【方法】考虑到中文文本的最小表达单元是字,通过BERT的字向量编码联动TextCNN缓解一词多义的问题。为捕获长距离上下文语义信息,模型设计了BERT联动BiLSTM的通道。充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特征抽取的字向量编码结果。模型最终融合两个通道的特征向量,完成文本分类任务。【结果】本文提出的MFFMB(Multi-Features Fusion Model BERT-based)模型在公开的电子商务评论多分类数据集上的准确率高达0.9007,相对于基线模型BERT+TextCNN、BERT+BiLSTM、BERT+LSTM+MaxPooling、BERT+LSTM+Attention分别提升2.36、8.55、4.61、5.11个百分点。同时,实验结果说明BERT和注意力机制的引入,相对于基线模型中的较优者,准确率分别提升约1.48和4.81个百分点。【局限】注意力机制仅在BiLSTM通道引入,没有在全局设计;本文模型未在更多数据集上验证效果。【结论】本文模型能够更好地结合多维度信息,更加充分地挖掘BERT预训练模型在文本分类任务上的作用,提高了分类的准确性。
文摘为了解决挖掘机作业阶段识别方法可靠性较低的问题,提出了一种基于信息融合和多粒度级联森林模型(information fusion and multi-granularity cascade forest model,IFMCFM)的智能识别方法。利用信息融合技术将挖掘机作业阶段的类别概率向量与高重要度特征进行融合,形成新的识别特征;将新特征输入级联森林模型,采用不同比例的训练集对模型进行训练并对识别结果进行分析;将IFMCFM的识别结果与DAGSVM(directed acyclic graph support vector machine,有向无环图支持向量机)、PCA-SVM(support vector machine based on principal component analysis,基于主成分分析的支持向量机)、LIBSVM(library for support vector machines,支持向量机库)和LSTM(long short-term memory,长短期记忆)的识别结果进行对比。研究结果表明:当训练集比例为80%时,IFMCFM的识别准确率、召回率和F1(精确度和召回率的调和平均数)指标分别为95.00%,95.17%和95.02%,识别效果较优;相比于其他识别模型,IFMCFM的识别准确性和可靠性最高。IFMCFM可以有效地识别挖掘机作业阶段,具有较高的应用价值。