序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务。在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注。并且通过对BERT内部框架的深入研究,在保证原有...序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务。在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注。并且通过对BERT内部框架的深入研究,在保证原有模型的准确率下进行优化,降低了BERT模型的复杂度,减少了模型在训练和预测过程中的时间成本。上层结构上,相比于传统的长短期记忆络(LSTM),采用的是双层双向LSTM结构,底层使用双向长短期记忆网络(Bi-LSTM)用来分词,顶层用来实现序列标注任务。在新式半马尔可夫条件随机场(new semi-conditional random field,NSCRF)上,将传统的半马尔可夫条件随机场(Semi-CRF)和条件随机场(CRF)相结合,同时考虑分词和单词的标签,在训练和解码上提高了准确率。将模型在CCKS2019、MSRANER和BosonNLP数据集上进行训练并取得了很大的提升,F1测度分别达到了92.37%、95.69%和93.75%。展开更多
文摘序列标注(sequence labelling)是自然语言处理(natural language processing)中的一类重要任务。在文中,根据任务的相关性,使用栈式预训练模型进行特征提取,分词,命名实体识别/语块标注。并且通过对BERT内部框架的深入研究,在保证原有模型的准确率下进行优化,降低了BERT模型的复杂度,减少了模型在训练和预测过程中的时间成本。上层结构上,相比于传统的长短期记忆络(LSTM),采用的是双层双向LSTM结构,底层使用双向长短期记忆网络(Bi-LSTM)用来分词,顶层用来实现序列标注任务。在新式半马尔可夫条件随机场(new semi-conditional random field,NSCRF)上,将传统的半马尔可夫条件随机场(Semi-CRF)和条件随机场(CRF)相结合,同时考虑分词和单词的标签,在训练和解码上提高了准确率。将模型在CCKS2019、MSRANER和BosonNLP数据集上进行训练并取得了很大的提升,F1测度分别达到了92.37%、95.69%和93.75%。