期刊文献+

面向专业领域的多头注意力中文分词模型--以西藏畜牧业为例 被引量:2

Multi-Head Attention for Domian Specific Chinese Word Segmentation Model--A Case Study on Tibet’s Animal Husbandry
下载PDF
导出
摘要 专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力机制学习字向量的上下文语义特征及它们之间的关系特征;为了让模型关注重点字向量之间的依赖关系及切分点信息,引入多头注意力机制,在不考虑字向量之间距离的前提下并行计算重要字向量与其它字向量的相关度,关注重要字对模型的贡献度;然后使用条件随机场学习词位标签,输出最优分词序列;最后构建领域词典进一步提高分词效果。在西藏畜牧业领域语料库进行实验,结果证明,该模型与BiLSTM-CRF等经典模型比较,精确率、召回率、F1值分别提高了3.93%、5.3%、3.63%,有效改善了西藏畜牧业领域语料的分词效果。 Domain specific corpora such as Tibetan animal husbandry corpus are rich in direct transliteration or synthesis of unknown words. To improve the word segmentation for such corpora, this paper proposes a Chinese word segmentation model via Multi-Head Attention. To capture the dependence relationship and syncopation point information between key character vectors, the Multi-Head Attention mechanism is applied to calculate the correlation between important character vectors and other character vectors in parallel regardless the distance between them. Then the conditional random fields is employed to model lexeme labels for the optimal word segmentation sequence. Finally, a domain dictionary is constructed to further improve the effect of word segmentation. Experiments on the corpus of animal husbandry in Tibet show that, compared with classical models such as Bi-LSTM-CRF, the accuracy, recall rate and F1 value of the proposed model are increased by 3.93%, 5.3% and 3.63%, respectively.
作者 崔志远 赵尔平 雒伟群 王伟 孙浩 CUI Zhiyuan;ZHAO Erping;LUO Weiqun;WANG Wei;SUN Hao(School of Information Engineering,Xizang Minzu University,Xianyang,Shaanxi 712082,China)
出处 《中文信息学报》 CSCD 北大核心 2021年第7期72-80,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(61762082) 西藏自治区自然科学基金(XZ2018ZRG-66) 西藏自治区科技计划项目(XZ202001ZY0055G)。
关键词 中文分词 多头注意力机制 双向门控循环神经网络 西藏畜牧业语料 Chinese word segmentation Multi-Head Attention BiGRU Tibetan animal husbandry corpus
  • 相关文献

参考文献12

二级参考文献57

共引文献432

同被引文献25

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部