-
题名分层区域穷举的中文嵌套命名实体识别方法
- 1
-
-
作者
余诗媛
郭淑明
黄瑞阳
张建朋
胡楠
-
机构
郑州大学软件学院
国家数字交换系统工程技术研究中心
-
出处
《计算机技术与发展》
2022年第9期161-166,179,共7页
-
基金
国家自然基金青年基金项目(62002384)
中国博士后科学基金面上项目(47698)
郑州市协同创新重大专项(162/32410218)。
-
文摘
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,开发能够准确识别嵌套命名实体的算法具有重要研究意义。针对现有的中文嵌套命名实体数据集中存在错标漏标以及现有识别方法大多忽略嵌套实体内部信息关联关系而导致准确性下降的问题,结合自动生成与手动标注的方法构建新的中文嵌套命名实体数据集NEPD,在此基础上,设计一种利用分层区域穷举的中文嵌套命名实体识别模型。该模型通过遍历文本组合实体,获取低层编码层的词嵌入信息;其次,为使邻接编码层之间实现信息交换,将低层编码层的词嵌入信息融入高层编码层;最后,利用多层解码层使长度为L的命名实体仅在第L层预测,有效防止错误传播现象发生从而提高识别准确度。实验结果表明,在没有外部知识资源的情况下,LREM模型在嵌套命名实体与非嵌套命名实体上的识别F1值分别达到87.19%和86.27%,其中非嵌套命名实体识别的F1值比传统的BiLSTM+CRF模型提升1.18%,验证了该模型的可靠性。
-
关键词
嵌套命名实体识别
分层区域穷举
卷积神经网络
双向长短时记忆网络
信息抽取
-
Keywords
nested named entity recognition
layered regional exhaustive model
convolutional neural network
bi-directional long short term memory network
information extraction
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-