摘要
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。
To deal with Chinese named entity recognition in finance domain,this paper presents a novel neural network model combining glyph feature and iterative learning,Based on the framework of bidirectional long-short term memory networks and conditional random fields,this model encodes wubi input code of Chinese characters for information enhancement and use iterative learning to continuously update predict results.We manually annotate a large-scale financial named entity corpus named HITSZ-Finance,including 31210 sentences and 4 types of entities.Experiment results on HITSZ-Finance corpus demonstrate the effectiveness of the model.
作者
刘宇瀚
刘常健
徐睿峰
骆旺达
陈奕
吉忠晟
应能涛
LIU Yuhan;LIU Changjian;XU Ruifeng;LUO Wangda;CHEN Yi;JI Zhongsheng;YING Nengtao(School of Computer Science,Harbin Institute of Technology(Shenzhen),Shenzhen,Guangdong 518055,China)
出处
《中文信息学报》
CSCD
北大核心
2020年第11期74-83,共10页
Journal of Chinese Information Processing
基金
国家自然科学基金(61632011,61876053)
深圳市基础研究项目(JCYJ20180507183527919,JCYJ20180507183608379)
深圳市技术攻关项目(JSGG20170817140856618)。
关键词
金融领域命名实体识别
中文语料库
深度学习
named entity recognition in financial field
Chinese corpus
deep learning