结合字形特征与迭代学习的金融领域命名实体识别被引量：15

Utilizing Glyph Feature and Iterative Learning for Named Entity Recognition in Finance Text

下载PDF

导出

摘要针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。 To deal with Chinese named entity recognition in finance domain,this paper presents a novel neural network model combining glyph feature and iterative learning,Based on the framework of bidirectional long-short term memory networks and conditional random fields,this model encodes wubi input code of Chinese characters for information enhancement and use iterative learning to continuously update predict results.We manually annotate a large-scale financial named entity corpus named HITSZ-Finance,including 31210 sentences and 4 types of entities.Experiment results on HITSZ-Finance corpus demonstrate the effectiveness of the model.

作者刘宇瀚刘常健徐睿峰骆旺达陈奕吉忠晟应能涛 LIU Yuhan;LIU Changjian;XU Ruifeng;LUO Wangda;CHEN Yi;JI Zhongsheng;YING Nengtao(School of Computer Science,Harbin Institute of Technology(Shenzhen),Shenzhen,Guangdong 518055,China)

机构地区哈尔滨工业大学(深圳)计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2020年第11期74-83,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(61632011,61876053) 深圳市基础研究项目(JCYJ20180507183527919,JCYJ20180507183608379) 深圳市技术攻关项目(JSGG20170817140856618)。

关键词金融领域命名实体识别中文语料库深度学习 named entity recognition in financial field Chinese corpus deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈钊,徐睿峰,桂林,陆勤.结合卷积神经网络和词语情感序列特征的中文情感分析[J].中文信息学报,2015,29(6):172-178. 被引量：49

二级参考文献19

1Pang B. , Lee L. , Vaithyanathan S. Thumbs up?: sentiment classification using machine learning tech- niques [C]//Proceedings of the ACL. 2002: 79-86. 被引量：1
2Xu R. F, Wong K. F, Xia Y. Coarse-Fine opinion min- ing-WIA in NTCIR-7 MOAT task [C]//Proceedings of NTCIR. 2008: 307-313. 被引量：1
3Tan S. , Zhang J. An empirical study of sentiment a- nalysis for Chinese documents [J]. Expert Systems with Applications, 2008, 34(4): 2622-2629. 被引量：1
4Socher R. , Perelygin A. , Wu J. Y. , et al. Recursive deep models for semantic compositionality over a senti- ment Treebank [C]//Proceedings of the EMNLP. 2013: 1631-1642. 被引量：1
5Kim Y. Convolutional neural networks for sentence classification [C]//Proceedings of the EMNLP. 2014: 1746-1751. 被引量：1
6Wang S. , Manning C. D Baselines and bigrams: Sim- ple, good sentiment and topic classification [C]//Pro- ceedings of the ACL. 2012: 90-94. 被引量：1
7Bollegala D., Weir D., Carroll J. Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification [C]//Proceed- ings of the ACL. 2011: 132-141. 被引量：1
8Bengio Y. , Ducharme R. , Vincent P. , et al. A neural probabilistic language model [J]. The Journal of Ma- chine Learning Research, 2003, 3.. 1137-1155. 被引量：1
9Mnih A. , Hinton G. E A scalable hierarchical distrib-uted language model [C]//Proceedings of the NIPS. 2009 : 1081-1088. 被引量：1
10Mikolov T. , Sutskever I. ,Chen K. , et al. Distribu- ted representations of words and phrases and their compositionality [C]//Proceedings of the NIPS. 2013: 3111-3119. 被引量：1

共引文献48

1余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
2谢铁,郑啸,张雷,王修君.基于并行化递归神经网络的中文短文本情感分类[J].计算机应用与软件,2017,34(3):205-211. 被引量：11
3黄发良,冯时,王大玲,于戈.基于多特征融合的微博主题情感挖掘[J].计算机学报,2017,40(4):872-888. 被引量：63
4李芳,刘胜宇,刘峥.生物医学语义关系抽取方法综述[J].图书馆论坛,2017,37(6):61-69. 被引量：9
5王盛玉,曾碧卿,胡翩翩.基于卷积神经网络参数优化的中文情感分析[J].计算机工程,2017,34(8):200-207. 被引量：20
6鲁新新,柴岩.L2-SVM下的短文本情感分类动态CNN模型[J].计算机应用与软件,2018,35(1):298-303. 被引量：3
7谢金宝,侯永进,康守强,李佰蔚,张霄.基于语义理解注意力神经网络的多元特征融合中文文本分类[J].电子与信息学报,2018,40(5):1258-1265. 被引量：29
8陈珂,梁斌,柯文德,许波,曾国超.基于多通道卷积神经网络的中文微博情感分析[J].计算机研究与发展,2018,55(5):945-957. 被引量：75
9谢志峰,吴佳萍,马利庄.基于卷积神经网络的中文财经新闻分类方法[J].山东大学学报（工学版）,2018,48(3):34-39. 被引量：5
10喻涛,罗可.利用动态多池卷积神经网络的情感分析模型[J].计算机科学与探索,2018,12(7):1182-1190. 被引量：4

同被引文献104

1黄伟.汉字简化中的字形复杂度统计特征稳定性研究[J].语言文字应用,2021(1):53-64. 被引量：4
2欧阳歆泓,徐一超.桥梁管养信息化发展现状与展望[J].运输经理世界,2020(16):113-114. 被引量：2
3蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：66
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
5王铭涛,方晔玮,陈文亮.基于中文字形的ELMo在电商事件识别上的应用[J].中文信息学报,2021,35(12):94-102. 被引量：4
6张豪杰,毛建华.基于自注意力模型的企业关系抽取[J].电子测量技术,2020,43(10):101-105. 被引量：3
7李毓芳.汉长安城未央宫骨签述略[J].人文杂志,1990(2):99-102. 被引量：5
8刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
9俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
10冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12

引证文献15

1杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192.
2徐秋荣,朱鹏,罗轶凤,董启文.金融领域中文命名实体识别研究进展[J].华东师范大学学报（自然科学版）,2021(5):1-13. 被引量：3
3魏明飞,潘冀,陈志敏,梅小华,石会鹏.预训练模型下航天情报实体识别方法[J].华侨大学学报（自然科学版）,2021,42(6):831-837. 被引量：1
4江千军,桂前进,王磊,徐瑞翔,王京景,麦立,许水清.命名实体识别技术研究进展综述[J].电力信息与通信技术,2022,20(2):15-24. 被引量：13
5左亚尧,陈皓宇,陈致然,洪嘉伟,陈坤.融合多语义特征的命名实体识别方法[J].计算机应用,2022,42(7):2001-2008. 被引量：2
6杨宇,马甲林,冯海,许林杰,谢乾.基于改进图注意力网络的医疗领域命名实体识别[J].江苏海洋大学学报（自然科学版）,2023,32(1):9-17.
7蒋丽媛,吴亚东,王书航,张巍瀚,李懿.融合笔画特征的命名实体识别方法[J].科学技术与工程,2023,23(17):7436-7443. 被引量：4
8罗凯威,罗文兵,黄琪,王明文.基于依存结构学习的中学数学术语鲁棒抽取[J].中文信息学报,2023,37(8):75-85.
9余馨玲,常娥.基于DA-BERT-CRF模型的古诗词地名自动识别研究——以金陵古诗词为例[J].图书馆杂志,2023,42(10):87-94. 被引量：4
10任鹏飞,李旸,王素格,李书琪,闫婧涛.基于交互注意力的双图卷积网络的金融实体情感极性识别方法[J].中文信息学报,2023,37(12):129-137.

二级引证文献30

1张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
2朱军,党沛,江忆言,李维炼,谢亚坤.联合大语言模型和知识图谱的轨道交通特色GIS专业课程体系优化[J].测绘通报,2023(S02):23-28.
3黄刘.智能算法模型部署平台设计[J].电子质量,2022(5):80-84. 被引量：1
4王得强,吴军,关立文.结合知识图谱的行业知识库构建方法研究[J].制造技术与机床,2022(8):74-80. 被引量：6
5杜新宇,吴俊杰.基于改进的长短期记忆网络模型的电商评论关键词提取[J].信息记录材料,2022,23(8):156-158.
6门鼎,陈亮.基于改进Seq2Seq-Attention模型的文本摘要生成方法[J].电子设计工程,2022,30(23):6-10. 被引量：2
7孙宏云,李喜旺.面向配电网数据的命名实体识别[J].计算机系统应用,2023,32(2):387-393.
8宋佳芮,陈艳平,王凯,黄瑞章,秦永彬.基于Affix-Attention的命名实体识别语义补充方法[J].山东大学学报（工学版）,2023,53(2):70-76. 被引量：2
9柳秀秀,孔春伟.自然语言处理在金融领域应用的场景、挑战和发展建议[J].金融科技时代,2023,31(5):23-27. 被引量：1
10张锡然,张保林,苏适,杨宏伟,杨家全,俞鹏阳,高境.调度指令自动解析与防误系统衔接示范技术的应用与研究[J].云南电力技术,2023,51(4):25-31. 被引量：1

1韩哲,姜晶菲,乔林波,窦勇,许金伟,阚志刚.基于FPGA的事件抽取模型与加速器的设计实现[J].计算机工程与科学,2020,42(11):1941-1948. 被引量：3
2任雪菁,安新颖,范少萍,张飞,黄裕翔.基于词典与CRF算法的中文生物医学实体自动标注平台建设[J].中华医学图书情报杂志,2020,29(9):29-35. 被引量：3
3马庆.钻孔灌注桩技术在建筑工程施工中的有效运用分析[J].建筑与装饰,2021(2):154-154.
4陈纬奇,王敬昌,陈岭,杨勇勤,吴勇.基于深度神经网络的多因素感知终端换机预测模型[J].浙江大学学报（工学版）,2021,55(1):109-115. 被引量：5
5李晓峰,焦洪双,李东.基于量子蚁群算法的医疗图像阈值分割算法[J].沈阳大学学报（自然科学版）,2020,32(6):490-495. 被引量：5
6李建军.上市公司管理会计信息化问题及对策研究[J].中国经贸,2020(24):147-148.
7王润正,高见,黄淑华,仝鑫.基于知识蒸馏的恶意代码家族检测方法[J].计算机科学,2021,48(1):280-286. 被引量：3
8黎付安,黄登山.国产高空间分辨率影像融合方法的适宜性评价[J].测绘地理信息,2020,45(6):47-55. 被引量：1

中文信息学报

2020年第11期

浏览历史

内容加载中请稍等...

结合字形特征与迭代学习的金融领域命名实体识别被引量：15

参考文献1

二级参考文献19

共引文献48

同被引文献104

引证文献15

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

结合字形特征与迭代学习的金融领域命名实体识别 被引量：15

参考文献1

二级参考文献19

共引文献48

同被引文献104

引证文献15

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

结合字形特征与迭代学习的金融领域命名实体识别被引量：15