基于深度学习的方志物产资料实体自动识别模型构建研究被引量：29

Automatic Recognition of Produce Entities from Local Chronicles with Deep Learning

导出

摘要【目的】探究古籍方志物产资料中物产别名、人物、产地及引书等4种实体的自动识别,用于方志物产知识库的构建。【方法】以机构特藏《方志物产》云南卷为基础语料,在文本预处理与语料标注基础上,采用4种深度学习模型Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT进行实验,并对实验结果进行对比分析。【结果】Bi-LSTM-CRF模型与Bi-LSTM模型相比,P值提高5.54%,F值提高3.51%;BERT模型的R值达到了83.36%,优于其他模型;Bi-LSTM-CRF模型对引书实体识别效果最好,F值为89.71%;BERT模型对人物实体识别效果最好,F值为87.90%。【局限】由于古籍方志文本语料特性,以及相关实体的认定需掌握领域知识,在人工标注过程中或存在一些漏标与错标的情况,导致模型未能最优化。【结论】研究表明深度学习方法对古籍方志文本实体识别任务的可行性与优越性。 [Objective]This paper tries to automatically identify the produce aliases,related human figures,places of origin and cited books from ancient local chronicles,aiming to establish a knowledge base for traditional products.[Methods]Firstly,we chose Local Chronicle of Yunnan:Produce as the basic corpus and preprocessed its texts to carry out corpus tagging.Then,we adopted four deep learning models(Bi-RNN,Bi-LSTM,Bi-LSTMCRF and BERT)to identify the needed entities.Finally,we compared outputs of these models.[Results]The P-value and F-value of the Bi-LSTM model were 5.54%and 3.51%higher than those of the Bi-LSTM-CRF model.The R-value of the BERT model reached 83.36%,which was the best among all models.The Bi-LSTMCRF model yielded the best results with the entity recognition of cited books(F-value=89.71%),and the BERT model had the best performance on character entities with a F-value of 87.90%.[Limitations]Due to the linguistic characteristics of ancient local chronicles and the domain knowledge required for identifying related entities,there may be errors in tagging.[Conclusions]Deep learning could help us identify needed entities from ancient local chronicles effectively.

作者徐晨飞叶海影包平 Xu Chenfei;Ye Haiying;Bao Ping(Institution of Chinese Agricultural Civilization,Nanjing Agricultural University,Nanjing 210095,China;Economics and Management School,Nantong University,Nantong 226019,China)

机构地区南京农业大学中华农业文明研究院南通大学经济与管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第8期86-97,共12页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大项目“方志物产知识库构建及深度利用研究”(项目编号:18ZDA327) 教育部人文社会科学研究青年基金项目“基于语义的方志物产资料知识组织与知识聚合实证研究”(项目编号:19YJC870027)的研究成果之一。

关键词深度学习方志物产命名实体识别模型构建数字人文 Deep Learning Local Chronicle:Produce Named Entity Recognition Models Construction Digital Humanities

分类号 G255 [文化科学—图书馆学] K290 [历史地理—历史学]

引文网络
相关文献

参考文献14

1李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：28
2龚德山..命名实体识别在中药名词和方剂名词识别中的比较研究[D].北京中医药大学,2019:
3叶辉,姬东鸿.基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].中国中医药图书情报杂志,2016,40(5):14-17. 被引量：12
4黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015,59(12):135-140. 被引量：41
5包平,李昕升,卢勇.方志物产史料的价值、利用与展望——以《方志物产》为中心[J].中国农史,2018,37(3):117-126. 被引量：17
6肖磊.《左传》地名研究初探[J].文教资料,2009(18):204-207. 被引量：3
7王铮..基于CRF的古籍地名自动识别研究——以《三国演义》为例[D].广西民族大学,2008:
8汪青青.先秦人名识别初探[J].文教资料,2009(18):202-204. 被引量：7
9谢韬..基于古文学的命名实体识别的研究与实现[D].北京邮电大学,2018:
10朱锁玲..命名实体识别在方志内容挖掘中的应用研究——以广东、福建、台湾三省《方志物产》为例[D].南京农业大学,2011:

二级参考文献111

1郁默.台湾中央研究院汉籍全文资料库[J].中国典籍与文化,1998(3):110-115. 被引量：4
2姚松.计算机用于古籍整理研究的现状与展望[J].中国典籍与文化,1995(2):121-127. 被引量：3
3汪定明,李清源.《老子》汉英翻译平行语料库建设[J].上海翻译,2013(4):60-64. 被引量：8
4李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66
5罗凤珠.以“互动观念”建立“红楼梦网路资料中心”对红学发展之影响[J].红楼梦学刊,1997(S1):537-546. 被引量：3
6张普.计算机在中国古籍整理研究领域中的应用(综述)[J].语文研究,1989(4):40-45. 被引量：5
7朱士嘉.中国地方志的起源、特征及其史料价值[J].史学史研究,1979(2):2-10. 被引量：20
8严军.《左传》姓氏相关问题的探索[J].浙江学刊,1994(4):89-92. 被引量：3
9华林甫.论先秦时期我国地名学的特点[J].湖北大学学报（哲学社会科学版）,1996,23(4):104-110. 被引量：5
10陈桥驿.论地名重合(续)[J].中国地名,1999,0(3):6-7. 被引量：1

共引文献119

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
2黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：10
3俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
4张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
5祝蕊,刘炜.新文科与数字人文学科建设[J].图书与情报,2021(5):53-59. 被引量：13
6苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
7唐振贵,向姝恒,罗锦坤,胡蓉.中国历史计时本体构建——以回归历史语境的日内计时为基点[J].数字人文研究,2021,1(2):51-62.
8丁若尧.面向古汉语史料的信息抽取方法综述[J].中国科技纵横,2019,0(14):50-51. 被引量：1
9李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：28
10高利,王春艳,高心丹.运用区块链技术构建数字化古籍管理体系模型的研究[J].图书情报工作,2019,63(3):80-89. 被引量：19

同被引文献387

1張志清.推進古籍整理再造傳世大典——在《子藏》第五批成果發布會上的講話[J].诸子学刊,2021(1):287-290. 被引量：1
2夏翠娟.构建数智时代社会记忆的多重证据参照体系:理论与实践探索[J].中国图书馆学报,2022,48(5):86-102. 被引量：20
3赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：30
4刘健.智慧博物馆发展中的数字人文建设——以上海博物馆的实践为例[J].数字人文研究,2022,2(3):39-49. 被引量：3
5雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
6马开颜,萧瑶,陈骞,郝梦瑶,杨冠灿.数字人文视域下中国当代文学作品中的植物意象研究[J].数字人文研究,2022,2(2):35-45. 被引量：2
7成一农.抛弃人性的历史学没有存在价值——“大数据”“数字人文”以及历史地理信息系统在历史研究中的价值[J].清华大学学报（哲学社会科学版）,2021(1):181-190. 被引量：24
8刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：11
9马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
10俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16

引证文献29

1苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
2徐晨飞,包平,张惠敏,姜霖.基于关联数据的方志物产史料语义化知识组织研究[J].大学图书馆学报,2020,38(6):78-88. 被引量：24
3邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：25
4胡昊天,王东波,邓三鸿,宋天睿,叶文豪.基于情报学招聘实体挖掘的情报学教育及人才培养分析[J].情报理论与实践,2021,44(1):8-17. 被引量：10
5胡昊天,吉晋锋,王东波,邓三鸿.基于深度学习的食品安全事件实体一体化呈现平台构建[J].数据分析与知识发现,2021,5(3):12-24. 被引量：3
6朱锁玲,包平.数字人文在中国农史研究中的实践与思考——以中华农业文明研究院数字人文项目为例[J].农业图书情报学报,2021,33(8):79-87. 被引量：3
7范涛,王昊,张宝隆.基于远程监督和深度学习的非物质文化遗产文本属性抽取研究[J].情报理论与实践,2021,44(10):1-7. 被引量：4
8高瑞卿,董启文,方达,王弘治,方勇.数字技术下《老子》文本与先秦两汉典籍的关系挖掘[J].情报杂志,2021,40(10):99-107. 被引量：3
9李娜.面向方志类古籍的多类型命名实体联合自动识别模型构建[J].图书馆论坛,2021,41(12):113-123. 被引量：13
10任常青.数字人文视角下县志作物类物产实体识别研究——以雄安县志为例[J].信息与电脑,2022,34(1):74-76. 被引量：2

二级引证文献123

1王弘治.“玄”之取象——關於《老子》中“玄”的解釋[J].诸子学刊,2022(2):54-67.
2王弘治.“道”之析義[J].诸子学刊,2022(1):1-15.
3雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
4黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：10
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
6邹涵辰.乡村民宿空间营造中的地域文化渊源研究[J].家具与室内装饰,2021(5):74-77. 被引量：14
7胡静,雷琴,魏丽敏.比较视野下图书情报领域数字人文研究——基于CNKI和WoS收录文献的探析[J].国家图书馆学刊,2021,30(3):75-87. 被引量：5
8马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
9陈诗,王东波,黄水清.数字人文下的典籍人称代词指代消解研究[J].情报理论与实践,2021,44(10):165-172. 被引量：3
10张伟民,宋雪雁.数字人文与档案资源内容挖掘文献综述[J].兰台世界,2021(10):27-32. 被引量：3

1周亮杰,马敬东.基于深度学习的患者安全事件的命名实体识别[J].中华医学图书情报杂志,2020,29(6):1-6.
2徐晨飞,包平.面向农史领域的数字人文研究基础设施建设研究——以方志物产知识库构建为引[J].中国农史,2019,38(6):40-51. 被引量：17
3谢博,申国伟,郭春,周燕,于淼.基于残差空洞卷积神经网络的网络安全实体识别方法[J].网络与信息安全学报,2020,6(5):126-138. 被引量：8
4陈剑,何涛,闻英友,马林涛.基于BERT模型的司法文书实体识别方法[J].东北大学学报（自然科学版）,2020,41(10):1382-1387. 被引量：24
5石教祥,朱礼军,望俊成,王政,魏超.面向少量标注数据的命名实体识别研究[J].情报工程,2020,6(4):37-50. 被引量：6
6山月.《宋金元伤寒著述版本研究》出版[J].中华医史杂志,2020,50(4):240-240.
7张景云.方志类古籍开发利用中GIS的应用[J].传媒论坛,2020,0(4):120-120. 被引量：1
8郭亚南.《小帆船》STEM项目的开发与实施[J].湖北教育（科学课）,2020(5):100-103.
9蒋婷,孙建军.人文社科专题数据库深度语义化研究[J].信息资源管理学报,2020,10(5):11-22. 被引量：7
10李雅薇,姜鑫,刘巨升,张思佳.渔业领域术语识别语料标注系统的设计与实现[J].信息与电脑,2020,32(16):96-99.

数据分析与知识发现

2020年第8期

浏览历史

内容加载中请稍等...

基于深度学习的方志物产资料实体自动识别模型构建研究被引量：29

参考文献14

二级参考文献111

共引文献119

同被引文献387

引证文献29

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于深度学习的方志物产资料实体自动识别模型构建研究 被引量：29

参考文献14

二级参考文献111

共引文献119

同被引文献387

引证文献29

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于深度学习的方志物产资料实体自动识别模型构建研究被引量：29