期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于RoBERTa-CRF的古文历史事件抽取方法研究被引量：15

Extracting Events from Ancient Books Based on RoBERTa-CRF

原文传递

导出

摘要【目的】为有效抽取典籍中蕴含的事件信息,构建面向典籍的事件抽取框架,并采用RoBERTa-CRF模型实现事件类型、论元角色和论元的抽取。【方法】选择《左传》的战争句作为实验数据,建立事件类型和论元角色的分类模板。基于RoBERTa-CRF模型,先用多层Transformer提取语料特征,再结合前后文序列标签学习相关性约束,由输出的标记序列识别论元并对其进行抽取。【结果】对比GuwenBERT-LSTM、BERT-LSTM、RoBERTa-LSTM、BERT-CRF、RoBERTa-CRF等5种模型在数据集上的事件抽取实验结果,RoBERTa-CRF的精确度为87.6%、召回率为77.2%、F1值达到82.1%,验证了该模型的有效性和可操作性。【局限】使用的数据集规模较小,无法使主题类别更均衡化。【结论】本文构建的RoBERTa-CRF模型提升了面向《左传》战争句的事件抽取效果。 [Objective]This paper constructs a framework to extract events from ancient books,which uses the RoBERTa-CRF model to identify event types,argument roles and arguments.[Methods]We collected the war sentences from Zuozhuan as the experimental data,which helped us establish the classification schema for event types and argument roles.Based on the RoBERTa-CRF model,we used the multi-layer transformer to extract the corpus features,which were combined with the sequence tags to learn the correlation constraints.Finally,we identified and extracted the arguments by the tag sequence.[Results]The accuracy,recall and F1 values of the proposed model were 87.6%,77.2%and 82.1%,which were higher than results of the GuwenBERT-LSTM,BertLSTM,RoBERTa-LSTM,Bert-CRF and RoBERTa-CRF on the same dataset.[Limitations]The size of the experimental dataset needs to be expanded,which could make the topic categories more balanced.[Conclusions]The RoBERTa-CRF model constructed in this paper could effectively extract events from ancient Chinese books.

作者喻雪寒何琳徐健 Yu Xuehan;He Lin;Xu Jian(College of Information Management,Nanjing Agricultural University,Nanjing 210095,China)

机构地区南京农业大学信息管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第7期26-35,共10页 Data Analysis and Knowledge Discovery

基金南京农业大学中央高校基本科研业务费(项目编号:SKCX2020006) 中国博士后面上基金(项目编号:2020M681652)的研究成果之一。

关键词 RoBERTa CRF 事件抽取古文 RoBERTa CRF Event Extraction Ancient Chinese Language

分类号 TP391 [自动化与计算机技术—计算机应用技术] G255 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献11

1夏翠娟.面向人文研究的“数据基础设施”建设--试论图书馆学对数字人文的方法论贡献[J].中国图书馆学报,2020,46(3):24-37. 被引量：86
2李章超,李忠凯,何琳.《左传》战争事件抽取技术研究[J].图书情报工作,2020,64(7):20-29. 被引量：17
3陈佩辉.人文数据库建设中人文学者何为——以《全宋文》墓志铭亲属信息提取为例[J].图书馆论坛,2019,39(5):17-23. 被引量：3
4刘忠宝,党建飞,张志剑.《史记》历史事件自动抽取与事理图谱构建研究[J].图书情报工作,2020,64(11):116-124. 被引量：25
5陈慧炜..刑事案件文本信息抽取研究[D].南京师范大学,2011:
6赵文娟,刘忠宝,王永芳.基于句法依存分析的事件角色填充研究[J].情报科学,2017,35(7):65-69. 被引量：4
7（清）阮元校刻..十三经注疏下[M].北京:中华书局,1980:2784.
8李学勤主编..十三经注疏春秋左传正义上[M].北京:北京大学出版社,1999.
9朱宝庆著..左氏兵法[M].西安:陕西人民出版社,1991:306.
10中国军事史编写组编..中国历代战争年表上[M].北京:解放军出版社,2003:540.

二级参考文献42

1姜吉发.一种跨语句汉语事件信息抽取方法[J].计算机工程,2005,31(2):27-29. 被引量：12
2柯平.数字目录学——当代目录学的发展方向[J].图书情报知识,2005,22(3):18-22. 被引量：54
3姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
4吴平博,陈群秀,马亮.基于时空分析的线索性事件的抽取与集成系统研究[J].中文信息学报,2006,20(1):21-28. 被引量：21
5徐宝祥,叶培华.知识表示的方法研究[J].情报科学,2007,25(5):690-694. 被引量：53
6赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：105
7顾犇.关于《书目控制未来报告》草案[J].国家图书馆学刊,2008,17(1):76-78. 被引量：8
8贾君枝,刘艳玲.基于本体的FrameNet框架之间域关系分析[J].情报杂志,2008,27(2):53-55. 被引量：4
9张钦.人工智能中知识表示方法之比较[J].科教文汇,2008(27):279-280. 被引量：2
10贾君枝,赵文娟,王东元.汉语框架网络知识库的语义角色特征识别[J].图书情报工作,2009,53(17):110-113. 被引量：4

共引文献123

1祁天娇.从历史档案到历史大数据:基于威尼斯时光机十年路径的探索[J].中国图书馆学报,2022,48(5):116-129. 被引量：8
2夏翠娟.构建数智时代社会记忆的多重证据参照体系:理论与实践探索[J].中国图书馆学报,2022,48(5):86-102. 被引量：20
3路伟东.数字人文时代的“数字运河”基础数据平台建设[J].运河学研究,2021(2):55-67.
4赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
5曹雨佳.文旅融合时代红色资源数字化建设与推广[J].特区实践与理论,2021(4):117-121. 被引量：5
6刘阳.我国信息资源管理领域数字人文研究的内容及特征识别[J].情报科学,2023,41(11):170-175. 被引量：1
7高丹,何琳,孙帆,刘建斌.国际数字人文领域研究方法的量化分析及启示研究[J].情报科学,2022,40(10):114-122. 被引量：6
8龙家庆,崔浩男,张晨文,王兴广.2012-2019年度国际"数字人文奖"获奖项目概览与解析[J].数字人文研究,2021,1(2):85-98. 被引量：2
9唐振贵,向姝恒,罗锦坤,胡蓉.中国历史计时本体构建——以回归历史语境的日内计时为基点[J].数字人文研究,2021,1(2):51-62.
10夏翠娟,陈刚.支撑城市记忆项目的时空数据基础设施建设[J].数字人文研究,2021,1(1):96-104. 被引量：11

同被引文献293

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：35
2陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：14
3赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：30
4肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
5俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
6毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
7纪国泰.先秦汉语词汇研究的力作——评毛远明的《左传词汇研究》[J].成都师专学报,2000,19(1):74-77. 被引量：2
8郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报（人文社会科学版）,2005,25(4):127-130. 被引量：24
9向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36
10俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：155

引证文献15

1何琳,马晓雯,喻雪寒,艾毓茜,李章超,高丹.典籍事件触发动词识别研究:基于《左传》的文本实验[J].图书情报工作,2022,66(5):133-141. 被引量：4
2余传明,林虹君,张贞港.基于多任务深度学习的实体和事件联合抽取模型[J].数据分析与知识发现,2022,6(2):117-128. 被引量：8
3韩娜,张昊洋.基于ALBERT+BiLSTM+CRF的事件抽取模型[J].黑龙江科技大学学报,2022,32(3):412-416. 被引量：2
4谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):51-60. 被引量：9
5林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：6
6郑翔,李明杰.中国古代书目提要结构功能识别研究——以《四库全书总目》著录的古代科技文献为例[J].图书馆杂志,2022,41(12):96-103.
7王彦莹,王昊,朱惠,李晓敏.基于文本生成技术的历史古籍事件识别模型构建研究[J].图书情报工作,2023,67(3):119-130. 被引量：3
8程为,司徒凌云,郑德俊,王燕红,石进.面向南海叙事的事件要素自动抽取方法研究[J].情报科学,2023,41(3):155-163. 被引量：4
9刘浩,张建业,吕张成,陈哲钥.面向数控机床设计知识图谱构建的实体识别[J].科学技术与工程,2023,23(13):5655-5661. 被引量：3
10沙明洋,张思佳,傅庆财,于红,李枳錡,喻文甫,刘珈宁.基于动态权重的多模型集成水产动物疾病防治事件抽取方法[J].华中农业大学学报,2023,42(3):80-87. 被引量：1

二级引证文献49

1周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
2林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：6
3刘航冶,富铁楠,杨勇.互联网开源文本情报智能分析技术综述[J].情报杂志,2023,42(2):12-16. 被引量：2
4刘永波,黄强,高文波,何鹏,许钰莎.融合BERT-WWM和注意力机制的茶叶知识图谱构建[J].西南农业学报,2022,35(12):2912-2921. 被引量：3
5张朦,刘忠宝.数字人文环境下融入多特征的词命名实体识别[J].计算机系统应用,2023,32(3):300-308.
6潘俊,李萌配,王贤明.应用深度学习的中文命名实体识别研究综述[J].数字图书馆论坛,2023,19(5):1-9. 被引量：1
7胡潜,吴茜,陈漳尧,朱清文.融合预训练和深度学习的图书功用分类研究[J].情报理论与实践,2023,46(6):155-160.
8韩怡星.“华亭周氏图书”述略[J].兰台内外,2023(18):78-80.
9贾诗威,陈慧彤.剧变中的守正与创新:情报学的智慧与方案——2022年中国情报学年会暨情报学与情报工作发展论坛纪要[J].图书情报知识,2023,40(4):153-160. 被引量：1
10程为,郑轩昂,郑德俊,杨海平,王燕红.面向学术全文本的南海维权证据知识元自动识别研究[J].情报杂志,2023,42(9):141-148. 被引量：3

1陈安南,叶岩宁,王畅畅,王文举,李博文.基于BERT-DGCNN的中文事件抽取方法研究[J].计算机科学与应用,2021,11(5):1572-1578. 被引量：4
2任立成,刘勇,张建林,魏宇星.基于特征融合的双分支模板更新跟踪算法[J].国外电子测量技术,2021,40(5):14-21. 被引量：6
3李双明,关欣,孙贵东.基于犹豫模糊集的不等长序列识别方法及应用[J].通信学报,2021,42(7):41-51. 被引量：2
4李海涛,徐亚婷.近20年我国电子文件管理政策现状及对策研究——基于《“十四五”全国档案事业发展规划》及相关政策[J].山西档案,2021(4):95-111. 被引量：10
5王永刚.外航航班典型事件风险防控分析[J].民航管理,2021(6):73-75.
6王卫红,吕红燕,曹玉辉,霍峥.基于BERT的混合神经网络实体识别方法[J].计算机技术与发展,2021,31(8):100-105. 被引量：1
7任媛,于红,杨鹤,刘巨升,杨惠宁,孙哲涛,张思佳,刘明剑,孙华.融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别[J].农业工程学报,2021,37(10):135-141. 被引量：18
8张本涛.论新形式下辅导员如何应对大学生突发事件[J].花溪,2021(14):0201-0202.
9陈星月,倪丽萍,倪志伟.基于ELECTRA模型与词性特征的金融事件抽取方法研究[J].数据分析与知识发现,2021,5(7):36-47. 被引量：6
10富国瑞.基于Top-k查询算法的图书馆电子资源分类搜索方法[J].电子设计工程,2021,29(16):173-176. 被引量：2

数据分析与知识发现

2021年第7期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部