基于ALBERT模型的园林植物知识实体与关系抽取方法被引量：5

Extracting Entity and Relation of Landscape Plant's Knowledge based on ALBERT Model

导出

摘要园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持。植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节。针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义了园林植物的概念体系结构,完成了园林植物语料库的构建。针对现有Word2vec、ELMo和BERT等语言模型存在无法解决多义词、融合上下文能力差、运行速度慢等缺点,提出了嵌入ALBERT(A Lite BERT)预训练语言模型的实体识别和关系抽取模型。ALBERT预训练的动态词向量能够有效地表示文本特征,将其分别输入到BiGRU-CRF命名实体识别模型和BiGRU-Attention关系抽取模型中进行训练,进一步提升实体识别和关系抽取的效果。在园林植物语料库上进行方法的有效性验证,结果表明ALBERT-BiGRU-CRF命名实体识别模型的F1值为0.9517,ALBERT-BiGRU-Attention关系抽取模型的F1值为0.9161,相较于经典的语言模型(如Word2vec、ELMo和BERT等)性能有较为显著的提升。因此基于ALBERT模型的实体与关系抽取任务能有效提高识别分类效果,可将其应用于植物描述文本的实体关系抽取任务中,为园林植物知识图谱自动构建提供方法。 Knowledge graph of landscape plants provides potential uses in the selection of greening tree species considering regional adaptability,ornamental and ecological factors.Entity and relationship extraction of the plant's description text is a key issue in the construction of knowledge graph.Until now,there has been no publicly available annotated data set for the plant domain.In this paper,a conceptual architecture of landscape plants was defined and briefly described,and the landscape plant corpus was constructed.Existing language models such as word2vec,ELMo,and BERT have various disadvantages,e.g.,they can't solve the problem of polysemous words and have poor ability of context fusion and computational efficiency.In this paper,we proposed a named entity recognition model,ALBERT-BiGRU-CRF,and a relationship extraction model,ALBERT-BiGRU-Attention,which were embedded with ALBERT(A Lite Bidirectional Encoder Representation from Transformers)pre-training language model.In the ALBERT-BiGRU-CRF model,the ALBERT model was used to extract text features,the Bi-GRU model was used to learn and excavate deep semantic features between sentences,and the CRF model was used to calculate the probability distribution of the annotation sequence to determine the entities contained in the description text.The ALBERT-BiGRU-Attention model was based on the results of the named entity recognition model.Similarly,the attention model was used to improve the weight of keywords to determine the relationship between entities.The proposed models have the following advantages:(1)The method can effectively identify and extract entities and relationships of landscape plants'knowledge;(2)The models can represent the semantic and sentence characteristics of characters with a good accuracy.The validity of the method was verified on the landscape plant corpus constructed in this paper and compared with other models.Our experimental results of quantitative evaluation show that:(1)The F1 index of the ALBERT-BiGRU-CRF model was 0.9517,indicating that

作者陈晓玲唐丽玉胡颖江锋彭巍冯先超 CHEN Xiaoling;TANG Liyu;HU Ying;JIANG Feng;PENG Wei;FENG Xianchao(Key Laboratory of Spatial Data Mining&Information Sharing of Ministry of Education,Fuzhou University,Fuzhou 350108,China;National Engineering Research Center of Geospatial Information Technology,Fuzhou University,Fuzhou 350108,China)

机构地区福州大学空间数据挖掘与信息共享教育部重点实验室福州大学地理空间信息技术国家地方联合工程研究中心

出处《地球信息科学学报》 CSCD 北大核心 2021年第7期1208-1220,共13页 Journal of Geo-information Science

基金国家自然科学基金项目(41971344)。

关键词知识图谱信息抽取语料库园林植物 ALBERT 词向量实体识别关系抽取 knowledge graph information extraction landscape plant corpus landscape plant ALBERT word vectors entity recognition relation extraction

分类号 S688 [农业科学—观赏园艺] TP391.1 [农业科学—园艺学]

引文网络
相关文献

参考文献19

1王婉颖,冯潇.园林植物三维数字模型的构建与应用探索[J].风景园林,2019,26(12):103-108. 被引量：6
2贺善安,顾姻.植物园发展战略研究[J].植物资源与环境学报,2002,11(1):44-46. 被引量：14
3陆锋,余丽,仇培元.论地理知识图谱[J].地球信息科学学报,2017,19(6):723-734. 被引量：67
4刘俊楠,刘海砚,陈晓慧,郭漩,郭文月,朱新铭,赵清波.面向多源地理空间数据的知识图谱构建[J].地球信息科学学报,2020,22(7):1476-1486. 被引量：28
5陈锦秀,姬东鸿.基于图的半监督关系抽取[J].软件学报,2008,19(11):2843-2852. 被引量：16
6鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818. 被引量：160
7杨培,杨志豪,罗凌,林鸿飞,王健.基于注意机制的化学药物命名实体识别[J].计算机研究与发展,2018,55(7):1548-1556. 被引量：39
8叶育鑫,薛环,王璐,欧阳丹彤.基于带噪观测的远监督神经网络关系抽取[J].软件学报,2020,31(4):1025-1038. 被引量：9
9宁尚明,滕飞,李天瑞.基于多通道自注意力机制的电子病历实体关系抽取[J].计算机学报,2020,43(5):916-929. 被引量：32
10许晶航,左万利,梁世宁,王英.基于图注意力网络的因果关系抽取[J].计算机研究与发展,2020,57(1):159-174. 被引量：21

二级参考文献103

1李德仁,邵振峰.论新地理信息时代[J].中国科学（F辑:信息科学）,2009,39(6):579-587. 被引量：106
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4张素香,文娟,秦颖,袁彩霞,钟义信.实体关系的自动抽取研究[J].哈尔滨工程大学学报,2006,27(B07):370-373. 被引量：10
5何婷婷,徐超,李晶,赵君喆.基于种子自扩展的命名实体关系抽取方法[J].计算机工程,2006,32(21):183-184. 被引量：25
6董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
7林苏娟.文明与植物进化[M].昆明:云南科学技术出版社,2001.. 被引量：1
8刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：58
9团体著者，中国植被，1980年被引量：1
10侯学煜，中华人民共和国自然地图集，1965年被引量：1

共引文献561

1石岳,赵霞,朱江玲,方精云.“山水林田湖草沙”的形成、功能及保护[J].自然杂志,2022,44(1):1-18. 被引量：12
2杜淑颖,杜鹏,丁世飞.基于CNN的假冒域名识别方法研究[J].中国科学技术大学学报,2020,50(7):1019-1025. 被引量：3
3杨滔,龙木清.基于NBI与NICE分型的东莞市结直肠息肉病变数据库建立与医防融合应用研究[J].智慧健康,2022,8(5):89-91.
4赵珂雨,陈婉莹.一种基于stacking集成学习的DGA域名检测方法[J].数据通信,2020(6):19-24.
5葛世奇,孙新,寇桓锦,袁燕.基于预训练模型的政务领域实体关系抽取[J].情报工程,2022,8(4):3-13. 被引量：1
6徐道柱,金澄,马超,焦洋洋,许剑.基于BERT-BiGRU-CRF与多头注意力机制的地理命名实体识别[J].网络安全与数据治理,2023,42(S01):169-173. 被引量：1
7周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：5
8刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：10
9谢晓璇,鄂海红,匡泽民,谭玲,周庚显,罗浩然,李峻迪,宋美娜.高血压超关系知识图谱建模及用药决策推理实践[J].中文信息学报,2023,37(3):65-78.
10葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：5

同被引文献57

1陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：3
2刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：24
3车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：115
4郑颖,金松林,张自阳,王斌,茹振钢.基于本体的小麦病虫害问答系统构建与实现[J].河南农业科学,2016,45(6):143-146. 被引量：6
5袁丹.花卉苗木冬季病虫害防治[J].农业与技术,2016,36(22):201-201. 被引量：2
6张剑,吴青,羊昕旖,王彬聪,吴宣为,徐向英,吕强.基于条件随机场的农业命名实体识别[J].计算机与现代化,2018(1):123-126. 被引量：11
7李伟康,李炜,吴云芳.深度学习中汉语字向量和词向量结合方式探究[J].中文信息学报,2017,31(6):140-146. 被引量：16
8李枫林,柯佳.基于深度学习框架的实体关系抽取研究进展[J].情报科学,2018,36(3):169-176. 被引量：27
9翟明国,杨树锋,陈宁华,陈汉林.大数据时代：地质学的挑战与机遇[J].中国科学院院刊,2018,33(8):825-831. 被引量：51
10冯建周,宋沙沙,王元卓,刘亚坤,武红颖,龚昊.基于改进注意力机制的实体关系抽取方法[J].电子学报,2019,47(8):1692-1700. 被引量：18

引证文献5

1李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
2王得强,吴军,关立文.结合知识图谱的行业知识库构建方法研究[J].制造技术与机床,2022(8):74-80. 被引量：4
3陈明,朱珏樟,席晓桃.基于知识图谱的花卉病虫害知识管理方法[J].农业机械学报,2023,54(3):291-300. 被引量：6
4邱芹军,王斌,徐德馨,马凯,谢忠,潘声勇,陶留锋.地质领域文本实体关系联合抽取方法[J].高校地质学报,2023,29(3):419-428. 被引量：4
5任乐,张仰森,刘帅康.基于深度学习的实体关系抽取研究综述[J].北京信息科技大学学报（自然科学版）,2023,38(6):70-79. 被引量：1

二级引证文献19

1崔硕,张春燕,贾家乐,张成东,张胜文,陈凯.基于深度学习的机械领域知识图谱构建及应用[J].制造技术与机床,2023(2):83-89. 被引量：1
2孙树华.小麦病虫害防治误区与综合防治技术分析[J].种子科技,2023,41(13):108-110. 被引量：2
3李四海.基于知识图谱知识库应用系统架构设计[J].办公自动化,2023,28(16):12-14.
4丁浩,孔令圆,刘清,胡广伟.融合多重特征词嵌入的农业实体命名识别研究[J].现代情报,2023,43(11):135-145.
5穆维松,刘天琪,苗子溦,冯建英.知识图谱技术及其在农业领域应用研究进展[J].农业工程学报,2023,39(16):1-12. 被引量：8
6苏楠,章少辉,白美健,张宝忠.灌区用水调度的知识图谱模型构建——以淠史杭灌区瓦西干渠灌域为例[J].灌溉排水学报,2023,42(11):112-120. 被引量：1
7杨文霞,王卫华,何朗,韩华.知识图谱赋能智慧教育的研究与实践——以武汉理工大学“线性代数”课程为例[J].高等工程教育研究,2023(6):111-117. 被引量：2
8李书琴,庞文婷.词嵌入BERT-CRF玉米育种实体关系联合抽取方法[J].农业机械学报,2023,54(11):286-294. 被引量：1
9钱建煜,沈利,沈纪约,姜志锋,林泽钰,倪瑜那.基于人机交互的发电知识图谱动态更新研究与应用[J].电力大数据,2023,26(10):58-66. 被引量：1
10唐闻涛,胡泽林.农业知识图谱研究综述[J].计算机工程与应用,2024,60(2):63-76. 被引量：1

1胡宪洋,白凯,花菲菲,王利尖.西安曲江新区移民群体的地方意义建构与检验[J].地理学报,2020,75(8):1773-1789. 被引量：9
2王秋生,王玲玲,富立.基于线性卷积与周期卷积概念体系结构的教学方法[J].科教文汇,2020(16):79-80.
3曾诚,温超东,孙瑜敏,潘列,何鹏.基于ALBERT-CRNN的弹幕文本情感分析[J].郑州大学学报（理学版）,2021,53(3):1-8. 被引量：20
4陈亮,褚燕华,王丽颖,张晓琳,刘海佳.基于CoBERT-BiGRU的对话式机器阅读理解[J].计算机应用研究,2021,38(7):1983-1987.
5王宁,刘玮,兰剑.基于法院判决文书的法律知识图谱构建和补全[J].郑州大学学报（理学版）,2021,53(3):23-29. 被引量：3
6徐巧峰.山西引种假色槭的区域适应性评价[J].山西林业科技,2021,50(2):22-26.
7杜成伟,王磊,刘金文,王金方,李海萍.早熟多抗丰产中小果型西瓜品种特征特性[J].河南农业,2021(21):58-59.

地球信息科学学报

2021年第7期

浏览历史

内容加载中请稍等...

基于ALBERT模型的园林植物知识实体与关系抽取方法被引量：5

参考文献19

二级参考文献103

共引文献561

同被引文献57

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于ALBERT模型的园林植物知识实体与关系抽取方法 被引量：5

参考文献19

二级参考文献103

共引文献561

同被引文献57

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于ALBERT模型的园林植物知识实体与关系抽取方法被引量：5