题名 联合句法与位置信息的方面情感三元组抽取
1
作者
王浩畅
黄嘉婷
赵铁军
机构
东北石油大学计算机与信息技术学院
哈尔滨工业大学计算机科学与技术学院
出处
《计算机工程与设计》
北大核心
2024年第10期3096-3102,共7页
基金
国家自然科学基金项目(61402099、61702093)。
文摘
为提高方面级情感三元组抽取任务的准确率,提出一种联合依存句法关系和位置偏移信息的抽取模型。在模型上下文编码中添加句法关系,结合图卷积网络捕获结构和结点属性信息,增强三元组要素之间的交互能力;在多任务学习部分加入相对位置偏移信息,充分挖掘方面-观点词对的关系,提高三元组要素抽取的精度。在4个基准英文数据集上的实验结果表明,该方法效果显著且优于其它基线模型。
关键词
方面级情感分析
三元组抽取
多任务学习
图卷积网络
依存句法
双向长短时记忆网络
深度学习
Keywords
aspect-based sentiment analysis
triplet extraction
multi-task learning
graph convolutional network
dependency syntactic
bi-directional long short-term memory network
deep learning
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 观点句中评价对象/属性的缺省项识别方法研究
被引量:2
2
作者
刘慧慧
王素格
赵策力
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
山西大学数学科学学院
出处
《中文信息学报》
CSCD
北大核心
2014年第6期175-182,共8页
基金
国家自然科学基金(61175067
61272095)
+1 种基金
山西省科技攻关项目(20110321027-02)
山西省回国留学人员科研项目(2013-014)
文摘
在多对象、多属性的评论文本中,评价对象和评价属性的缺省识别对于观点挖掘有着重要的作用。针对情感观点句中评价对象和评价属性的缺省问题,该文提出一种有效的缺省项识别方法。首先构造缺省项识别规则集,用于获取待识别的缺省项侯选集;将缺省项识别问题看作一个二元分类问题,选用词法和依存句法作为特征,使用决策树分类算法C4.5训练分类器模型,在测试集上对待识别的缺省项进行判别。实验结果表明,使用依存句法特征集分类的F值优于词法特征集约2%。将词法和依存句法两类特征融合与单类特征相比,分类精确率和F值分别提高了10%和5%左右,说明词法特征和依存句法特征的融合有利于缺省项识别。
关键词
缺省项
识别规则
词法特征
依存句法
C4.5算法
Keywords
default item
identification rule
lexical feature
dependency syntactic
C4.5 algorithm
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于词典与条件随机场的中文菜名识别研究
被引量:1
3
作者
杨晓燕
徐戈
谢安
庄泽彬
机构
闽江学院计算机与控制工程学院
出处
《信息与电脑》
2018年第17期91-93,共3页
基金
2016年福建省中青年教师教育科研项目(项目编号:JAT160387)
文摘
笔者提出一种基于词典与条件随机场的菜名识别方法。首先,根据中文菜名特点,构建菜名词典,然后在条件随机场模型中采用词汇、词性和依存句法特征进行实验。结果表明这些特征对识别性能有较大的影响,准确率达到94.44%,召回率达到78.26%,F值达到85.59%。
关键词
中文菜名
命名实体识别
条件随机场
依存句法
Keywords
Chinese dish
named entity recognition
conditional random field
dependency syntactic
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
题名 基于多层关系图模型的中文评价对象与评价词抽取方法
被引量:15
4
作者
廖祥文
陈兴俊
魏晶晶
陈国龙
程学旗
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室(福州大学)
福建江夏学院电子信息科学学院
中国科学院计算技术研究所网络数据科学与技术重点实验室
出处
《自动化学报》
EI
CSCD
北大核心
2017年第3期462-471,共10页
基金
国家自然科学基金青年项目(61300105)
中国科学院网络数据科学与技术重点实验室开放基金课题(CASNDST20140X)资助~~
文摘
中文评价对象与评价词抽取是文本倾向性分析的重要问题.如何利用评价对象与评价词之间的语法、共现等关系设计模型是提高抽取精度的关键.本文提出了一种基于多层关系图模型的中文评价对象与评价词抽取方法.该方法首先利用词对齐模型抽取评价对象与评价词搭配;然后,考虑评价对象与评价词的依存句法关系、评价对象内部的共现关系和评价词内部的共现关系,建立多层情感关系图,接着利用随机游走方法计算候选评价对象与评价词的置信度;最后,选取置信度高的候选评价对象与评价词作为输出.实验结果表明,与现有的方法相比,本文所提出的方法不仅对评价对象和评价词的抽取精度均有显著提升,而且具有良好的鲁棒性.
关键词
倾向性分析
观点挖掘
依存句法分析
随机游走
Keywords
Sentiment analysis
opinion mining
dependency syntactic parsing
random walk
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 汉语句法网络的复杂性研究
被引量:12
5
作者
刘海涛
机构
中国传媒大学应用语言学研究所
出处
《复杂系统与复杂性科学》
EI
CSCD
2007年第4期38-44,共7页
文摘
旨在研究汉语句法网络的复杂性和复杂网络指标作为一种语言学研究手段的可行性,给出了如何按照依存句法树库构建句法网络的方法,自建了两种不同语体的汉语句法网络,对平均路径长度、聚集系数和度分布等复杂网络指标进行了测度。结果表明,两个句法网络和随机网络的平均路径长度和直径大致相当,但句法网络的聚集系数要远远大于随机网络,句法网络的度分布符合幂律,因此两种句法网络均为小世界和无尺度网络。发现两种语体的句法网络直径相同,但在平均度、平均路径长度、聚集系数和幂律指数方面则有较明显的差别。
关键词
汉语句法网络
复杂性
依存句法
平均路径长度
聚集系数
度分布
Keywords
Chinese dependency syntactic network
complexity
dependency syntax
average path length
cluster coefficient
degree distribution
分类号
N94
[自然科学总论—系统科学]
H087
[语言文字—语言学]
题名 基于依存句法分析与序列标注的英文长句机器翻译
被引量:12
6
作者
安静
机构
石家庄职业技术学院信息工程系
出处
《兰州理工大学学报》
CAS
北大核心
2018年第1期100-103,共4页
基金
国家自然科学基金(61272283)
河北省科技支撑项目(13210345)
2016年度河北省社会科学发展研究课题(201603010120)
文摘
针对英汉机器翻译中的长句预处理问题,提出一种基于依存句法分析和序列标注的英文长句分割方法,分别采用基于依存句法分析的规则匹配与基于条件随机场的序列标注分割方法,进行粗粒度和细粒度分割,共同完成对长句的分割工作.实验结果表明,基于长句分割的机器翻译方法取得了较好的效果.
关键词
机器翻译
长句分割
依存句法分析
序列标注
Keywords
machine translation
long sentence segmentation
dependency syntactic analysis
sequencelabeling
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
题名 新能源汽车领域中文术语抽取方法
被引量:10
7
作者
何宇
吕学强
徐丽萍
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京城市系统工程研究中心
出处
《现代图书情报技术》
CSSCI
2015年第10期88-94,共7页
基金
国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037)
北京市科学技术研究院科技创新工程项目"基于CGE-TIMES模型的交通对大气环境综合影响评价方法研究"(项目编号:PXM2015_178215_000008)的研究成果之一
文摘
【目的】为提高新能源汽车领域中文术语抽取结果的准确率和召回率,提出一种适合该领域的术语抽取方法。【方法】在总结前人工作基础上,提出利用条件随机场模型作为抽取模型,选取词、词长、词性、依存关系、词典位置、停用词等特征作为特征模板。【结果】实验结果正确率为93.12%,召回率为90.47%。正确率比Baseline方法提高7.73%。【局限】该方法只提高较短术语抽取结果的正确率。【结论】依存关系作为条件随机场模型的一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。
关键词
术语抽取
新能源汽车领域
条件随机场
依存句法关系
Keywords
Term extraction
New energy vehicles
Conditional random fields
dependency syntactic relations
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于规则的评价搭配抽取方法
被引量:8
8
作者
张璞
李逍
刘畅
机构
重庆邮电大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第8期217-223,共7页
基金
教育部人文社会科学研究青年基金(17YJCZH247)
重庆市教委人文社会科学研究项目(17SKG055)
重庆邮电大学社科基金重点项目(2018KZD06)
文摘
分析商品评论中评价对象和评价短语的词性和句法关系,提出一种使用规则模板进行评价搭配抽取的方法。通过词性、依存句法分析及语义依存分析结果,设计核心搭配抽取规则。引入COO算法及改进的ATT链算法,根据核心评价对象与短语的词性进一步制定识别完整评价对象与短语的规则模板,抽取评价信息。中文商品评论数据集上的实验结果表明,与最近距离方法、SBV极性传递方法和基于核心句的方法相比,该方法的F1值分别提升了43.98 %、36.30 %和24.83 %。
关键词
情感分析
评价短语
评价搭配
依存句法分析
语义依存分析
Keywords
sentiment analysis
evaluation phrase
evaluation collocation
dependency syntactic analysis
semantic dependency analysis
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于依存句法关系的文本情感分类研究
被引量:8
9
作者
张庆庆
刘西林
机构
西北工业大学管理学院管理科学与工程系
出处
《计算机工程与应用》
CSCD
北大核心
2015年第22期28-32,共5页
基金
国家自然科学基金(No.71103138)
陕西省软科学项目(No.2014KRM28-01)
文摘
为增加向量空间模型的文本语义信息,提出三元组依存关系特征构建方法,将此方法用于文本情感分类任务中。三元组依存关系特征构建方法在得到完整依存解析树的基础上,先依据中文语法特点,制定相应规则对原有完整树进行冗余结点的合并和删除;再将保留的依存树转化为三元组关系并一般化后作为向量空间模型特征项。为了验证此种特征表示方法的有效性,构造出在一元词基础上添加句法特征、简单依存关系特征和词典得分不同组合下的特征向量空间。将三元组依存关系特征向量与构造出的不同组合特征向量分别用于支持向量机和深度信念网络中。结果表明,三元组依存关系文本表示方法在分类精度上均高于其他特征组合表示方法,进一步说明三元组依存关系特征能更充分表达文本语义信息。
关键词
依存句法解析
文本情感分类
向量空间模型
深度信念网络
Keywords
dependency syntactic relation
sentiment classification
vector space model
deep belief network
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 结合依存图卷积与文本片段搜索的方面情感三元组抽取
被引量:5
10
作者
徐康
李霏
姬东鸿
机构
武汉大学国家网络安全学院
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第4期61-67,共7页
基金
国家自然科学基金(62176187)
国家重点研发计划(2017YFC1200500)
+2 种基金
教育部哲学社会科学研究重大课题攻关项目(18JZD015)
教育部人文社科青年基金(22YJCZH064)
湖北省自然科学基金(2021CFB385)。
文摘
现有基于序列标注或文本生成的三元组抽取模型通常未考虑完整文本片段级别的交互,且忽略了句法知识的应用。为解决上述问题,提出一种基于依存图卷积与文本片段搜索的深度学习模型来联合抽取方面情感三元组。通过预训练语言模型BERT编码层学习句子中每个单词的上下文表达,同时利用图卷积神经网络学习句子单词之间的依存关系和句法标签信息,以捕获远距离的方面词与观点词之间的语义关联关系,并采用文本片段搜索构造候选方面词与观点词及其特征表示,最终使用多个分类器同时进行方面词与观点词抽取及情感极性判断。在ASTE-Data-V2数据集上的实验结果表明,该模型在14res、14lap、15res和16res子集上的F1值相比于JET模型提升了10.61、10.54、4.91和8.48个百分点,具有较高的方面情感三元组抽取效率。
关键词
方面情感三元组抽取
图卷积神经网络
深度学习
依存句法分析
文本片段搜索
Keywords
Aspect Sentiment Triple Extraction(ASTE)
graph convolution neural network
deep learning
dependency syntactic parsing
text span search
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于短语和依存句法结构的中文语义角色标注
被引量:4
11
作者
徐靖
李军辉
朱巧明
李培峰
机构
苏州大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第24期169-172,共4页
基金
国家自然科学基金资助项目(90920004
60970056
+2 种基金
60873150)
江苏省自然科学基金资助项目(BK2008160)
江苏省高校自然科学重大基础研究基金资助项目(08KJA520002)
文摘
提出一种基于短语和依存句法结构的中文语义角色标注(SRL)方法。联合短语句法特征和依存句法特征,对句法树进行剪枝,过滤句法树上不可能担当语义角色的组块短语单元和关系结点,对担当语义角色的组块或节点进行角色类别标注。基于正确句法树和正确谓词的识别结果表明,该方法的SRL性能F1值为73.53%,优于目前国内外的同类系统。
关键词
语义角色标注
短语句法特征
依存句法特征
名词性谓词
句法结构
Keywords
Semantic Role Labeling(SRL)
phrase syntactic feature
dependency syntactic feature
nominal predicate
syntactic structure
分类号
TP306
[自动化与计算机技术—计算机系统结构]
题名 融合依存信息的关系导向型实体关系抽取方法
被引量:4
12
作者
王景慧
卢玲
段志丽
张亮
王玉柯
机构
重庆理工大学计算机科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第5期1410-1415,1440,共7页
基金
国家社会科学基金西部项目(2017CG29)
重庆市教育科学规划课题资助项目(2021CJG05)
重庆理工大学研究生教育高质量发展行动计划资助项目(gzlcx20223201)。
文摘
中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,制约了远距离实体的召回率,为此提出了一种融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用长短时记忆网络(LSTM)进行文本编码,并加入全局依存信息,用于产生关系门的表示;解码端加入依存类型信息,并在关系门的作用下,用双向长短时记忆网络(BiLSTM)解码得到实体关系三元组。该方法在SanWen、FinRE、DuIE、IPRE中文数据集上的F1值分别较基线方法提高5.84%、2.11%、2.69%和0.39%。消融实验表明,提出的全局依存信息和依存类型信息表示方法均可提升抽取性能,对长句和远距离实体的抽取性能也稳定地优于基线方法。
关键词
实体关系抽取
依存句法分析
剪枝
关系导向
同义词
Keywords
entity relationship extraction
dependency syntactic parsing
pruning
relationship orientation
synonym
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 结合依存句法分析与交互注意力机制的隐式方面提取
被引量:5
13
作者
汪兰兰
姚春龙
李旭
于晓强
机构
大连工业大学信息科学与工程学院
大连工业大学工程训练中心
出处
《计算机应用研究》
CSCD
北大核心
2022年第1期37-42,共6页
基金
国家重点研发计划专项资助项目(2017YFC0821003-3)
辽宁省自然科学基金资助项目(20180550395)
+1 种基金
辽宁省教育厅青年科技人才“育苗”资助项目(J2020113)
辽宁省科技厅科学研究项目(LJKZ0537)。
文摘
隐式方面提取对于提升细粒度情感分析的准确性具有重要意义,然而现有隐式方面提取技术在处理大规模数据时泛化能力不强。为此,提出结合依存句法分析与交互注意力机制的隐式方面提取模型。首先利用预训练语言模型BERT生成文本的初始表征,然后传递给依存句法引导的自注意力层再次处理,再将两次处理的结果经交互注意力机制进一步提取特征,最终用分类器判断句子所属的隐式方面类别。与基线BERT及其他深度神经网络模型对比,所提模型在增强的SemEval隐式方面数据集上取得了更高的F_(1)与AUC值,证明了模型的有效性。
关键词
方面级情感分析
隐式方面提取
BERT
依存句法分析
交互注意力
Keywords
aspect level sentiment analysis
implicit aspect extraction
BERT
dependency syntactic parsing
interactive attention
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 藏语依存句法标注体系构建及应用
14
作者
泽仁卓玛
祁坤钰
夏吾措毛
机构
西北民族大学中国民族信息技术研究院
出处
《西北民族大学学报(自然科学版)》
2024年第3期80-88,共9页
基金
敦煌古藏文文献知识图谱构建与应用研究(23XTQ004)。
文摘
文章在多语种句法树库研究成果的基础上,构建了1万句左右的藏语依存句法树库,在参考了国内外多种依存句法标注规范的同时,结合藏语语法理论和语言类型学特征,制定了一套藏语依存句法标注体系.文章采用语料统计方法,验证了本句法标注体系的有效性和合理性,对词性分布和依存关系进行了统计,归纳了依存结构在语料库中的分布规律,为自动句法分析提供了语言学数据支撑.
关键词
藏语
依存树库
依存体系
Keywords
Tibetan
dependency syntactic treebank
dependency relation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 依存句法分析方法综述
被引量:1
15
作者
杨振鹏
机构
南京财经大学红山学院文法系
出处
《无线互联科技》
2018年第22期114-116,共3页
文摘
近年来,自然语言处理发展迅速,依存句法分析作为自然语言处理的重要组成部分,成了句法分析研究的热点问题。目前较为成熟的依存句法分析方法有4种:生成式句法分析模型、判别式句法分析模型、决策式句法分析模型和约束满足句法分析模型。文章详细介绍了4种句法分析模型的原理,并对模型算法进行了对比分析。
关键词
依存句法分析
生成式句法分析模型
判别式句法分析模型
决策式句法分析模型
约束满足句法分析模型
Keywords
dependency syntactic analysis
generated syntactic analysis model
discriminant syntactic analysis model
decision-making syntactic analysis model
constraint satisfaction syntactic analysis model
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于BERT和图注意力网络的篇章级事件论元识别
16
作者
王凯
廖涛
机构
安徽理工大学计算机科学与工程学院
出处
《现代计算机》
2024年第6期14-19,64,共7页
基金
国家自然科学基金面上项目(62076006)
安徽省高等学校自然研究基金资助项目(KJ2016A202)
安徽省高校优秀青年人才支持计划项目(gxyq2017007)。
文摘
事件论元识别是事件抽取的子任务之一,其目的在于识别文本中与事件相关的论元及论元对应的论元角色。研究表明,句子的依存句法关系有助于事件论元任务识别,然而,在构造篇章的依存句法关系时容易引入不相关的论元产生噪声问题,现有方法对噪声问题处理不佳。针对该问题,提出了一个基于BERT和图注意力网络的篇章级事件论元识别模型。该模型从两个角度去解决噪声问题,一方面,通过获取充分的篇章语义特征作为辅助,去构建更有效的篇章依存句法特征;另一方面,采用图注意力网络对不同的论元节点分配不同的权重,从而去除掉无效的论元。在RAMS语料库上的实验结果表明,该方法有效解决了篇章依存句法关系中存在的噪声问题,取得了较好的篇章级事件论元识别结果。
关键词
篇章级事件论元识别
依存句法关系
BERT
图注意力网络
Keywords
document level event argument recognition
dependency syntactic relation
BERT
graph attention network
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 融合语义和句法信息的方面情感三元组抽取
17
作者
李言博
何庆
陆顺意
机构
贵州大学大数据与信息工程学院
出处
《计算机应用》
CSCD
北大核心
2024年第10期3275-3280,共6页
基金
国家自然科学基金资助项目(62166006)
贵州省省级科技计划项目(黔科合支撑[2023]一般093,黔科合ZK字[2021]335)。
文摘
方面情感三元组抽取(ASTE)是方面情感分析中一项极具挑战性的子任务,目的是提取所给句子中的方面项、观点项和对应的情感极性。现有的面向ASTE任务的模型分为流水线模型和端到端模型。针对流水线模型易受到错误传播的影响,且大部分现有端到端模型忽略了句子中丰富的句法信息问题,提出一种语义和句法增强的双通道方面情感三元组抽取模型(SSED-ASTE)。首先,使用BERT(Bidirectional Encoder Representation from Transformers)编码器对上下文编码;其次,使用双向长短期记忆(Bi-LSTM)网络捕捉上下文语义依赖关系;再次,通过2个并行的图卷积网络(GCN)分别使用自注意力机制和依存句法分析提取语义特征和句法特征并融合;最后,使用网格标记方案(GTS)抽取三元组。在4个公开数据集上进行实验分析,与GTS-BERT模型相比,所提模型的F1值分别提升了0.29、1.50、2.93和0.78个百分点。实验结果表明,所提模型可以有效利用句子中隐含的语义信息和句法信息,实现较准确的三元组抽取。
关键词
情感分析
方面情感三元组抽取
依存句法分析
自注意力机制
图卷积网络
Keywords
sentiment analysis
Aspect Sentiment Triplet Extraction(ASTE)
dependency syntactic parsing
selfattention mechanism
Graph Convolutional Network(GCN)
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于知识图谱Neo4j的转向架知识库构建
被引量:2
18
作者
马付建
李锡伟
黄文丽
机构
大连交通大学机械工程学院
出处
《大连交通大学学报》
CAS
2023年第5期79-85,共7页
基金
2020年工业互联网创新发展项目
辽宁省自然科学基金项目(2021-MS-295)
辽宁省教育厅科学研究计划项目(JDL2020015)。
文摘
针对转向架设计加工知识内容复杂、形式不统一、知识重用困难等问题,开展了基于图谱处理转向架知识的可行性研究。对收集的转向架知识基于数据类型特征进行分类,通过特征编码方式对离散型数据进行处理,利用实体识别和依存句法分析对文本型数据进行分解抽取与重组,以三元组形式建立文本型数据的知识图谱表达,并对离散型数据和文本型数据进行组合,建立了转向架知识的Neo4j图谱数据库,实现了转向架设计与加工中大量文本信息与离散信息的处理及高效重用,验证了利用知识图谱处理转向架知识的可行性。
关键词
转向架
特征编码
依存句法分析
知识图谱
数据库
Keywords
bogie
feature coding
dependency syntactic parsing
knowledge map
database
分类号
U270.33
[机械工程—车辆工程]
TP391.1
[交通运输工程—载运工具运用工程]
题名 融合注意力及句法的短文本相似度计算方法
被引量:3
19
作者
蔚佳璇
张起贵
机构
太原理工大学信息与计算机学院
出处
《计算机工程与设计》
北大核心
2022年第11期3127-3134,共8页
基金
山西省基础研究项目自然科学基金项目(2013011017-3)
太原理工大学科技创新基金项目(9002-03011843)。
文摘
针对短文本相似度计算中无法充分利用文本中不同部分的不同重要性且较少考虑句法信息而导致准确率较低的问题,提出一种融合注意力及句法信息的短文本相似度计算方法。通过在语义相似度部分设计混合注意力结构体系,准确提取交互信息,凸显不同粒度的重要程度;在句法结构模块提出一种基于图的依存分析方法准确分析文本的依存关系,构建关系矩阵,计算结构相似度;对两者进行加权融合。实验结果表明,该方法获得的准确率及F1值有所提高,结果优于其它文本相似度方法。
关键词
短文本相似度
混合注意力机制
依存句法分析
关系矩阵
加权融合
Keywords
short text similarity
hybrid attention mechanism
dependency syntactic analysis
relation matrix
weighted fusion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于长句简化的中文开放关系抽取
20
作者
熊建华
韩永国
廖竞
寇露彦
吴昌述
机构
西南科技大学计算机科学与技术学院
出处
《计算机技术与发展》
2023年第2期203-207,213,共6页
基金
国防基础计划科研项目(JCKY2019204B007)。
文摘
目前中文开放关系抽取的主流方法是根据句法分析结果制定抽取规则进行抽取,这种方法严重依赖于自然语言处理工具的处理效果。当文本句子长度较长时,自然语言处理工具准确性较低,关系抽取质量也随之下降。因此,提出了一种基于长句简化的开放关系抽取方法。首先,基于序列到序列模型框架对文本中的长句进行化简;然后,利用词法和句法规则对化简后的各个子句分别进行关系抽取。长句简化部分,将BERT的双向Transformer结构作为序列到序列模型的主体,输入端通过BERT-WWM预训练模型获取句子的文本向量,解码器利用UniLM的Seq2Seq Mask机制进行解码。关系抽取部分,首先,根据依存句法分析结果抽取出主谓宾结构的基础关系数据。然后,再根据词法、句法信息对实体和关系词进行补充。实验结果表明,该方法有效提高了对复杂长句的开放关系抽取的准确率和召回率。最后,对抽取的关系数据进行了错误分析,并对错误种类进行了归纳,为以后的开放关系抽取研究提供了参考。
关键词
开放关系抽取
长句简化
依存句法分析
序列到序列模型
BERT模型
Keywords
open relation extraction
long sentence simplification
dependency syntactic analysis
sequence to sequence model
BERT model
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]