-
题名基于长句简化的中文开放关系抽取
- 1
-
-
作者
熊建华
韩永国
廖竞
寇露彦
吴昌述
-
机构
西南科技大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2023年第2期203-207,213,共6页
-
基金
国防基础计划科研项目(JCKY2019204B007)。
-
文摘
目前中文开放关系抽取的主流方法是根据句法分析结果制定抽取规则进行抽取,这种方法严重依赖于自然语言处理工具的处理效果。当文本句子长度较长时,自然语言处理工具准确性较低,关系抽取质量也随之下降。因此,提出了一种基于长句简化的开放关系抽取方法。首先,基于序列到序列模型框架对文本中的长句进行化简;然后,利用词法和句法规则对化简后的各个子句分别进行关系抽取。长句简化部分,将BERT的双向Transformer结构作为序列到序列模型的主体,输入端通过BERT-WWM预训练模型获取句子的文本向量,解码器利用UniLM的Seq2Seq Mask机制进行解码。关系抽取部分,首先,根据依存句法分析结果抽取出主谓宾结构的基础关系数据。然后,再根据词法、句法信息对实体和关系词进行补充。实验结果表明,该方法有效提高了对复杂长句的开放关系抽取的准确率和召回率。最后,对抽取的关系数据进行了错误分析,并对错误种类进行了归纳,为以后的开放关系抽取研究提供了参考。
-
关键词
开放关系抽取
长句简化
依存句法分析
序列到序列模型
BERT模型
-
Keywords
open relation extraction
long sentence simplification
dependency syntactic analysis
sequence to sequence model
BERT model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多策略分析的复杂长句翻译处理算法
被引量:11
- 2
-
-
作者
黄河燕
陈肇雄
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2002年第3期1-7,共7页
-
基金
国家自然科学基金
杰出青年基金(6 992 5 10 2 )支持
-
文摘
在实用机器翻译系统的研究开发中 ,复杂长句的翻译处理是其面临的一个主要难题。本文提出一种多语种通用的基于多策略分析的复杂长句翻译处理算法 ,该算法通过基于实例模式匹配和规则分析相结合的方法 ,综合利用源语言句子中多种相关的语言特征 ,包括语法语义特征、句子长度、标点符号、功能词以及上下文语境条件等对复杂长句进行切分简化处理和译文的复合生成。另一方面 ,通过对不同语种设计相同的知识表示形式 。
-
关键词
复杂长句
翻译处理算法
机器翻译
多策略分析
长句切分简化处理
模式匹配
规则分析
-
Keywords
Machine Translation
hybrid strategy parsing approach
segmentation processing of complex long sentence
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
H085
[自动化与计算机技术—计算机科学与技术]
-