-
题名融入结构化信息的端到端中文指代消解
被引量:1
- 1
-
-
作者
付健
孔芳
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第1期45-51,共7页
-
基金
国家自然科学基金(61876118)
国家自然科学基金人工智能基础研究应急管理项目(61751206)
国家重点研发计划子课题(2017YFB1002101)
-
文摘
在LEE等人提出的端到端指代消解模型基础上,考虑中文行文特点,提出一种融合结构化信息的中文指代消解模型。压缩文档中所进行有句子对应的成分句法树并获取文档压缩树叶节点深度,采用成分句法树的结构化嵌入(SECT)方法将结构信息进行向量化处理,将词性、文档压缩树叶节点深度与SECT信息作为3个特征向量引入模型中进行中文指代消解。在CoNLL2012数据集中的测试结果表明,通过结合上述3个特征,可使该模型的中文指代消解性能得到有效提高,其平均F1值可达62.33%,较基准模型提升5.28%。
-
关键词
端到端指代消解
结构化嵌入
词性
成分句法树
文档句法压缩树
-
Keywords
end to end coreference resolution
structural embedding
part of speech
constituency tree
document syntactic compression tree
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名综合成分句法分析的技术名称识别
- 2
-
-
作者
朱俊杰
余丽
李圣文
周长征
-
机构
中国地质大学(武汉)计算机学院
中国工程科技前沿交叉战略研究中心(北京理工大学)
十堰巨能电力设计有限公司
-
出处
《计算机应用》
CSCD
北大核心
2024年第4期1072-1079,共8页
-
基金
国家自然科学基金资助项目(42071382)。
-
文摘
技术名称是科技领域中用于准确交流信息的术语,自动识别技术名称可以帮助专家和大众发现、认知、应用新技术,具有重要价值;而基于无监督的方法在识别技术名称时存在规则复杂、适应性差等问题。为了提升从文本中识别技术名称的能力,提出一种综合成分句法的技术名称识别方法。首先,通过成分句法分析构造句法结构树;其次,从自上而下和自下而上这两个角度抽取候选技术名称;最后,融合统计频次和语义信息,以选取最优技术名称。此外,构建一个技术术语数据集以验证所提方法的有效性。在该数据集上的实验结果表明,相较于基于依存关系的方法,所提基于自下而上的方法的F1值提高了4.55个百分点;同时在3D打印领域进行了案例分析,发现所提方法识别的技术名称与该名称对应领域的发展契合,可用于回溯技术的发展历程和描绘技术的演化路径,为理解、发现、探索领域未来技术提供参考。
-
关键词
技术名称识别
成分句法分析
无监督方法
成分句法树
术语抽取
-
Keywords
technology term recognition
constituency parsing
unsupervised method
constituency parsing tree
term extraction
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名融入结构信息的指代消解
被引量:1
- 3
-
-
作者
付健
孔芳
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2020年第3期231-236,共6页
-
基金
国家自然科学基金(61876118)
人工智能应急项目(61751206)
国家重点研发计划子课题(2017YFB1002101)~~
-
文摘
随着深度学习的兴起与发展,越来越多的学者开始将深度学习技术应用于指代消解任务中。但现有的神经指代消解模型普遍只关注文本的线性特征,忽略了传统方法中已证明非常有效的结构信息的融入。以目前表现最佳的Lee等提出的神经网络模型为基础,借助成分句法树对上述问题进行了改进:1)提出了一种枚举句法树中以结点为短语的抽取策略,避免了暴力枚举策略所受到的长度限制与不符合句法规则的短语集噪音的引入;2)利用树的遍历得到结点序列,结合结点的高度与路径等特征,直接对成分句法树进行上下文表示并将其融入模型中,避免了只使用字、词序列而产生的结构信息缺失问题。在CoNLL 2012 Shared Task的数据集上对所提模型进行了一系列实验,实验结果显示,其中文指代消解的F 1值达到了62.35,英文指代消解的F 1值也达到了67.24,从而验证了所提结构信息融入策略能大大提升指代消解的性能。
-
关键词
指代消解
成分句法树
结构信息
高度特征
嵌入
-
Keywords
Coreference resolution
constituency parse tree
Structural information
Height features
Embedding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-