-
题名面向中文的修辞结构关系分类体系及无歧义标注方法
被引量:3
- 1
-
-
作者
侯圣峦
费超群
张书涵
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2019年第7期20-30,共11页
-
基金
国家重点研发计划(2016YFB1000902)
国家自然科学基金(61232015,61472412,61621003)
-
文摘
修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。
-
关键词
自然语言处理
修辞结构理论
修辞结构关系
篇章结构分析
-
Keywords
natural language processing
phetorical structure theory
rhetorical structure relation
discourse parsing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-