-
题名汉语篇章微观话题结构建模与语料库构建
被引量:9
- 1
-
-
作者
奚雪峰
褚晓敏
孙庆英
周国栋
-
机构
苏州大学计算机科学与技术学院
苏州科技大学计算机科学与工程系
苏州市虚拟现实智能交互及应用技术重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2017年第8期1833-1852,共20页
-
基金
国家自然科学基金项目(61331011
61673290
61472264)~~
-
文摘
篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论和宾州篇章树库体系的优势,结合汉语复句句群理论以及汉语自身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并借助微观话题链构建了汉语篇章话题结构表示体系.随后,在此基础上,采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于篇章微观话题表示体系的汉语篇章话题结构语料库(Chinese discourse topic corpus,CDTC).CDTC共包含500个文档,对其进行了详细统计分析并展示了语料库的标注情况.与宾州篇章树库体系、广义话题结构理论的对比表明,所提篇章微观话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持.
-
关键词
篇章话题结构
主位-述位理论
主位推进
话题链
语料库构建
-
Keywords
discourse topic structure
theme-rheme theory
thematic progression
topic chain
corpus construction
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语篇章理解研究综述
被引量:5
- 2
-
-
作者
孔芳
王红玲
周国栋
-
机构
苏州大学计算机科学与技术学院自然语言处理实验室
江苏省计算机信息处理技术重点实验室
-
出处
《软件学报》
EI
CSCD
北大核心
2019年第7期2052-2072,共21页
-
基金
国家自然科学基金(61751206,61876118,61673290)~~
-
文摘
人们理解自然语言通常是在篇章级进行的,随着词汇级及句子级研究的日益成熟,自然语言处理研究的焦点已转向篇章级。篇章分析的主要任务就是从整体上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章。根据不同的篇章分析目的,篇章单元及其关系可以表示为不同的篇章基本结构,不同篇章基本结构及其关系的研究可提供不同层面的篇章理解。目前对汉语篇章内在规律的研究较少,缺乏对篇章进行有效分析和深入理解的理论方法体系,这严重制约了篇章级的相关研究及应用。重点关注篇章的两个最基本特征,即衔接性和连贯性,从篇章结构分析的理论研究、资源建设和计算模型这3个方面,分别探讨篇章修辞结构(体现篇章连贯性)和话题结构(体现篇章衔接性),对篇章理解的国内外研究现状进行了归纳和整理,并给出了目前存在的主要问题和研究趋势。
-
关键词
自然语言理解
篇章分析
篇章修辞结构
篇章话题结构
-
Keywords
natural language understanding
discourse analysis
discourse rhetorical structure
discourse topic structure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向意图性的篇章话题结构分析研究与展望
被引量:4
- 3
-
-
作者
奚雪峰
孙庆英
周国栋
-
机构
苏州大学计算机科学与技术学院
苏州科技大学电子与信息工程学院
苏州市虚拟现实智能交互及应用技术重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第12期2769-2794,共26页
-
基金
国家自然科学基金(61331011,61472264)
苏州市科技发展计划(重点实验室SZS201609)项目资助~~
-
文摘
篇章话题结构分析主要针对篇章的意图性,是篇章语义分析的基础,其主要任务是从整体层次上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.篇章分析既需要研究篇章的基本构成单元,更需要研究基本构成单元之间的篇章关系.然而当前自然语言处理的研究重心大都集中在词法和句法领域,而忽略了对篇章内在规律的研究,缺乏对篇章话题结构展开有效分析的系统理论方法,这就极大阻碍了基于篇章语义分析的相关应用.本文首先从篇章衔接性和连贯性两个基本特征入手,讨论了篇章话题结构分析的国内外研究现状,从理论体系探索、语料库构建和计算模型三方面展开详细综述,分析对比了各类理论、资源及其模型的特点.其中,理论部分代表性的工作包括语域加衔接理论,Hobbs模型,修辞结构理论,PDTB体系,意图结构理论,宏观结构理论等;资源部分主要工作有修辞结构篇章树库、宾州篇章树库、MUC语料、ACE评测语料、ARRAU、OntoNotes和篇章图库等;在计算模型方面,主要围绕上述理论和技术资源展开相关研究;随后,特别讨论了汉语篇章话题结构的最新研究进展.基于上述讨论,本文分析探索了基于主述位理论的篇章微观话题结构表示体系,并描述了相应语料库资源的构建及其一致性检验;篇章微观话题结构形式化表示为一个三元组,其主要特征是一种链式结构,链结点为篇章基本话题(子句),其内部的主位或述位为连接端,连接端之间通过微观话题联接建立起连接关系,其实质是一种语义关联,体现篇章之间的衔接关系.最后,本文还对篇章话题结构研究的未来发展方向进行了总结展望.
-
关键词
篇章话题结构
篇章理论
语料库标注
计算模型
篇章意图性
篇章语义分析
-
Keywords
discourse topic structure
discourse theory
corpus annotation
computational modeling
discourse intentionality
discourse semantic analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-