-
题名信息抽取的语义知识资源研究
被引量:18
- 1
-
-
作者
袁毓林
-
机构
北京大学中文系
-
出处
《中文信息学报》
CSCD
北大核心
2002年第5期8-14,共7页
-
基金
教育部人文社会科学研究"十五"规划第一批研究项目(01JB740006)
-
文摘
本文讨论支持信息抽取的语义资源的建设问题,举例说明了信息抽取至少需要三种层面的语义知识:(i)宏观的话语篇章知识,籍此可以约束信息抽取的匹配模板的类型,预测关键性的信息项目在文本中的分布位置;(ii)中观的论元结构知识,籍此可以建立动词的论元成分跟事件模板的传递与继承关系,帮助确定代词或空语类跟其先行语的回指关系,进而确定其语义所指;(iii)微观的逻辑结构知识,籍此可以确定否定词、量化词、模态词等逻辑算子跟其所约束的成分之间的逻辑关系(比如,哪些成分处于否定的辖域之中,其中哪个成分是否定的焦点,在哪些语法条件下否定词是冗余的,等等)。最后,指出研究这三种语义知识所可利用的几种理论和方法。
-
关键词
信息抽取
语义知识资源
话语篇章
论元结构
逻辑结构
语义标注
语言分析
中文信息处理
-
Keywords
information extraction
semantic knowledge resources
discourse structure
argument structure
logic structure
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于远监督的语义知识资源扩展研究
- 2
-
-
作者
卢达威
王星友
袁毓林
-
机构
北京大学中文系
北京语言大学信息科学学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第6期147-155,共9页
-
基金
教育部人文社会科学研究青年项目(16YJC740050)
中国博士后科学基金第60批面上项目(2016M600838)
+1 种基金
国家社科基金重大招标项目(12&ZD175)
国家重点基础研究计划(973计划)(2014CB340502)
-
文摘
语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。
-
关键词
资源扩展
远监督
语义知识资源
-
Keywords
resource extension
Distant Supervision
semantic knowledge resources
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-