-
题名实体提及的多层嵌套识别方法研究
被引量:4
- 1
-
-
作者
刘非凡
赵军
徐波
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2007年第2期14-21,共8页
-
基金
国家自然科学基金资助项目(60372016)
北京市自然科学基金资助项目(4052027)
-
文摘
实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction,ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,代词性)的多层嵌套识别进行了研究。我们将嵌套实体识别分成两个子任务:嵌套实体边界检测和实体多层信息标注。首先,本文提出了一种层次结构信息编码方法,将多层嵌套边界检测问题转化为传统的序列标注问题,利用条件随机场模型融合多种特征进行统计决策。其次,将多层信息标注问题看作分类问题,从实现的角度设计了含有两个分类引擎的并行SVM分类器,避免了对每层信息标注都设计一个分类器,比采用单一分类器在性能上有明显提高。在标准ACE语料上的实验表明,基于条件随机场的多层实体边界检测模型正确率达到71%,融合特征选择策略的两个并行分类引擎的正确率也分别达到了89.05%和82.17%。
-
关键词
人工智能
自然语言处理
实体提及嵌套识别
条件随机场
支持向量机
-
Keywords
artificial intelligence
natural language processing
nested entity mention recognition
conditional random fields
support vector machine
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-