汉语名词短语的内部结构复杂,找出名词短语内部嵌套的最长名词性成分,有助于消解底层句法歧义,挖掘论元结构和语义关系。文章分析了汉语内层最长名词短语的多层级分布特征,指出数据稀疏、结构歧义和边界歧义是识别的难点,并提出了一种...汉语名词短语的内部结构复杂,找出名词短语内部嵌套的最长名词性成分,有助于消解底层句法歧义,挖掘论元结构和语义关系。文章分析了汉语内层最长名词短语的多层级分布特征,指出数据稀疏、结构歧义和边界歧义是识别的难点,并提出了一种基于条件随机场模型和基本名词块提升规则的识别方法,取得了85.23%的结构正确率和78.71%的结构召回率。实验结果表明,上层结构误识、联合结构、“v n n”格式、De后主谓结构和特殊歧义序列等造成的歧义是制约识别效果的主要原因。解决这些问题需要更多句法语义知识的参与,如在词汇层面收录含v简单组块,在句法层面引入句法规则验证机制等。展开更多
文摘汉语名词短语的内部结构复杂,找出名词短语内部嵌套的最长名词性成分,有助于消解底层句法歧义,挖掘论元结构和语义关系。文章分析了汉语内层最长名词短语的多层级分布特征,指出数据稀疏、结构歧义和边界歧义是识别的难点,并提出了一种基于条件随机场模型和基本名词块提升规则的识别方法,取得了85.23%的结构正确率和78.71%的结构召回率。实验结果表明,上层结构误识、联合结构、“v n n”格式、De后主谓结构和特殊歧义序列等造成的歧义是制约识别效果的主要原因。解决这些问题需要更多句法语义知识的参与,如在词汇层面收录含v简单组块,在句法层面引入句法规则验证机制等。