-
题名短语结构树库向依存结构树库转化研究
被引量:12
- 1
-
-
作者
李正华
车万翔
刘挺
-
机构
哈尔滨工业大学计算机科学与技术学院信息检索研究室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第6期14-19,共6页
-
基金
自然科学基金资助项目(60675034
60575042)
国家863计划资助项目(2006AA01Z145)
-
文摘
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。
-
关键词
计算机应用
中文信息处理
短语结构树库
依存结构树库
依存句法分析
-
Keywords
computer application
Chinese information processing
constituent-based treebank
dependency treebank
dependency parsing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-