摘要
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.
Prepositional phrase which is constructed of a preposition and its reference is important in syntactic analysis.Tests choose the corpus of People's Daily based on word segmentation,tagging,and annotation of prepositional phrases.From which,61 frequently used prepositions are chosen;Statistical models such like SVM,ME and CRF are used to automatically identify the boundary of prepositional phrases.The results of test show that CRF outperform the other two models,it achieves a micro precision of 95.68%.
出处
《河南大学学报(自然科学版)》
CAS
北大核心
2011年第6期636-640,共5页
Journal of Henan University:Natural Science
基金
国家自然科学基金资助项目(60970083)
北京大学计算语言学教育部重点实验室开放课题基金资助项目(KLCL-1004)
河南省科技创新人才杰出青年基金项目(104100510026)