摘要
该文根据中国人名的形成方式,总结和统计了人名的用字特征和边界模板特征,通过计算人名内聚度、人名区分度和边界模板可信度的综合概率作为人名可信度,对文本中人名进行识别或对已识别的人名进行纠正。该文将可信度检测模块嵌入到一个简易的命名实体平台中,在MSRA的语料上进行测试,实验结果说明可信度模型使得平台的人名识别F值提高了2.27%,整个系统的人名识别F值达到了91.72%。
According to the formation of Chinese person name,this paper summarizes the features in name character frequency and name boundary templates.It then combines the probability of cohesion,the probability of discrimination and the trustworthiness of boundary templates as the integrated trustworthiness of human name.This approach has been embedded into a simple named entity recognition platform and tested on the MSRA corpus.The experimental results show that our approach can increase the F measure by 2.27%,achieving a final F measure up to 91.72% for human name recognition.
出处
《中文信息学报》
CSCD
北大核心
2011年第3期45-50,共6页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(90920004
60970056
60873150)
江苏省自然科学基金资助项目(BK2008160)
江苏省高校自然科学重大基础研究资助项目(08KJA520002)
关键词
人名识别
可信度
内聚度
边界模板
Chinese name recognition
trustworthiness
cohesion
boundary templates