-
题名基于支持向量机的中国人名的自动识别
被引量:9
- 1
-
-
作者
李丽双
黄德根
毛婷婷
徐潇潇
-
机构
大连理工大学计算机科学与工程系
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第19期188-190,201,共4页
-
基金
国家自然科学基金资助项目(60373095
60373096)
-
文摘
提出并实现了一种基于支持向量机(SVM)的中文文本中人名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多项式Kernel函数的测试,得到了用支持向量机进行人名识别的机器学习模型。实验结果表明,所建立的SVM人名识别模型是有效的。
-
关键词
支持向量机
中文文本
人名识别
机器学习
-
Keywords
Support vector machines(SVM)
Chinese texts
recognition of person names
Machine learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于混合模型的中国人名自动识别
被引量:10
- 2
-
-
作者
毛婷婷
李丽双
黄德根
-
机构
大连理工大学计算机科学与工程系
-
出处
《中文信息学报》
CSCD
北大核心
2007年第2期22-28,共7页
-
基金
国家自然科学基金资助项目(60373095
60373096)
-
文摘
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。
-
关键词
计算机应用
中文信息处理
支持向量机
概率统计
混合模型
人名识别
-
Keywords
computer application
Chinese information processing
support vector machines
statistical method
hy-brid model
recognition of person names
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名搜索日志中中文人名自动识别
被引量:1
- 3
-
-
作者
王玥
吕学强
李卓
舒燕
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京拓尔思信息技术股份有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期162-168,176,共8页
-
基金
国家自然科学基金(61171159
61271304)
+1 种基金
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
北京信息科技大学网络文化与数字传播北京市重点实验室开放课题(ICDD201203)
-
文摘
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的中文人名。在搜狗查询日志上进行实验,正确率平均达到了81.97%、召回率平均达到了85.81%,综合指标F值平均达到了83.79%。
-
关键词
人名识别
搜索日志
条件随机场
可信度
-
Keywords
recognition of person names
search query logs
conditional random fields
reliability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于规则的纪传体古代汉语文献姓名识别
被引量:9
- 4
-
-
作者
皇甫晶
王凌云
-
机构
陕西科技大学图书馆
广联达软件股份有限公司
-
出处
《图书情报工作》
CSSCI
北大核心
2013年第3期120-124,共5页
-
文摘
设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志.蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则的方法对于识别纪传体古代汉语文献中的姓名是可行的。
-
关键词
命名实体识别
中文姓名识别
古代汉语文献
纪传体
基于规则
-
Keywords
named entity recognition Chinese person names identification ancient Chinese literature annalsbiography (Jizhuan) style ruled-based
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于可信度的人名识别方法
被引量:20
- 5
-
-
作者
罗智勇
宋柔
-
机构
北京工业大学
北京语言大学语言信息处理研究所
-
出处
《中文信息学报》
CSCD
北大核心
2005年第3期67-72,86,共7页
-
基金
国家自然科学基金资助项目 (6 0 2 72 0 5 5 )
国家 86 3计划资助项目 (2 0 0 1AA114 111)
教育部科学技术研究重点资助项目 (0 0 12 8)
-
文摘
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。
-
关键词
计算机应用
中文信息处理
自动分词
人名识别
统计方法
可信度
-
Keywords
computer application
Chinese information processing
word segmentation
recognition of person-names
statistical method
reliability
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-