期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于词性探测的中文姓名识别算法 被引量:2
1
作者 王源媛 何中市 《计算机科学》 CSCD 北大核心 2005年第4期84-86,共3页
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效... 本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。 展开更多
关键词 中文姓名 识别算法 一体化处理 识别方法 探测算法 词性标注 分词
下载PDF
基于统计方法的中文姓名识别 被引量:48
2
作者 刘秉伟 黄萱菁 +1 位作者 郭以昆 吴立德 《中文信息学报》 CSCD 北大核心 2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ... 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。 展开更多
关键词 自动分词 未登录词 中文姓名识别 统计方法
下载PDF
基于规则的纪传体古代汉语文献姓名识别 被引量:9
3
作者 皇甫晶 王凌云 《图书情报工作》 CSSCI 北大核心 2013年第3期120-124,共5页
设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志.蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则... 设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志.蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则的方法对于识别纪传体古代汉语文献中的姓名是可行的。 展开更多
关键词 命名实体识别 中文姓名识别 古代汉语文献 纪传体 基于规则
原文传递
交通管理领域的中文分词算法及应用研究
4
作者 熊桂喜 姚丽 《微计算机信息》 2009年第30期135-136,215,共3页
在分析智能交通管理(ITMS)领域特点的基础上,提出了适于ITMS的分词算法。使用特征词处理规则、专有词典和专有地名库切分出特征词、专有词和地名,应用N-最短路径法和基于一阶马尔可夫模型最小交叉熵方法做歧义处理,基于角色标注的方法... 在分析智能交通管理(ITMS)领域特点的基础上,提出了适于ITMS的分词算法。使用特征词处理规则、专有词典和专有地名库切分出特征词、专有词和地名,应用N-最短路径法和基于一阶马尔可夫模型最小交叉熵方法做歧义处理,基于角色标注的方法识别人名,从N个最有潜力的候选结果中选优得到切分结果。在ITMS领域的测试集下分词系统的准确率和召回率分别达到96.3%和95.0%。 展开更多
关键词 智能交通管理 中文分词 人名识别 地名识别 专有词
下载PDF
英语人名的汉译名平行识别 被引量:1
5
作者 冯敏萱 《语言文字应用》 CSSCI 北大核心 2010年第3期139-144,共6页
英语人名的汉译名(CTEN)识别是未登录词中专有名词识别的重要内容。在英汉平行语料库的加工中,CTEN的识别成绩大大影响了其中汉语文本的分词和词性标注精确率。基于CTEN用字与英语人名字母串的音字匹配思想,本文运用平行处理法,在10万... 英语人名的汉译名(CTEN)识别是未登录词中专有名词识别的重要内容。在英汉平行语料库的加工中,CTEN的识别成绩大大影响了其中汉语文本的分词和词性标注精确率。基于CTEN用字与英语人名字母串的音字匹配思想,本文运用平行处理法,在10万句对的大规模英汉平行语料中作了CTEN识别,精确率为99.46%,召回率为92.88%,F值为96.06%。 展开更多
关键词 英语入名 汉译名 平行语料 自动识别 中文信息处理
下载PDF
基于统计的维文汉文人名音译研究 被引量:1
6
作者 谭煜辉 吐尔根·依布拉音 +1 位作者 艾山·吾买尔 买合木提·买买提 《新疆大学学报(自然科学版)》 CAS 2012年第1期108-111,共4页
传统的维汉人名音译大多是基于规则的,不同于基于语音的音译,本文在直接正字匹配(DOM)的框架下,将统计的思想引入到维汉人名的音译中,采用信源信道模型,将人名看成是特殊的句子,实现了维汉人名的自动音译.实验结果表明,直接正字匹配减... 传统的维汉人名音译大多是基于规则的,不同于基于语音的音译,本文在直接正字匹配(DOM)的框架下,将统计的思想引入到维汉人名的音译中,采用信源信道模型,将人名看成是特殊的句子,实现了维汉人名的自动音译.实验结果表明,直接正字匹配减少了中间过程,从而提高了音译的准确率,而统计的机器翻译方法比较灵活,能利用外来的信息,更加适合进行维汉人名音译. 展开更多
关键词 自然语言处理 统计 音译 维汉人名对
下载PDF
汉—藏人名用字音译规则研究 被引量:3
7
作者 龙从军 豆格才让 刘汇丹 《中文信息学报》 CSCD 北大核心 2018年第3期71-76,共6页
随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一... 随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。 展开更多
关键词 汉—藏人名 人名音译 音译原则
下载PDF
姓名生僻字应用的困境与对策 被引量:3
8
作者 艾卓码 《信息技术与标准化》 2021年第10期77-82,共6页
分析了导致生僻字问题的五个方面的原因:(1)很多信息系统仍在使用GBK编码字符集;(2)自造字导致了生僻字信息不兼容;(3)应用系统拦截身份证在用字;(4)通用操作系统无法显示生僻字;(5)通用输入无法录入生僻字。针对每个问题,给出了相应的... 分析了导致生僻字问题的五个方面的原因:(1)很多信息系统仍在使用GBK编码字符集;(2)自造字导致了生僻字信息不兼容;(3)应用系统拦截身份证在用字;(4)通用操作系统无法显示生僻字;(5)通用输入无法录入生僻字。针对每个问题,给出了相应的技术方案和建议。 展开更多
关键词 姓名生僻字 字库 输入法 编码字符集 GB 18030
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部