期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
两岸三地外国人名地名翻译异同对比 被引量:9
1
作者 周风琴 《皖西学院学报》 2009年第4期131-134,共4页
我国近代由于历史上被割裂、地理上被分割,加之文化发展及其方言的使用,使得香港、台湾与内地在对待外国专有名词的翻译上存在较大的差别。在两岸三地语言生活中,典型差异之一是对待外国人名地名的翻译。两岸三地外国人名地名的翻译差... 我国近代由于历史上被割裂、地理上被分割,加之文化发展及其方言的使用,使得香港、台湾与内地在对待外国专有名词的翻译上存在较大的差别。在两岸三地语言生活中,典型差异之一是对待外国人名地名的翻译。两岸三地外国人名地名的翻译差异给两岸三地人民的生活、文化交流与经济的发展带来较大的负面影响,因此有一定的意义和价值来做一番对比研究。 展开更多
关键词 两岸三地 人名地名 翻译
下载PDF
汉语人名地名音译词的“义溢出”现象探析 被引量:3
2
作者 林木森 《福建师大福清分校学报》 2006年第4期46-49,共4页
汉语对外国人名、地名的翻译,一般采用音译。由于汉语本身的特殊性,其音译只能借助汉字,因此汉语人名、地名音译词的“义溢出”现象不可避免。本文就这一有趣现象的三个方面即人名中的姓名义溢出、人名中的性别义溢出及人名、地名中的... 汉语对外国人名、地名的翻译,一般采用音译。由于汉语本身的特殊性,其音译只能借助汉字,因此汉语人名、地名音译词的“义溢出”现象不可避免。本文就这一有趣现象的三个方面即人名中的姓名义溢出、人名中的性别义溢出及人名、地名中的褒贬义溢出分别作了探讨,并简要分析了拼音文字之间的音译和西方语言与汉语之间的音译存在的差异。 展开更多
关键词 人名 地名 音译 义溢出
下载PDF
汉字文化圈的人名用字规划实践 被引量:2
3
作者 李丽 赵守辉 孙晓曦 《语言文字应用》 CSSCI 北大核心 2013年第1期28-37,共10页
专名问题在任何文化中都可以成为语言管理中重要的社会语言学问题。在汉字文化圈政体中,汉字在人名中的使用及其音译转写有鲜明的个性。本文从语言规划角度考察汉字文化圈中几个政体的人名规划及命名实践,旨在通过不同社会政治背景下人... 专名问题在任何文化中都可以成为语言管理中重要的社会语言学问题。在汉字文化圈政体中,汉字在人名中的使用及其音译转写有鲜明的个性。本文从语言规划角度考察汉字文化圈中几个政体的人名规划及命名实践,旨在通过不同社会政治背景下人名规划中所发生的与汉字相关的问题及解决方案,帮助我们更全面地理解专名规划的复杂性,特别是为人名用字规范化研究和实践提供借鉴。 展开更多
关键词 汉字 语言规划 人名 文化
下载PDF
网络新闻口语评论文本中人物对象识别方法 被引量:2
4
作者 林琛 李弼程 周杰 《中文信息学报》 CSCD 北大核心 2010年第4期25-31,共7页
网络新闻口语评论文本中的人物对象是网络舆情的重要内容,是口语评论情感倾向性分析的基础。该文结合新闻口语评论中人物对象特点,提出了一种有效的人物对象自动识别方法。该方法首先在分词基础上,采用多频率综合判别对单字作为人物对... 网络新闻口语评论文本中的人物对象是网络舆情的重要内容,是口语评论情感倾向性分析的基础。该文结合新闻口语评论中人物对象特点,提出了一种有效的人物对象自动识别方法。该方法首先在分词基础上,采用多频率综合判别对单字作为人物对象的可靠度进行评估,以获得稳定的识别线索;其次,根据线索划定处理窗口,利用改进频繁项挖掘算法,从窗口中提取候选人物对象;最后,对结果中存在的冗余进行优化处理。实验结果表明,新方法能够完整、有效地识别网络新闻口语评论文本中的人物对象。 展开更多
关键词 计算机应用 中文信息处理 网络舆情 口语评论 人物对象 频繁项挖掘
下载PDF
敦煌文献同人异称研究 被引量:1
5
作者 鲍宗伟 《敦煌研究》 CSSCI 北大核心 2021年第2期124-130,共7页
敦煌文献中的大量人名,不但是敦煌历史人物研究的重要宝库,也是对敦煌写卷断代的重要依据。敦煌人名的形式极其复杂。写卷先后延续,有些人出现在敦煌文献的时间跨度长达60年,人物的称谓随着身份地位的改变而改变;写手的文化素养或者用... 敦煌文献中的大量人名,不但是敦煌历史人物研究的重要宝库,也是对敦煌写卷断代的重要依据。敦煌人名的形式极其复杂。写卷先后延续,有些人出现在敦煌文献的时间跨度长达60年,人物的称谓随着身份地位的改变而改变;写手的文化素养或者用字习惯不同,或异体俗字,或同音替代,或删简省略,同一人的名字往往有若干不同的变体。这些不同称谓与变体,使同一人的材料被分割得支离破碎,看似毫无关系。对同一人的不同称谓与人名变体的认同是推动敦煌人物与历史研究的前提条件。本文主要讨论敦煌文献同一人名的异称,钩连考索同一名字的不同变体,共分四个部分:音近相代、人名简省、俗名与法名、人物代称等。 展开更多
关键词 敦煌文献 人名 异称
下载PDF
基于统计方法的中文姓名识别 被引量:48
6
作者 刘秉伟 黄萱菁 +1 位作者 郭以昆 吴立德 《中文信息学报》 CSCD 北大核心 2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ... 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。 展开更多
关键词 自动分词 未登录词 中文姓名识别 统计方法
下载PDF
基于支持向量机的中国人名的自动识别 被引量:9
7
作者 李丽双 黄德根 +1 位作者 毛婷婷 徐潇潇 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期188-190,201,共4页
提出并实现了一种基于支持向量机(SVM)的中文文本中人名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多项式Kernel函数的测试,得到了用... 提出并实现了一种基于支持向量机(SVM)的中文文本中人名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多项式Kernel函数的测试,得到了用支持向量机进行人名识别的机器学习模型。实验结果表明,所建立的SVM人名识别模型是有效的。 展开更多
关键词 支持向量机 中文文本 人名识别 机器学习
下载PDF
基于混合模型的中国人名自动识别 被引量:10
8
作者 毛婷婷 李丽双 黄德根 《中文信息学报》 CSCD 北大核心 2007年第2期22-28,共7页
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给... 本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。 展开更多
关键词 计算机应用 中文信息处理 支持向量机 概率统计 混合模型 人名识别
下载PDF
基于规则的纪传体古代汉语文献姓名识别 被引量:9
9
作者 皇甫晶 王凌云 《图书情报工作》 CSSCI 北大核心 2013年第3期120-124,共5页
设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志.蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则... 设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志.蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则的方法对于识别纪传体古代汉语文献中的姓名是可行的。 展开更多
关键词 命名实体识别 中文姓名识别 古代汉语文献 纪传体 基于规则
原文传递
西方姓名译名的自动识别研究 被引量:1
10
作者 孔祥龙 卢鹏 +1 位作者 陆汝占 刘绍明 《计算机仿真》 CSCD 2004年第8期145-148,共4页
西方姓名译名的自动识别为汉语自动分词不可或缺的组成部分。该文以西方姓名译名用字信息为基础,充分利用标准词表来限制西方姓名译名的过度生长能力,并使用首尾逼近和局部频率等方法来进一步改善识别效果,并且针对西方姓名译名的特点... 西方姓名译名的自动识别为汉语自动分词不可或缺的组成部分。该文以西方姓名译名用字信息为基础,充分利用标准词表来限制西方姓名译名的过度生长能力,并使用首尾逼近和局部频率等方法来进一步改善识别效果,并且针对西方姓名译名的特点进行了有针对性的处理。对真实语料进行测试,正确率达到96.87%,召回率达到97.20%。 展开更多
关键词 西方姓名译名 专名识别 标准词表 局部频率
下载PDF
基于词性探测的中文姓名识别算法 被引量:2
11
作者 王源媛 何中市 《计算机科学》 CSCD 北大核心 2005年第4期84-86,共3页
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效... 本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。 展开更多
关键词 中文姓名 识别算法 一体化处理 识别方法 探测算法 词性标注 分词
下载PDF
英语人名的汉译名平行识别 被引量:1
12
作者 冯敏萱 《语言文字应用》 CSSCI 北大核心 2010年第3期139-144,共6页
英语人名的汉译名(CTEN)识别是未登录词中专有名词识别的重要内容。在英汉平行语料库的加工中,CTEN的识别成绩大大影响了其中汉语文本的分词和词性标注精确率。基于CTEN用字与英语人名字母串的音字匹配思想,本文运用平行处理法,在10万... 英语人名的汉译名(CTEN)识别是未登录词中专有名词识别的重要内容。在英汉平行语料库的加工中,CTEN的识别成绩大大影响了其中汉语文本的分词和词性标注精确率。基于CTEN用字与英语人名字母串的音字匹配思想,本文运用平行处理法,在10万句对的大规模英汉平行语料中作了CTEN识别,精确率为99.46%,召回率为92.88%,F值为96.06%。 展开更多
关键词 英语入名 汉译名 平行语料 自动识别 中文信息处理
下载PDF
搜索日志中中文人名自动识别 被引量:1
13
作者 王玥 吕学强 +1 位作者 李卓 舒燕 《中文信息学报》 CSCD 北大核心 2015年第3期162-168,176,共8页
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方... 搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的中文人名。在搜狗查询日志上进行实验,正确率平均达到了81.97%、召回率平均达到了85.81%,综合指标F值平均达到了83.79%。 展开更多
关键词 人名识别 搜索日志 条件随机场 可信度
下载PDF
交通管理领域的中文分词算法及应用研究
14
作者 熊桂喜 姚丽 《微计算机信息》 2009年第30期135-136,215,共3页
在分析智能交通管理(ITMS)领域特点的基础上,提出了适于ITMS的分词算法。使用特征词处理规则、专有词典和专有地名库切分出特征词、专有词和地名,应用N-最短路径法和基于一阶马尔可夫模型最小交叉熵方法做歧义处理,基于角色标注的方法... 在分析智能交通管理(ITMS)领域特点的基础上,提出了适于ITMS的分词算法。使用特征词处理规则、专有词典和专有地名库切分出特征词、专有词和地名,应用N-最短路径法和基于一阶马尔可夫模型最小交叉熵方法做歧义处理,基于角色标注的方法识别人名,从N个最有潜力的候选结果中选优得到切分结果。在ITMS领域的测试集下分词系统的准确率和召回率分别达到96.3%和95.0%。 展开更多
关键词 智能交通管理 中文分词 人名识别 地名识别 专有词
下载PDF
说“辟彊”
15
作者 张传官 《中国语文》 北大核心 2023年第2期219-229,256,共12页
“辟彊”是我国古代常见的人名,关于其取意,唐代颜师古曾罗列“辟御彊梁”和“开辟疆土”二说,未有定论。本文通过对“强”“彊”和“疆”三字的文字学关系(尤其是其用字习惯)进行考察,结合先秦以迄近现代的人名“辟彊”“辟强”和“辟... “辟彊”是我国古代常见的人名,关于其取意,唐代颜师古曾罗列“辟御彊梁”和“开辟疆土”二说,未有定论。本文通过对“强”“彊”和“疆”三字的文字学关系(尤其是其用字习惯)进行考察,结合先秦以迄近现代的人名“辟彊”“辟强”和“辟疆”,对人名“辟彊”的取意加以详细辨析,探讨颜氏二说的有关证据,认为:“辟彊”最初只有“开辟疆土”之意;由于用字习惯的变化以及后人的误会,从魏晋时期开始,出现“辟御彊梁”这一新解,并为后人所接受而行用于世。这种误解的产生和传播,导致魏晋以后的历史中同时存在两种说法,本研究为人名“辟彊”的变化及其历史背景提供了更为丰富的材料。 展开更多
关键词 辟彊 “强”“彊”和“疆” 辟御彊梁 开辟疆土 人名
原文传递
数字图书馆责任者名称规范控制的系统支持研究 被引量:1
16
作者 蔡屏 《图书馆论坛》 CSSCI 北大核心 2011年第1期73-76,共4页
责任者名称(个体和团体)的规范与否对数字图书馆目录的两大功能具有重大的影响。文章运用实体—关系模型即E-R模型描述了责任者名称(实体)的变化、实体的属性及相互关系;通过属性、关系对用户需求的映射,运用SQL解决名称变化对检索结果... 责任者名称(个体和团体)的规范与否对数字图书馆目录的两大功能具有重大的影响。文章运用实体—关系模型即E-R模型描述了责任者名称(实体)的变化、实体的属性及相互关系;通过属性、关系对用户需求的映射,运用SQL解决名称变化对检索结果产生的不利影响,从而提升目录的两大功能。 展开更多
关键词 关系数据库管理系统 数字图书馆 个人名称 团体名称
下载PDF
一种基于可信度的人名识别方法 被引量:20
17
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
下载PDF
一种基于条件随机场的人名识别方法 被引量:6
18
作者 郭家清 蔡东风 +1 位作者 王智超 刘浩公 《通讯和计算机(中英文版)》 2007年第2期22-25,共4页
本文提出了一种基于统计的中文人名识别方法,此方法使用最大概率分词模型对源句子进行粗切分,将粗切分信息融入到条件随机场模型中进行模型的训练。运用此方法分别对来自同一源语料的测试集和非同源语料的测试集进行了测试,F-值分别... 本文提出了一种基于统计的中文人名识别方法,此方法使用最大概率分词模型对源句子进行粗切分,将粗切分信息融入到条件随机场模型中进行模型的训练。运用此方法分别对来自同一源语料的测试集和非同源语料的测试集进行了测试,F-值分别达到了91.3%和90.6%,证明了此方法的有效性。 展开更多
关键词 人名识别 条件随机场 最大概率分词 识别方法
下载PDF
基于关键证据与E^2LSH的增量式人名聚类消歧方法 被引量:6
19
作者 周杰 李弼程 唐永旺 《情报学报》 CSSCI 北大核心 2016年第7期714-722,共9页
搜索引擎中关于人名的相关文档往往数据量庞大,且数据为增量式更新过程,新文档出现的时间与规模都存在不确定性。现有的方法多为全局的人名聚类方法,在处理大规模数据时往往效率较低,且无法实现增量聚类。本文提出了一种基于关键证据与E... 搜索引擎中关于人名的相关文档往往数据量庞大,且数据为增量式更新过程,新文档出现的时间与规模都存在不确定性。现有的方法多为全局的人名聚类方法,在处理大规模数据时往往效率较低,且无法实现增量聚类。本文提出了一种基于关键证据与E^2LSH的增量式人名聚类消歧方法。对于初始文档集,采用全局的人名聚类方法,保证聚类性能且能有效控制全局聚类的文档规模,提高聚类效率。对于增量文档集,利用提出的关键证据与E2LSH方法生成候选文档集,极大降低了需要计算相似度的文档规模,提高方法效率。实验结果表明,本文提出的增量式人名聚类消歧方法能有效改善人名聚类的效率,且具有良好的性能。 展开更多
关键词 人名消歧 增量聚类 关键证据 E2LSH 大规模文档
下载PDF
基于置信度的藏文人名识别的主动学习模型研究 被引量:4
20
作者 王志娟 刘飞飞 +1 位作者 赵小兵 宋伟 《中文信息学报》 CSCD 北大核心 2019年第8期53-59,共7页
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并... 训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。 展开更多
关键词 藏文人名识别 主动学习 置信度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部