期刊文献+
共找到673篇文章
< 1 2 34 >
每页显示 20 50 100
北京大学现代汉语语料库基本加工规范 被引量:126
1
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第5期49-64,共16页
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语... 北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 基本加工规范 词语切分 词性标注 汉字处理系统 名词标注 语素子类标注
下载PDF
中国学生英语写作中的冠词误用现象——一项基于语料库的研究 被引量:93
2
作者 李景泉 蔡金亭 《解放军外国语学院学报》 北大核心 2001年第6期58-62,共5页
本文用语料库方法研究了中国学习者英语语料库 (CLEC)大学英语学习者作文子语料库中出现的冠词误用现象 ,发现冠词误用有一定规律性和变异性 ,按其特点可分三大类 :冠词省略、冠词冗余和冠词混用 ,而且前者比后两者更普遍。这些误用现... 本文用语料库方法研究了中国学习者英语语料库 (CLEC)大学英语学习者作文子语料库中出现的冠词误用现象 ,发现冠词误用有一定规律性和变异性 ,按其特点可分三大类 :冠词省略、冠词冗余和冠词混用 ,而且前者比后两者更普遍。这些误用现象可能由语言迁移、对冠词使用规则的过度概括和对冠词用法没完全掌握引起。 展开更多
关键词 中国学生 英语写作 冠词误用 语料库
下载PDF
中文文本情感分析综述 被引量:70
3
作者 魏韡 向阳 陈千 《计算机应用》 CSCD 北大核心 2011年第12期3321-3323,共3页
由于主观性文本有很多应用价值,情感分析近年来引起了很多研究人员的兴趣。情感分析是对主观性文本进行挖掘与分析,获取有用的知识和信息。针对中文文本情感分析的研究现状与进展进行总结。首先按粒度层次,从词语级、语句级、篇章级三... 由于主观性文本有很多应用价值,情感分析近年来引起了很多研究人员的兴趣。情感分析是对主观性文本进行挖掘与分析,获取有用的知识和信息。针对中文文本情感分析的研究现状与进展进行总结。首先按粒度层次,从词语级、语句级、篇章级三个不同粒度层次细致地介绍相关的技术,再按文本的类型,分析了产品评论和新闻评论的研究进展。接着介绍了中文文本情感分析的评测和相关资源,最后总结了中文文本情感分析的研究难点与未来的研究方向。 展开更多
关键词 情感分析 情感极性 中文文本 评测 语料库
下载PDF
一种规则与统计相结合的汉语分词方法 被引量:35
4
作者 赵伟 戴新宇 +1 位作者 尹存燕 陈家骏 《计算机应用研究》 CSCD 北大核心 2004年第3期23-25,共3页
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。
关键词 中文信息处理 分词 语料库 交集型歧义
下载PDF
面向语料库标注的汉语依存体系的探讨 被引量:39
5
作者 周明 黄昌宁 《中文信息学报》 CSCD 1994年第3期35-52,共18页
实现大规模真实文本的处理,是信息化社会的迫切要求,也是国际计算语言学界的一个战略目标。目前一项迫在眉睫的任务是建立一套满足大规模真实文本处理的语言处理体系,包括分词的标准、词的分类体系、句法体系和语义体系。其中句法体... 实现大规模真实文本的处理,是信息化社会的迫切要求,也是国际计算语言学界的一个战略目标。目前一项迫在眉睫的任务是建立一套满足大规模真实文本处理的语言处理体系,包括分词的标准、词的分类体系、句法体系和语义体系。其中句法体系是核心环节。本文提出并论证了依存语法是合乎大规模真实文本处理要求的句法体系,并结合汉语的特点,研究了汉语的依存语法,划分了44种依存关系。最后简要讨论了依存语法的一些应用。 展开更多
关键词 汉语 依存语法 语料库语言学
下载PDF
时间副词作状语位置的全方位考察 被引量:21
6
作者 杨德峰 《语言文字应用》 CSSCI 北大核心 2006年第2期69-75,共7页
本文对《汉语水平词汇与汉字等级大纲》中的62个时间副词在语料库中的使用情况进行了详细的统计,结果发现有些时间副词既可以出现在主语前,也可以出现在主语后,但有的只能出现在主语后,也有极少数只能出现在主语前。文章认为影响时间副... 本文对《汉语水平词汇与汉字等级大纲》中的62个时间副词在语料库中的使用情况进行了详细的统计,结果发现有些时间副词既可以出现在主语前,也可以出现在主语后,但有的只能出现在主语后,也有极少数只能出现在主语前。文章认为影响时间副词位置的因素主要是句子的主语,时间副词的句法分布也存在着范畴化现象,并指出时间副词位于主语前、后不仅功能不同,而且辖域也不同。 展开更多
关键词 时间副词 汉语语料库 范畴化 有标记 无标记 状语位置
下载PDF
北京大学现代汉语语料库基本加工规范(续) 被引量:18
7
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规... 北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 加工规范 词语切分 词性标注 名词标注 汉字处理系统
下载PDF
汉语偏正/述宾歧义短语加工初探 被引量:26
8
作者 张亚旭 张厚粲 舒华 《心理学报》 CSSCI CSCD 北大核心 2000年第1期13-19,共7页
操纵短语续接方向及歧义性,采用移动窗口范式,考察了均衡型、偏正型和述宾型三类歧义短语的加工,结果发现,偏正型歧义短语按述宾结构续接以及述宾型歧义短语按偏正结构续按时,在解歧区2上都有明显的加工困难,说明实验所采用的方... 操纵短语续接方向及歧义性,采用移动窗口范式,考察了均衡型、偏正型和述宾型三类歧义短语的加工,结果发现,偏正型歧义短语按述宾结构续接以及述宾型歧义短语按偏正结构续按时,在解歧区2上都有明显的加工困难,说明实验所采用的方法是敏感的。实验还发现,均衡型歧义短语按述宾结构续接时,在解歧区2上仍有加工上的困难,述宾型歧义短语按偏正结构续按时,在解歧区3上仍能看到加工上的困难,这表明歧义消解具有相对分散的特点。更重要的是,实验发现,均衡型歧义短语按述宾结构续接时,在解歧区1上就出现了加工困难,表明被试实际上按偏正结构来分析这种短语。该文从句法分析原则、语言分布知识的使用以及动词论题结构与语义完整性等角度对这一发现进行了讨论。 展开更多
关键词 句法分析 句法歧义消解 汉语 短语 语料库分析
下载PDF
语法隐喻与汉语词典自指义项的设立——一项基于语料库的研究 被引量:28
9
作者 王仁强 《外国语文》 CSSCI 北大核心 2009年第1期100-108,共9页
不少汉语语法和词典学方面的研究恪守"词义不变,词类不变"和"兼类尽可能少"的原则,对于动词、形容词名化②后的自指义项基本不予认可。文章指出,自指用法其实是一种语法隐喻;尽管语法隐喻中变化的主要是语法意义或... 不少汉语语法和词典学方面的研究恪守"词义不变,词类不变"和"兼类尽可能少"的原则,对于动词、形容词名化②后的自指义项基本不予认可。文章指出,自指用法其实是一种语法隐喻;尽管语法隐喻中变化的主要是语法意义或词类,但词汇意义并非完全没有改变;汉语词典(尤其是对外汉语学习词典)应该根据语料库用法模式调查所发现的规律性自指用法设立自指义项;人为减少兼类的做法掩盖了语言事实,尤其不利于对外汉语学习者用户生成语法正确的汉语。汉语词典不设立自指义项在理论上难以自圆其说,在实践中往往矛盾迭出。因此,汉语词典设立自指义项不仅有客观的科学依据,而且还有很强的应用价值。 展开更多
关键词 名化 语法隐喻 自指义项 汉语词典 语料库
下载PDF
汉语篇章修辞结构的标注研究 被引量:27
10
作者 乐明 《中文信息学报》 CSCD 北大核心 2008年第4期19-23,42,共6页
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetor-ical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇... 汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetor-ical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。 展开更多
关键词 计算机应用 中文信息处理 汉语语料库 篇章标注 修辞结构理论
下载PDF
中文文本的地理命名实体标注 被引量:27
11
作者 张雪英 朱少楠 张春菊 《测绘学报》 EI CSCD 北大核心 2012年第1期115-120,共6页
地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GA... 地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建基于《中国大百科全书中国地理》的大规模标注语料库,以解决当前相关标准和规模化标准数据匮乏的问题。 展开更多
关键词 中文文本 地理命名实体 标注体系 标注语料库 自然语言
下载PDF
英语小说汉译显化实证研究——以《查泰莱夫人的情人》三个中译本为例 被引量:26
12
作者 刘泽权 陈冬蕾 《外语与外语教学》 CSSCI 北大核心 2010年第4期8-13,24,共7页
本文以《查泰莱夫人的情人》三个汉译本为例,运用基于语料库的定量和定性相结合的方法,对英译汉时显化现象是否存在进行考察验证,如果译文存在显化,则进一步探讨不同文本的显化程度差异以及差异原因。通过选取标准类符形符比、高频... 本文以《查泰莱夫人的情人》三个汉译本为例,运用基于语料库的定量和定性相结合的方法,对英译汉时显化现象是否存在进行考察验证,如果译文存在显化,则进一步探讨不同文本的显化程度差异以及差异原因。通过选取标准类符形符比、高频词及其覆盖率、语气助词、转折词以及文外注释五个方面对《查》三译本进行比较,发现译本中均存在显化现象,而且类比显化趋势比语际显化趋势明显,但由于三译本的翻译目的和潜在读者不同,饶译和赵译的显化程度高于冯译。 展开更多
关键词 《查泰莱夫人的情人》 翻译 显化 语料库
原文传递
基于长度的扩展方法的汉英句子对齐 被引量:24
13
作者 张艳 柏冈秀纪 《中文信息学报》 CSCD 北大核心 2005年第5期31-36,58,共7页
本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注... 本文提出了一种用于汉英平行语料库对齐的扩展方法。该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分。这种扩展方法不仅避免了复杂的中文处理,例如,汉语分词和词性标注,而且在统计方法中引入了关键词信息,以提高句子对齐的正确率。本文中所用的双语语料是LDC的关于香港的双语新闻报道。动态规划算法用于系统的实现。和单纯的基于长度的方法和词汇方法相比,我们的扩展方法提高了句子对齐的正确率,并且结果是比较理想的。 展开更多
关键词 人工智能 机器翻译 句子对齐 中文处理 双语语料库
下载PDF
统计与规则并举的汉语句法分析模型 被引量:8
14
作者 周明 黄昌宁 +2 位作者 张敏 白栓虎 吴升 《计算机研究与发展》 EI CSCD 北大核心 1994年第2期40-49,共10页
在自然语言分析中,传统的基于规则的方法和近年兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。本文采用依存文法,提出了一种基于依存文法的融合语料库、规则方法和... 在自然语言分析中,传统的基于规则的方法和近年兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。本文采用依存文法,提出了一种基于依存文法的融合语料库、规则方法和统计方法的汉语分析模型CRSP(Corpus,RuleandStatisticsbasedParser)。该模型的特点是将汉语依存文法分析看作是与词性标注过程等价的一个基于统计的标注过程。文中首先介绍了CRSP的设计思想,然后讨论了从标注过的语料中获取知识的方法,叙述了用于词性标注和依存关系标注的统计模型。试验表明这种模型具有很大的优越性。 展开更多
关键词 汉语句法分析 汉语分析模型
下载PDF
基于规则的汉语句法分析方法研究 被引量:12
15
作者 王鹏 戴新宇 +1 位作者 陈家骏 王启祥 《计算机工程与应用》 CSCD 北大核心 2003年第29期63-66,169,共5页
该文从汉语的句法结构特点出发对基于规则的汉语句法分析方法进行讨论,从中总结出这类方法的一般特征,提出实用化的基于规则的汉语句法分析器必须引入其它辅助分析手段才能提高性能和可靠性。
关键词 句法分析 上下文无关文法 汉语 语料库 知识库
下载PDF
英译汉翻译语言的阶段性特点--基于历时类比语料库的考察 被引量:21
16
作者 赵秋荣 王克非 《中国翻译》 CSSCI 北大核心 2013年第3期15-19,128,共5页
本文基于汉语原创文学和翻译文学语料库(1915-1949),考察翻译汉语的特点。假设是:翻译处于整个文学系统的中心位置和边缘位置时,翻译语言具有不同的特点。研究发现:1)翻译的普遍性假说忽略了翻译与社会文化语境的关系,不适用于所有的翻... 本文基于汉语原创文学和翻译文学语料库(1915-1949),考察翻译汉语的特点。假设是:翻译处于整个文学系统的中心位置和边缘位置时,翻译语言具有不同的特点。研究发现:1)翻译的普遍性假说忽略了翻译与社会文化语境的关系,不适用于所有的翻译现象。2)翻译汉语的特征是不固定的,具有阶段性特点。这种特点与翻译在整个文学系统中的地位息息相关。 展开更多
关键词 历时类比语料库 翻译的普遍性假说 翻译汉语的阶段性特点
原文传递
从“把”字句看翻译汉语的杂合特征 被引量:19
17
作者 胡显耀 曾佳 《外语研究》 CSSCI 北大核心 2011年第6期69-75,112,共7页
本文以"把"字句为例,基于汉英双向平行语料库为翻译汉语的杂合现象提供证据,并分析其杂合特征的来源。"把"字句的频率在汉语文学翻译语料和原创语料中存在显著差异:翻译汉语中的"把"字句使用频率显著较高... 本文以"把"字句为例,基于汉英双向平行语料库为翻译汉语的杂合现象提供证据,并分析其杂合特征的来源。"把"字句的频率在汉语文学翻译语料和原创语料中存在显著差异:翻译汉语中的"把"字句使用频率显著较高,"把"字结构更长且结构更倾向于多层次复合化。"把"字句在汉语译文中的大量出现可能与英语原文的SVO结构有关:动词短小,附有状语或补语成分,宾语附带定语修饰语,这三种英语句子大都被翻译为"把"字句。与原创语料相比,"把"字句频率提高而且结构复杂化,体现了翻译汉语的杂合趋势。本研究对翻译语言共性研究具有意义。 展开更多
关键词 翻译共性 翻译汉语 语料库 杂合 “把”字句
下载PDF
关于中介语语料库建设的几点思考——以“HSK动态作文语料库”为例 被引量:16
18
作者 任海波 《语言教学与研究》 CSSCI 北大核心 2010年第6期8-15,共8页
本文以"HSK动态作文语料库"为例,对汉语中介语语料库建设提出以下几点意见和建议:1.语料处理应该注意平衡性:主要是注意不同国别和不同汉语等级水平在语料数量上的平衡。2.加工标注应该进一步完善:尽量做到标注符号表达方式... 本文以"HSK动态作文语料库"为例,对汉语中介语语料库建设提出以下几点意见和建议:1.语料处理应该注意平衡性:主要是注意不同国别和不同汉语等级水平在语料数量上的平衡。2.加工标注应该进一步完善:尽量做到标注符号表达方式的一致和标注结果的正确。在可能的情况下对语料作更多的深加工。3.应该注意界面设计的友好:做到在检索语料时简单方便,在获取语料时足量快捷,在解读语料时清楚易懂。 展开更多
关键词 汉语 中介语 语料库 语料库建设
原文传递
汉语普通话语音合成语料库TH-CoSS的建设和分析 被引量:12
19
作者 蔡莲红 崔丹丹 蔡锐 《中文信息学报》 CSCD 北大核心 2007年第2期94-99,共6页
本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分:TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。... 本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分:TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。 展开更多
关键词 计算机应用 中文信息处理 语音合成 汉语 语料库
下载PDF
BCC汉语语料库在英汉翻译教学中的应用 被引量:15
20
作者 孙东云 《外语教学理论与实践》 CSSCI 北大核心 2018年第3期71-78,F0004,共9页
鉴于国内翻译教学界对汉语语料库探讨不足,本研究探讨BCC汉语语料库在英汉翻译教学中的应用。该语料库具有数据海量、界面友好、使用免费等优势,可用于验证母语直觉,提高翻译能力。本研究通过真实的非文学翻译例证,说明汉语语料库可用... 鉴于国内翻译教学界对汉语语料库探讨不足,本研究探讨BCC汉语语料库在英汉翻译教学中的应用。该语料库具有数据海量、界面友好、使用免费等优势,可用于验证母语直觉,提高翻译能力。本研究通过真实的非文学翻译例证,说明汉语语料库可用于验证母语语感,提高术语准确性,找到合适的词汇搭配,并恰当运用专业通用词。研究总结了语料库驱动的翻译教学模式中母语语料库使用的教学策略和技巧,为翻译教学中语料库的应用开辟新途径。 展开更多
关键词 汉语语料库 BCC 翻译教学 语料库驱动学习
原文传递
上一页 1 2 34 下一页 到第
使用帮助 返回顶部