期刊文献+
共找到114篇文章
< 1 2 6 >
每页显示 20 50 100
北京大学现代汉语语料库基本加工规范 被引量:126
1
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第5期49-64,共16页
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语... 北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 基本加工规范 词语切分 词性标注 汉字处理系统 名词标注 语素子类标注
下载PDF
关于《现代汉语词典(第5版)》词类标注的说明 被引量:44
2
作者 徐枢 谭景春 《中国语文》 CSSCI 北大核心 2006年第1期74-86,共13页
本文对《现汉》标注词类的有关问题作了较为详细的说明。全文分为三个部分。第一部分介绍《现汉》标注词类所采用的词类系统和各类词的语法特点;第二部分讨论词与非词的区分,指出《现汉》是在区分词与非词的基础上给单字条目和多字条目... 本文对《现汉》标注词类的有关问题作了较为详细的说明。全文分为三个部分。第一部分介绍《现汉》标注词类所采用的词类系统和各类词的语法特点;第二部分讨论词与非词的区分,指出《现汉》是在区分词与非词的基础上给单字条目和多字条目标注词类的,并对如何区分词与非词作了具体的说明;第三部分讨论疑难问题,就几个容易产生分歧的问题提出了处理办法和这样处理的理由。 展开更多
关键词 《现代汉语词典》词类 词类标注 语法功能 语法意义
原文传递
北京大学现代汉语语料库基本加工规范(续) 被引量:18
3
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规... 北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 加工规范 词语切分 词性标注 名词标注 汉字处理系统
下载PDF
基于多知识源的中文词法分析系统 被引量:29
4
作者 姜维 王晓龙 +1 位作者 关毅 赵健 《计算机学报》 EI CSCD 北大核心 2007年第1期137-145,共9页
汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法... 汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%. 展开更多
关键词 词法分析 汉语分词 词性标注 命名实体识别 语言模型
下载PDF
统计与规则并举的汉语词性自动标注算法 被引量:15
5
作者 张民 李生 +1 位作者 赵铁军 张艳风 《软件学报》 EI CSCD 北大核心 1998年第2期134-138,共5页
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考... 本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%. 展开更多
关键词 汉语词性标注 自动标注算法 语言信息处理
下载PDF
汉语分词系统中的信息集成和最佳路径搜索方法 被引量:13
6
作者 沈达阳 孙茂松 黄昌宁 《中文信息学报》 CSCD 北大核心 1997年第2期34-47,共14页
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分调系统SegTag中信息集成方法,并讨论了信息集成结构中的两种最佳路径搜索方法。最后,我们给出实验结果和结论。
关键词 汉语分词 词性标注 信息集成 最佳路径搜索
下载PDF
上古汉语分词及词性标注语料库的构建——以《淮南子》为范例 被引量:22
7
作者 留金腾 宋彦 夏飞 《中文信息学报》 CSCD 北大核心 2013年第6期6-15,81,共11页
该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分... 该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分析了上古汉语的词汇特点,并以此为基础描述了一些显式的词汇形态特征,将其运用于我们的自动分词及词性标注中,特别对词性标注系统带来了有效帮助。总结并分析了自动分词和词性标注中出现的错误,最后描述了整个语料库的词汇和词性分布特点。提出的方法在《淮南子》的标注过程中得到了验证,为日后扩展到其他古汉语资源提供了参考。同时,基于该文工作得到的《淮南子》语料库也为日后的古汉语研究提供了有益的资源。 展开更多
关键词 上古汉语语料库 分词 词性标注 领域适应
下载PDF
基于自动编码器的中文词汇特征无监督学习 被引量:20
8
作者 张开旭 周昌乐 《中文信息学报》 CSCD 北大核心 2013年第5期1-7,92,共8页
大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性... 大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。 展开更多
关键词 无监督特征学习 中文分词 词性标注
下载PDF
词典释义中的语义归纳与语法分析--谈《现代汉语词典》第6版条目修订 被引量:19
9
作者 谭景春 《中国语文》 CSSCI 北大核心 2012年第6期561-567,576,共7页
本文选取《现代汉语词典》第6版中的"本子、坐、垂手、轻于鸿毛、单身、实地"等二十来个条目,从用途义与目的义的增补、字面义与语境义的区分、词类标注的逐步完善三个方面,对它们的修订情况进行讨论,记录它们的修订过程和内... 本文选取《现代汉语词典》第6版中的"本子、坐、垂手、轻于鸿毛、单身、实地"等二十来个条目,从用途义与目的义的增补、字面义与语境义的区分、词类标注的逐步完善三个方面,对它们的修订情况进行讨论,记录它们的修订过程和内容,说明修订的原因和理由,试图归纳出辞书编纂中一些带有规律性的东西,为以后的编修工作提供参考。 展开更多
关键词 《现代汉语词典》用途义 目的义 字面义 语境义 词类标注
原文传递
基于SVMTool的中文词性标注 被引量:17
10
作者 王丽杰 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2009年第4期16-21,共6页
SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,... SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。 展开更多
关键词 计算机应用 中文信息处理 词性标注 SVMTool 未登录词 偏旁部首
下载PDF
汉语分词和词性标注一体化分析的方法研究 被引量:4
11
作者 付国宏 王平 王晓龙 《计算机应用研究》 CSCD 北大核心 2001年第7期24-26,共3页
提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器。初步的开放测试表明,该分析器的分词准确率和词性标注正确率分别可... 提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器。初步的开放测试表明,该分析器的分词准确率和词性标注正确率分别可达98.67%和95.49%。 展开更多
关键词 汉语分词 词性标注 A^*解码算法 一体化分析 自然语言处理
下载PDF
结合词性信息的基于注意力机制的双向LSTM的中文文本分类 被引量:11
12
作者 高成亮 徐华 高凯 《河北科技大学学报》 CAS 2018年第5期447-454,共8页
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信... 基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。 展开更多
关键词 自然语言处理 中文文本分类 注意力机制 LSTM 词性
下载PDF
面向中文歌词的音乐情感分类方法 被引量:11
13
作者 王洁 朱贝贝 《计算机系统应用》 2019年第8期24-29,共6页
情感是音乐最重要的语义信息,音乐情感分类广泛应用于音乐检索,音乐推荐和音乐治疗等领域.传统的音乐情感分类大都是基于音频的,但基于现在的技术水平,很难从音频中提取出语义相关的音频特征.歌词文本中蕴含着一些情感信息,结合歌词进... 情感是音乐最重要的语义信息,音乐情感分类广泛应用于音乐检索,音乐推荐和音乐治疗等领域.传统的音乐情感分类大都是基于音频的,但基于现在的技术水平,很难从音频中提取出语义相关的音频特征.歌词文本中蕴含着一些情感信息,结合歌词进行音乐情感分类可以进一步提高分类性能.本文将面向中文歌词进行研究,构建一部合理的音乐情感词典是歌词情感分析的前提和基础,因此基于Word2Vec 构建音乐领域的中文情感词典,并基于情感词加权和词性进行中文音乐情感分析.本文首先以VA 情感模型为基础构建情感词表,采用Word2Vec 中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值.然后,依照该词典获取情感词权值,构建基于TF-IDF (Term Frequency-Inverse Document Frequency)和词性的歌词文本的特征向量,最终实现音乐情感分类.实验结果表明所构建的音乐情感词典更适用于音乐领域,同时在构造特征向量时考虑词性的影响也可以提高准确率. 展开更多
关键词 音乐情感分类 中文情感词典 情感词加权 TF-IDF 词性
下载PDF
汉语语句中短语间停顿的自动预测方法 被引量:8
14
作者 聂鑫 王作英 《中文信息学报》 CSCD 北大核心 2003年第4期39-44,共6页
在文语转换 (TTS)系统中 ,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先 ,文本进行分词 ,并转换为一列由词性标记所组成的序列 ;然后使用马尔可夫模型 ,利用人... 在文语转换 (TTS)系统中 ,正确标记短语间的停顿对提高合成语音的自然度起着重要作用。本文介绍了一种在汉语语句中自动预测短语间停顿的方法。首先 ,文本进行分词 ,并转换为一列由词性标记所组成的序列 ;然后使用马尔可夫模型 ,利用人工标注数据库训练词语连接处词性标注序列的概率分布和连接类型序列的距离信息 ,得到输入的词性标记序列对应的具有最大似然概率的连接类型序列 ,最后利用后处理规则进行适当的纠错。本文针对不同的模型参数进行了测试 ,短语间停顿自动预测的召回率和连接类型正确率分别达到了 6 8 2 %和 85 1% ,取得了比较满意的结果。 展开更多
关键词 语音合成 文语转换系统 汉语语句 短语间停顿 自动预测方法 词性标注 马尔可夫模型
下载PDF
现代汉语三音节词的判定问题 被引量:10
15
作者 刘中富 《中国海洋大学学报(社会科学版)》 CSSCI 2014年第2期102-108,共7页
三音节词在现代汉语词汇中占有一定数量,识别和判定现代汉语三音节词是一项重要的基础性研究工作,具有重要意义。判定现代汉语三音节词不能以词典是否收录和是否标注词性为依据,而是要以实际使用的情况和人们的词感为依据,坚持语音、语... 三音节词在现代汉语词汇中占有一定数量,识别和判定现代汉语三音节词是一项重要的基础性研究工作,具有重要意义。判定现代汉语三音节词不能以词典是否收录和是否标注词性为依据,而是要以实际使用的情况和人们的词感为依据,坚持语音、语义、语法、语用和语感综合考察,以语用和语感为主的定性标准。具体操作上可采用语音形式识别法、语素数量识别法、语素性质识别法、语法特点识别法、语义特点识别法、语用对比识别法等方法。 展开更多
关键词 现代汉语 三音节词 词性 短语 词感 语用
下载PDF
中文分词及词性标注一体化模型研究 被引量:10
16
作者 佟晓筠 宋国龙 +2 位作者 刘强 张俐 姜伟 《计算机科学》 CSCD 北大核心 2007年第9期174-175,212,共3页
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自... 本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。 展开更多
关键词 中文分词 词性标注 N-最短路径法
下载PDF
基于词性特征与句法分析的商品评价对象提取 被引量:9
17
作者 邱云飞 陈艺方 +1 位作者 王伟 邵良杉 《计算机工程》 CAS CSCD 北大核心 2016年第7期173-180,共8页
针对中文在线评论中语言不规范以及多样性导致评价对象识别错误的问题,提出基于词性特征与句法分析的商品评价对象提取方法。根据中文语言特点,利用形容词、副词、动词的词性特征构建规则提取评价词。通过子句序列的句法树结构提取候选... 针对中文在线评论中语言不规范以及多样性导致评价对象识别错误的问题,提出基于词性特征与句法分析的商品评价对象提取方法。根据中文语言特点,利用形容词、副词、动词的词性特征构建规则提取评价词。通过子句序列的句法树结构提取候选评价对象并进行过滤。基于核心句法路径筛选评价搭配,以减少提取过程中引入的评价对象以及评价词噪声,从而提取出真正的评价对象。实验结果表明,引入句法树结构与核心句法路径使得商品评价对象识别的F值达到80%以上。 展开更多
关键词 中文评价词 评价对象 句法树结构 词性特征 句法路径
下载PDF
现代汉语的对比性特征——基于词性和句法关系清单的分析 被引量:9
18
作者 秦洪武 周霞 《当代语言学》 CSSCI 北大核心 2019年第3期418-437,共20页
本研究基于英汉语平衡语料库,采用数据驱动的描写方法观察词性和句法关系的宏观分布特征,并为汉英语言研究提出量化分析思路。研究发现,名词和动词是英汉语句子扩展采用的主要词性手段,相应地,定中关系和状中关系是英汉语句子扩展采用... 本研究基于英汉语平衡语料库,采用数据驱动的描写方法观察词性和句法关系的宏观分布特征,并为汉英语言研究提出量化分析思路。研究发现,名词和动词是英汉语句子扩展采用的主要词性手段,相应地,定中关系和状中关系是英汉语句子扩展采用的主要句法手段。对比分析显示,英汉语句子扩展手段存在差异:英语更依赖介词系统,故更多呈现静态关系;汉语更多调用动词来编码相应的语义关系,成就了汉语的“动态”特征。此外,汉语句法成分间依存距离短于英语,主要是因为汉语句段铺排更多依赖时序,而英语多使用后置修饰成分。研究表明,数据驱动的研究不仅能检验我们的语言直觉,还能为微观语言对比和分析提供参照。有描写性数据的支持,汉语研究和中外语言对比研究有望拓展新的疆域。 展开更多
关键词 现代汉语 词性 句法关系 对比分析
原文传递
基于语料库的汉日同形词词性对比研究 被引量:8
19
作者 许雪华 《外语学刊》 CSSCI 北大核心 2020年第1期37-41,共5页
本文利用语料库调查《现代汉语词典》标注为形容词,《新明解国语辞典》标注为名词、动词的153个汉日同形词,发现多数同形词如词典标注,其在中日两国语言中词性用法存在差异。究其原因首先与构词语素的性质有关,部分同形词的中心成分在... 本文利用语料库调查《现代汉语词典》标注为形容词,《新明解国语辞典》标注为名词、动词的153个汉日同形词,发现多数同形词如词典标注,其在中日两国语言中词性用法存在差异。究其原因首先与构词语素的性质有关,部分同形词的中心成分在汉语中是形容词性的,但在日语中却是动词性的,从而导致词性产生差异。其次与词性的历时变化有关,部分同形词在古代汉语中是仅有谓语用法的不及物动词,但在现代汉语中却转变成以定语用法为主的形容词,而其由古代汉语传人日语后词性未发生变化,由此两者之间产生差异。此外,“常任”“潜在”等同形词在汉语和日语中用法一致,都是做定语修饰名词,其在词典中呈现的词性差异是由两种语言不同的词性判定标准引起的。 展开更多
关键词 汉日同形词 语料库 词典 词性差异 语素性质 历时变化
原文传递
基于词性分析和领域知识的Deep Web语义标注 被引量:7
20
作者 魏勇刚 张国春 +1 位作者 常勇 袁方 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期52-55,共4页
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法... 基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性. 展开更多
关键词 DEEPWEB 中文词性 领域知识 数据预处理 语义标注
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部