期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
语块在对外汉语教学中的价值与作用 被引量:86
1
作者 周健 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2007年第1期99-104,共6页
汉语语块可分为三类:词语常见组合搭配,习用短语和句子结构的连接成分。语块在第二语言习得有重要价值,它有助于产出规范和习惯的汉语表达,形成汉语语感;在对外汉语教学中有助于克服中介语及词汇搭配错误,避免语用失误,提高语用水平。... 汉语语块可分为三类:词语常见组合搭配,习用短语和句子结构的连接成分。语块在第二语言习得有重要价值,它有助于产出规范和习惯的汉语表达,形成汉语语感;在对外汉语教学中有助于克服中介语及词汇搭配错误,避免语用失误,提高语用水平。对外汉语教学中应从培养语块意识入手,将语块训练法贯穿于语法、口语、书面语教学之中,提高教学效率。 展开更多
关键词 汉语语块 汉语语感 对外汉语教学
下载PDF
Co-training机器学习方法在中文组块识别中的应用 被引量:8
2
作者 刘世岳 李珩 +1 位作者 张俐 姚天顺 《中文信息学报》 CSCD 北大核心 2005年第3期73-79,共7页
采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组... 采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。 展开更多
关键词 计算机应用 中文信息处理 co-training算法 中文组块 分类器
下载PDF
汉语组块识别 被引量:5
3
作者 李珩 谭咏梅 +1 位作者 朱靖波 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第2期114-117,共4页
提出一种基于增益的隐马尔科夫模型(transductiveHMM)的方法,用于汉语组块(ChineseChunk)识别的研究·该方法借助几个转换函数,导入各种上下文信息用于HMM的训练,避免对HMM训练和标注过程修改的同时,构造了更为准确的模型,并在此基... 提出一种基于增益的隐马尔科夫模型(transductiveHMM)的方法,用于汉语组块(ChineseChunk)识别的研究·该方法借助几个转换函数,导入各种上下文信息用于HMM的训练,避免对HMM训练和标注过程修改的同时,构造了更为准确的模型,并在此基础上,将其中两个较好的模型融合为一个更好的模型·实验结果显示,该方法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=82 38%· 展开更多
关键词 汉语组块 识别 隐马尔科夫模型 增益的隐马尔科夫模型 模型训练 转换函数
下载PDF
基于语块和条件随机场(CRFs)的韵律短语识别 被引量:6
4
作者 钱揖丽 冯志茹 《中文信息学报》 CSCD 北大核心 2014年第5期32-38,共7页
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验... 该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。 展开更多
关键词 韵律短语 边界预测 语块结构 条件随机场
下载PDF
基于SVM+Sigmoid的汉语组块识别 被引量:3
5
作者 谭咏梅 姚天顺 +2 位作者 陈晴 李珩 朱靖波 《计算机科学》 CSCD 北大核心 2004年第8期142-146,共5页
本文提出用 SVM+Sigmoid 来进行汉语组块识别的方法。SVMs 具有不需要进行认真选取特征的优点,并且在具有高维特征空间的输入数据上也能够具有高的泛化性能,通过核函数的原则,SVMs 能够在独立于训练数据维数的小计算范围内进行训练。Sig... 本文提出用 SVM+Sigmoid 来进行汉语组块识别的方法。SVMs 具有不需要进行认真选取特征的优点,并且在具有高维特征空间的输入数据上也能够具有高的泛化性能,通过核函数的原则,SVMs 能够在独立于训练数据维数的小计算范围内进行训练。Sigmoid 函数使用一个参数模型来直接拟合后验概率,从而将 SVMs 的输出映射成一个后验概率,使一个分类器在做全局决策的一个局部决策时,考虑到全面分类,从而决策更具有合理性。实验结栗表明该方法较单纯的 SVMs 方法具有好的效果。 展开更多
关键词 SVM SIGMOID函数 汉语组块 组块识别 支持向量机
下载PDF
利用AdaBoost-SVM集成算法和语块信息的韵律短语识别 被引量:2
6
作者 钱揖丽 冯志茹 《计算机工程与科学》 CSCD 北大核心 2015年第12期2324-2330,共7页
提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语... 提出一种基于汉语语块结构并利用AdaBoost-SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost-SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用AdaBoos-SVM集成算法实现的模型性能更佳。 展开更多
关键词 汉语语块 AdaBoost—SVM 韵律短语 识别
下载PDF
基于HMSVM模型的中文浅层句法分析 被引量:1
7
作者 王仲华 卢娇丽 付继宗 《电脑开发与应用》 2013年第2期30-32,共3页
隐马尔科夫支持向量机(HMSVM)是一种新颖的结构化支持向量机模型,该模型在序列标注学习任务比如英文组块分析中的有效性已经被证明,将该模型用于中文浅层句法分析识别任务,实验结果表明,该模型获得了较好的准确率和召回率。
关键词 浅层句法 隐马尔科夫支持向量机 序列标注 边界识别
下载PDF
基于词间依存的汉语基本块依存关系识别
8
作者 李丽 赵文娟 樊孝忠 《计算机科学》 CSCD 北大核心 2013年第11A期259-262,共4页
基本块的分析是句法分析中的重要技术,根据依存理论,提出了一种分析基本块之间的依存关系的方法。首先使用BIO标记来识别基本块,然后根据词之间的依存关系判别基本块之间的依存关系。实验表明,基本块识别的正确率和召回率分别为82.3%和7... 基本块的分析是句法分析中的重要技术,根据依存理论,提出了一种分析基本块之间的依存关系的方法。首先使用BIO标记来识别基本块,然后根据词之间的依存关系判别基本块之间的依存关系。实验表明,基本块识别的正确率和召回率分别为82.3%和78%,基本块之间依存关系识别的正确率和召回率分别为89%和90.5%。 展开更多
关键词 基本块 依存关系 词之间的依存关系 句法分析
下载PDF
SVM和基于转换的错误驱动学习相结合的汉语组块识别 被引量:4
9
作者 邹宏梅 王挺 《计算机工程与科学》 CSCD 2007年第4期91-94,123,共5页
本文研究了一种支持向量机(SVM)和基于转换的错误驱动学习相结合的汉语组块识别方法。SVM在选取特征方面有突出的优点,并且在高维特征空间也具有较高的泛化性能,通过核函数的原则,SVM能够在独立于训练数据维数的小计算范围内进行训练。... 本文研究了一种支持向量机(SVM)和基于转换的错误驱动学习相结合的汉语组块识别方法。SVM在选取特征方面有突出的优点,并且在高维特征空间也具有较高的泛化性能,通过核函数的原则,SVM能够在独立于训练数据维数的小计算范围内进行训练。利用基于转换的错误驱动学习方法对SVM的标注结果进行校正,转换规则较好地处理了语言现象中的特殊情况,进一步提高了SVM的识别结果。实验结果表明,该方法具有较好的效果。 展开更多
关键词 支持向量机 基于转换的错误驱动学习 汉语组块识别
下载PDF
基于汉语组块产品特征——观点对提取与情感分析研究 被引量:4
10
作者 刘臣 韩林 +2 位作者 李丹丹 安咏雪 霍良安 《计算机应用研究》 CSCD 北大核心 2017年第10期2942-2945,共4页
针对用户评论中产品特征—观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位... 针对用户评论中产品特征—观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位置上的邻近关系,提取情感词并组成特征—观点对,通过点互信息方法(SO-PMI)进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征—观点对并进行情感分析,准确率为76.68%,召回率为70.84%。实验结果表明,引入组块分析可以有效地解决商品评论的细粒度情感分类问题。 展开更多
关键词 情感分析 汉语组块分析 特征-观点对提取 点互信息方法
下载PDF
汉语组块分析在产品特征提取中的应用研究 被引量:4
11
作者 杜思奇 李红莲 吕学强 《现代图书情报技术》 CSSCI 2015年第9期26-30,共5页
【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品... 【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品特征的自动提取。【结果】为验证该方法的有效性,以汽车评论文本为例,从中提取汽车类产品的特征,平均召回率达到76.89%,平均准确率达到84.03%。【局限】该方法的召回率较低,存在名词块识别错误的问题。【结论】实验结果表明引入汉语组块分析可以准确识别名词性短语,提高产品特征提取的准确率。 展开更多
关键词 产品特征提取 名词性短语识别 汉语组块分析 关联规则
原文传递
汉语聚合词英译刍议 被引量:2
12
作者 郭世凤 《西北大学学报(哲学社会科学版)》 CSSCI 北大核心 2006年第5期162-164,共3页
聚合词是汉语特有的结构性词形,这种独特性形成聚合词英译上的一个难点。通过对汉语语料英译的观察与分析发现,在三种语境下,聚合词英译可用直译;在聚合词充当回指语时,可用意译。此外聚合词充当回指语时,其语用意义与先行语相关联。这... 聚合词是汉语特有的结构性词形,这种独特性形成聚合词英译上的一个难点。通过对汉语语料英译的观察与分析发现,在三种语境下,聚合词英译可用直译;在聚合词充当回指语时,可用意译。此外聚合词充当回指语时,其语用意义与先行语相关联。这一发现揭示出聚合词译语的语义来源,也为聚合词的意译在理论上提出了一种解释。 展开更多
关键词 聚合词 直译 意译 回指语 语用意义
下载PDF
汉语块依存语法与树库构建
13
作者 钱青青 王诚文 +2 位作者 荀恩东 王贵荣 饶高琦 《中文信息学报》 CSCD 北大核心 2022年第7期50-58,共9页
该文提出了以谓词为核心的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,利用汉语中组块和组块间的依存关系补全缺省部分,明确谓词支配关系。根据块依存文法体系,目前共标注2199篇文本,涵盖百科、新闻... 该文提出了以谓词为核心的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,利用汉语中组块和组块间的依存关系补全缺省部分,明确谓词支配关系。根据块依存文法体系,目前共标注2199篇文本,涵盖百科、新闻两个领域,共约180万字语料。该文简述了块依存文法的原则,并对组块及其依存关系进行了定义。该文详细介绍了标注流程、标注一致率、数据分布等情况。基于现有的树库,该文发现汉语中有约25%的小句是非自足的,约有88%的核心谓词可支配1~3个从属成分。 展开更多
关键词 组块 块依存语法 树库
下载PDF
汉语组块分析在情感分类中的应用研究
14
作者 杜思奇 李红莲 吕学强 《计算机应用与软件》 CSCD 2016年第10期167-171,共5页
网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车... 网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车评论语料进行细粒化的处理并提取情感标签,再结合情感词本体和支持向量机模型对情感标签进行分类,从而实现情感倾向性的判别。实验表明,采用汉语组块分析的情感分类方法相比其他的分类算法平均准确率提高了4%。因此,基于汉语组块分析的情感分类可以降低分类器的输入特征维数,并有效提高分类器的分类性能。 展开更多
关键词 汉语组块分析 情感标签 情感词本体 情感分类
下载PDF
字母词语块中“标点”的使用状况考察 被引量:11
15
作者 关润芝 杨建国 《语言文字应用》 CSSCI 北大核心 2005年第1期82-87,共6页
本文对约2600万字的2002年《人民日报》语料库进行了字母词语块机器自动提取和人工后校对,然后利用程序提取出所有带标点字母词语块。文章主要对带标点字母词语块的自身特征和字母词语块中标点的出现情况进行分析,目的是为字母词语块的... 本文对约2600万字的2002年《人民日报》语料库进行了字母词语块机器自动提取和人工后校对,然后利用程序提取出所有带标点字母词语块。文章主要对带标点字母词语块的自身特征和字母词语块中标点的出现情况进行分析,目的是为字母词语块的规范和字母词语块自动识别和提取提供相关统计数据作参考。 展开更多
关键词 字母词语块 标点 自动提取
下载PDF
基于条件随机场模型的汉语功能块自动标注 被引量:7
16
作者 李国臣 王瑞波 李济洪 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期336-343,共8页
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不... 汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%. 展开更多
关键词 汉语基本块 汉语功能块 条件随机场模型 句法分析 序列标注
下载PDF
基于字的分布表征的汉语基本块识别 被引量:6
17
作者 李国臣 党帅兵 +1 位作者 王瑞波 李济洪 《中文信息学报》 CSCD 北大核心 2014年第6期18-25,55,共9页
汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动... 汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。 展开更多
关键词 汉语基本块 分布表征 深层神经网络 序列标注
下载PDF
基于词的分布式实值表示的汉语基本块识别 被引量:4
18
作者 侯潇琪 王瑞波 李济洪 《中北大学学报(自然科学版)》 CAS 北大核心 2013年第5期582-585,共4页
基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语... 基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语基本块识别任务实验,结果表明:在仅使用词窗口[-2,2]的词特征的模型中,和使用词窗口[-2,2]+词性特征的模型中,采用分布式词特征比传统的词特征的模型的标记精度分别高38.01%,1.86%,说明词语的分布式表示对汉语基本块识别任务是有作用的. 展开更多
关键词 神经语言模型 分布式词特征 基本块分析 边界识别
下载PDF
语义信息与CRF结合的汉语功能块自动识别 被引量:4
19
作者 刘海霞 黄德根 《中文信息学报》 CSCD 北大核心 2011年第5期53-59,共7页
为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measur... 为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。 展开更多
关键词 汉语功能块 条件随机域(CRFs) 语义信息 歧义结构
下载PDF
融合分词隐层特征的汉语基本块识别
20
作者 李国臣 刘展鹏 +1 位作者 王瑞波 李济洪 《中文信息学报》 CSCD 北大核心 2016年第2期12-17,共6页
该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现... 该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。 展开更多
关键词 分布表征 汉语基本块识别 神经网络模型 隐层特征 整句似然函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部