期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
现代汉语事件名词分析 被引量:15
1
作者 韩蕾 《华东师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2004年第5期106-112,共7页
事件名词是汉语名词的特殊子类。通过调查大规模语料库中原型成员的句法分布趋势 ,可以看出 ,事件名词所代表的事件范畴 。
关键词 现代汉语 事件名词 句法分布 语料库 原型成员 量词
下载PDF
副词释义的精准度及其方法论探讨——以描摹情状副词群“X然”为例 被引量:10
2
作者 邵敬敏 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2016年第1期9-18,129,共10页
副词释义的原则与方法有以下四个要点:1.必须借助于大型语料库的语料,并进行穷尽性的考察,尤其要高度关注副词的高频组合。2.在区别近义副词或者对若干义项进行辨析时,需要特别重视组合框架的功能,以提升释义的精准度。3.重点揭示语义... 副词释义的原则与方法有以下四个要点:1.必须借助于大型语料库的语料,并进行穷尽性的考察,尤其要高度关注副词的高频组合。2.在区别近义副词或者对若干义项进行辨析时,需要特别重视组合框架的功能,以提升释义的精准度。3.重点揭示语义相近用法相仿的副词可替换与不可替换的条件制约。4.要特别注意多元比较,涉及近义比较、同类比较、搭配比较、语境比较、功能比较以及认知比较。 展开更多
关键词 释义精准度 大型语料库 定位框架 类聚扫描 高频组合 多元比较
下载PDF
基于Web的大规模语料库构建方法 被引量:8
3
作者 李培峰 朱巧明 钱培德 《计算机工程》 CAS CSCD 北大核心 2008年第7期41-43,46,共4页
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境... 低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。 展开更多
关键词 大规模语料库 网格 可信度
下载PDF
规则与统计相结合的分词一致性检验 被引量:7
4
作者 刘博 郑家恒 张虎 《计算机工程与设计》 CSCD 北大核心 2008年第7期1814-1816,1827,共4页
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处... 建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量。 展开更多
关键词 中文信息处理 大规模语料库 分词一致性检验 分词 语料库加工
下载PDF
基于散列技术的快速子串归并算法 被引量:4
5
作者 吕学强 张乐 +1 位作者 黄志丹 胡俊峰 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2004年第5期948-951,955,共5页
用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用... 用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用数学方法证明其与O(n2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理. 展开更多
关键词 归并 散列 算法 时间复杂度 大规模 删除 语料库 法能 处理 东西方
原文传递
基于大规模语料库的汉日触压觉形容词认知语义对比研究——以“硬”和「かたい」为例 被引量:5
6
作者 钟勇 《日语学习与研究》 CSSCI 2017年第6期34-41,共8页
本文基于大规模语料库详细对比了触压觉形容词"硬"和「かたい」的认知语义结构。研究发现,二者具有以下共同点:(1)语义扩展的整体方向一致;(2)原型义相同;(3)语义扩展程度很高;(4)一次扩展义远远多于二次扩展义;(5)基于隐喻... 本文基于大规模语料库详细对比了触压觉形容词"硬"和「かたい」的认知语义结构。研究发现,二者具有以下共同点:(1)语义扩展的整体方向一致;(2)原型义相同;(3)语义扩展程度很高;(4)一次扩展义远远多于二次扩展义;(5)基于隐喻的语义扩展特别多。这些共同点的成因在于中日两国人民持有相似的基本身体经验和世界认知过程以及二者所表达的概念特征相同。另一方面,二者的不同点体现为"相互拥有多个不同扩展义",其成因在于两国人民对世界细微之处的具体认知过程不同以及中日文化差异。 展开更多
关键词 大规模语料库 かたぃ 认知语义对比 日语教学
原文传递
NICT/ATR Chinese-Japanese-English Speech-to-Speech Translation System 被引量:3
7
作者 Tohru Shimizu Yutaka Ashikari +2 位作者 Eiichiro Sumita 张劲松 Satoshi Nakamura 《Tsinghua Science and Technology》 SCIE EI CAS 2008年第4期540-544,共5页
This paper describes the latest version of the Chinese-Japanese-English handheld speech-tospeech translation system developed by NICT/ATR, which is now ready to be deployed for travelers. With the entire speech-to-spe... This paper describes the latest version of the Chinese-Japanese-English handheld speech-tospeech translation system developed by NICT/ATR, which is now ready to be deployed for travelers. With the entire speech-to-speech translation function being implemented into one terminal, it realizes real-time, location-free speech-to-speech translation. A new noise-suppression technique notably improves the speech recognition performance. Corpus-based approaches of speech recognition, machine translation, and speech synthesis enable coverage of a wide variety of topics and portability to other languages. Test results show that the character accuracy of speech recognition is 82%-94% for Chinese speech, with a bilingual evaluation understudy score of machine translation is 0.55-0.74 for Chinese-Japanese and Chinese-English 展开更多
关键词 speech-to-speech translation speech recognition speech synthesis machine translation large-scale corpus
原文传递
统计机器翻译中大规模特征的深度融合 被引量:4
8
作者 刘宇鹏 乔秀明 +1 位作者 赵石磊 马春光 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2017年第1期46-56,共11页
对循环神经网络和递归神经网络进行改进,提出深度融合的神经网络(DNN)模型,在训练过程中加入大规模特征.该模型有很强的泛化能力,适合于现在主流的自底向上解码样式,融合了2种经典的机器翻译模型:基于短语的层次化文法(HPG)和括号转录文... 对循环神经网络和递归神经网络进行改进,提出深度融合的神经网络(DNN)模型,在训练过程中加入大规模特征.该模型有很强的泛化能力,适合于现在主流的自底向上解码样式,融合了2种经典的机器翻译模型:基于短语的层次化文法(HPG)和括号转录文法(BTG).使用改进的循环神经网络,生成适合短语生成过程的短语/规则对语义向量,并在生成过程中使用了自编码器以提高循环神经网络的性能.使用改进的递归神经网络,使它在翻译过程中指导解码,考虑到另一个解码器在解码过程中的信息,互相影响共同提高翻译性能.提出的深度融合模型不仅适合于异类翻译系统,也适合于异类语料.相对于经典的基线系统,在异类系统上该模型的实验结果获得1.0~1.9倍的BLEU分数提高,在异类语料上该模型的实验结果获得1.05~1.58的BLEU分数提高,且进行了统计显著性检验. 展开更多
关键词 大规模特征 异类语料 异类系统 深度融合模型
下载PDF
维吾尔文网络查询扩展词的构建研究 被引量:3
9
作者 年梅 张兰芳 《计算机工程》 CAS CSCD 北大核心 2015年第4期187-189,194,共4页
为提高维吾尔文网络内容查询的扩展性能,提出一种将维语同义词和互联网资源相结合的扩展词构建算法。利用维吾尔语同义词词典、近义词词典和反义词词典等建立基本候选词库,将互联网作为超大规模语料库,以搜索引擎为工具,使用改进的点互... 为提高维吾尔文网络内容查询的扩展性能,提出一种将维语同义词和互联网资源相结合的扩展词构建算法。利用维吾尔语同义词词典、近义词词典和反义词词典等建立基本候选词库,将互联网作为超大规模语料库,以搜索引擎为工具,使用改进的点互信息对基本扩展词进行相似度评价,选取前N个词形成候选扩展词库1,对包含关键词的互联网语料,基于局部共现和点互信息分析,构建候选扩展词库2,对上述2种候选扩展词库加权求和,按顺序选择部分词为扩展词。通过搜索引擎实现扩展查询验证,结果表明,与常规查询和同义词查询扩展算法相比,该算法能明显提高查询的准确率。 展开更多
关键词 查询扩展 局部共现分析 点互信息算法 扩展词 大规模语料库
下载PDF
基于特征加权的蛋白质交互识别 被引量:3
10
作者 吴红梅 牛耘 《计算机技术与发展》 2016年第2期114-117,123,共5页
在以单词为特征的模型中,如果特征单词在不同类别中的使用情况存在明显差异,那么它对分类有着很重要的影响。因此文中基于大规模语料库,研究不同的特征加权方法对PPI识别的影响。首先,通过搜索医学文献数据库建立蛋白质对的签名档,以单... 在以单词为特征的模型中,如果特征单词在不同类别中的使用情况存在明显差异,那么它对分类有着很重要的影响。因此文中基于大规模语料库,研究不同的特征加权方法对PPI识别的影响。首先,通过搜索医学文献数据库建立蛋白质对的签名档,以单词作为描述蛋白质对关系的特征,构建向量空间模型;然后,选择不同的加权方法描述单词重要性;最后,以K近邻和SVM分类方法构建分类器判断蛋白质对是否存在交互关系。实验结果表明,根据特征向量单词的重要性进行加权,PPI识别精确度、召回率和准确率有了明显的提高。 展开更多
关键词 蛋白质交互 大规模语料 特征加权 K近邻 支持向量机
下载PDF
从汉字词汇的使用看汉字在东亚国家的前途——基于大规模语料库的考察 被引量:2
11
作者 施建军 《外语学刊》 CSSCI 北大核心 2021年第1期85-94,共10页
日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点。由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量使用汉字,而韩国汉字消失殆尽,越南彻底废除汉字。但是近年来韩国、越南出现了恢复使用汉字的呼声。根... 日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点。由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量使用汉字,而韩国汉字消失殆尽,越南彻底废除汉字。但是近年来韩国、越南出现了恢复使用汉字的呼声。根据对日本、韩国、越南的现代语言的大规模数据调查,虽然韩国、越南基本不使用汉字,但是,这些语言中的汉字词汇并没有受到这些国家限制或者废除汉字的语言政策的影响,仍然大量存在,日本汉字词汇的使用量较明治时期也所增长,汉字词汇就像汉字的种子埋藏在这些国家的语言中。随着社会的进步,原先废除汉字的原因正在逐步消失,只要条件成熟,汉字在这些国家的前途是光明的。 展开更多
关键词 东亚国家 汉字词汇 汉字前途 大规模语料库 汉字政策 信息技术
原文传递
日语色彩词「赤い」的认知语义研究——基于大规模语料库
12
作者 韩笑 钟勇 《文化创新比较研究》 2023年第24期32-36,共5页
该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义... 该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义;(3)基于身体经验的原型义很重要,是理解扩展义的前提;(4)在认知理据方面,基于隐喻的语义扩展少于基于转喻的语义扩展;(5)语义扩展程度较高。同时,日语学习者在学习日语色彩词时,也要先找到各义项间的认知理据,重点理解和把握原型义,了解日本人认知世界的方式,才能更好地学习扩展义。 展开更多
关键词 色彩词 大规模语料库 认知语言学 赤い 语义扩展 日语教学
下载PDF
大规模语料库可用性评测方法 被引量:1
13
作者 李艳红 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第16期134-137,共4页
提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语... 提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。 展开更多
关键词 大规模语料库 可用性评价 层次分析法 模糊综合评价
下载PDF
基于词性加权和单词相似性的蛋白质交互识别
14
作者 吴红梅 牛耘 《计算机技术与发展》 2015年第12期6-9,共4页
与现有绝大多数以单个句子为依据的蛋白质自动识别方式不同,文中基于大规模语料库提出了引入句法和单词相似性这两个因素的蛋白质交互自动识别方法。首先,采用基于特征的方法对蛋白质对签名档进行分类。然后,使用分词工具对蛋白质对签... 与现有绝大多数以单个句子为依据的蛋白质自动识别方式不同,文中基于大规模语料库提出了引入句法和单词相似性这两个因素的蛋白质交互自动识别方法。首先,采用基于特征的方法对蛋白质对签名档进行分类。然后,使用分词工具对蛋白质对签名档进行词性标注,将不同词性的特征词语进行分组,并对每种词性进行加权。最后,基于大规模语料库的方法计算得到单词相似性,根据单词在正、负类中频率的差别调整单词相似性矩阵。实验结果表明,引入词性加权和单词相似性两个因素后,最终的分类结果较基准模型的识别精度有了明显的提升。 展开更多
关键词 大规模语料库 蛋白质交互 词性加权 单词相似性
下载PDF
Long Short-Term Memory Recurrent Neural Network-Based Acoustic Model Using Connectionist Temporal Classification on a Large-Scale Training Corpus 被引量:9
15
作者 Donghyun Lee Minkyu Lim +4 位作者 Hosung Park Yoseb Kang Jeong-Sik Park Gil-Jin Jang Ji-Hwan Kim 《China Communications》 SCIE CSCD 2017年第9期23-31,共9页
A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a force... A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a forced aligned Hidden Markov Model(HMM) state sequence obtained from the GMM-based acoustic model. Therefore, it requires a long computation time for training both the GMM-based acoustic model and a deep learning-based acoustic model. In order to solve this problem, an acoustic model using CTC algorithm is proposed. CTC algorithm does not require the GMM-based acoustic model because it does not use the forced aligned HMM state sequence. However, previous works on a LSTM RNN-based acoustic model using CTC used a small-scale training corpus. In this paper, the LSTM RNN-based acoustic model using CTC is trained on a large-scale training corpus and its performance is evaluated. The implemented acoustic model has a performance of 6.18% and 15.01% in terms of Word Error Rate(WER) for clean speech and noisy speech, respectively. This is similar to a performance of the acoustic model based on the hybrid method. 展开更多
关键词 acoustic model connectionisttemporal classification large-scale trainingcorpus LONG SHORT-TERM memory recurrentneural network
下载PDF
汉语语料库大规模统计与小规模统计的对比 被引量:4
16
作者 郭曙纶 《语言文字应用》 CSSCI 北大核心 2009年第2期130-141,共12页
本文以上海市中小学语文教材语料库作为对比统计样本,对比统计了大规模汉语语料库与小规模汉语语料库在覆盖率及分布率两个方面的数据,统计分析表明:1.高频字比率随着文本规模的增大而下降。2.总字次数同平均出现次数及总字种数,呈正相... 本文以上海市中小学语文教材语料库作为对比统计样本,对比统计了大规模汉语语料库与小规模汉语语料库在覆盖率及分布率两个方面的数据,统计分析表明:1.高频字比率随着文本规模的增大而下降。2.总字次数同平均出现次数及总字种数,呈正相关关系。3.在覆盖率方面大规模统计与小规模统计以及单个的小文本统计三者之间都存在着很大的差异。4.在字种数方面,单个的小文本统计与合计文本统计之间有较大差异,而大规模统计与小规模统计之间相差不大。5.从分布率来看,上海市语文教材不同文本之间的共用字是很少的,不能笼统地说,认识500多个汉字就能认识文本中80%的汉字。 展开更多
关键词 大规模统计 小规模统计 汉语语料库
下载PDF
基于熵的机器翻译伪并行语料库选择方法
17
作者 刘婉月 艾山・吾买尔 +1 位作者 敖乃翔 郭锐 《现代计算机》 2021年第19期9-14,18,共7页
为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造... 为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造语料的方法,使用单个或多个语言模型按照不同的困惑度选择方法筛选伪造语料,实验表明,联合不同语言模型能够筛选高质量语料,并提高模型的质量。 展开更多
关键词 大规模并行语料库 语言模型 伪造语料库 困惑度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部