期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于跨语言语料的汉泰词分布表示 被引量:2
1
作者 张金鹏 周兰江 +2 位作者 线岩团 余正涛 何思兰 《计算机工程与科学》 CSCD 北大核心 2015年第12期2358-2365,共8页
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习... 词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。 展开更多
关键词 弱监督学习扩展 语言语料 语言词汇分布表示 神经概率语言模型
下载PDF
2000年以来我国多语言语料库研究进展 被引量:2
2
作者 司莉 何依 《现代情报》 CSSCI 北大核心 2016年第6期165-170,共6页
语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究... 语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究多集中于语言学领域,其次是计算机领域。研究主题主要分布在多语言语料库的关键技术研究、多语言语料库的应用研究两大方面。 展开更多
关键词 语言语料 语言语料 平行语料 可比语料 综述
下载PDF
藏汉跨语言文本剽窃检测数据集
3
作者 鲍薇 董建 +2 位作者 徐洋 申影利 戚肖克 《中国科学数据(中英文网络版)》 CSCD 2022年第2期46-54,共9页
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究... 本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。 展开更多
关键词 文本剽窃检测 藏汉语言 语言语料 低资源
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部