-
题名基于跨语言语料的汉泰词分布表示
被引量:2
- 1
-
-
作者
张金鹏
周兰江
线岩团
余正涛
何思兰
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
昆明理工大学理学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2015年第12期2358-2365,共8页
-
基金
国家自然科学基金资助项目(61363044)
-
文摘
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。
-
关键词
弱监督学习扩展
跨语言语料
跨语言词汇分布表示
神经概率语言模型
-
Keywords
weakly supervised learning extension
cross-lingual corpus
cross-lingual word distribution representations
neural probabilistic language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名2000年以来我国多语言语料库研究进展
被引量:2
- 2
-
-
作者
司莉
何依
-
机构
武汉大学信息资源研究中心
武汉大学信息管理学院
-
出处
《现代情报》
CSSCI
北大核心
2016年第6期165-170,共6页
-
基金
教育部人文社会科学重点研究基地重大项目"基于内容的多语言信息组织与检索研究"(项目编号:I4JJD870001)的研究成果之一
-
文摘
语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究多集中于语言学领域,其次是计算机领域。研究主题主要分布在多语言语料库的关键技术研究、多语言语料库的应用研究两大方面。
-
关键词
多语言语料库
跨语言语料库
平行语料库
可比语料库
综述
-
Keywords
multilingual corpora
cross-language corpora
parallel corpora
comparable corpora
review
-
分类号
G252-8
[文化科学—图书馆学]
-
-
题名藏汉跨语言文本剽窃检测数据集
- 3
-
-
作者
鲍薇
董建
徐洋
申影利
戚肖克
-
机构
中国电子技术标准化研究院
北京航空航天大学
中央民族大学
中国政法大学
-
出处
《中国科学数据(中英文网络版)》
CSCD
2022年第2期46-54,共9页
-
基金
国家语委重点项目(ZDI135-118)
-
文摘
本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。
-
关键词
文本剽窃检测
藏汉跨语言
跨语言语料库
低资源
-
Keywords
text plagiarism detection
Tibetan-Chinese cross-language
cross-language corpus
low resource
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
H214
[自动化与计算机技术—计算机科学与技术]
-