-
题名基于英语枢轴的汉-越双语词典构建方法
被引量:1
- 1
-
-
作者
陈亚豪
张亚飞
余正涛
文永华
朱俊国
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第11期2303-2307,共5页
-
基金
国家重点研发计划项目(2019QY1802)资助
国家自然科学基金项目(61672271,61732005,61761026,61762056,61866020)资助
云南省高新技术产业专项(201606)资助.
-
文摘
从双语资源中抽取双语词典是一个重要的研究工作,一般需要大规模双语平行语料支撑.针对汉语和越南语,汉越双语平行语料规模少,双语词典获取比较困难,但汉语、英语、越南语单语语料比较丰富,而且具有汉英、越英双语词典.如何有效利用单语语料及汉英及越英词典抽取汉越双语词典是一个很值得探索的工作.本文提出了一种基于枢轴语言的汉-越双语词典构建方法.该方法首先利用单语语料分别学习汉语、越南语及英语词向量表示.然后以汉语-英语、越南语-英语种子词典作为弱监督信息,学习汉语-英语、越南语-英语对齐关系,以建立汉语-英语、越南语-英语的对齐关系.在此基础上,在英语枢轴词向量共享空间中通过对抗网络学习汉-越的对齐关系.最后在汉越对齐关系上抽取获得汉越双语词典.实验结果表明本方法比基于平行语料的有监督模型提升了3.24%的准确率,准确率达61.82%.
-
关键词
汉-越
双语词典构建
枢轴
种子词典
弱监督
对抗网络
-
Keywords
Chinese-Vietnamese
bilingual dictionary construction
pivot
seed dictionary
weak supervision
adversarial network
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名融合上下文语义信息的汉越平行短语对抽取方法
- 2
-
-
作者
杨舰
高盛祥
余正涛
朱浩东
文永华
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《云南民族大学学报(自然科学版)》
CAS
2021年第3期264-271,共8页
-
基金
云南省重大科技专项计划(202002AD080001)
云南省基础研究计划(202001AS070014,2018FB104)
+2 种基金
国家自然科学基金(61761026,61972186,61732005,61762056)
国家重点研发计划(2019QY1802,2019QY1801,2019QY1800)
云南高科技人才项目(201606)。
-
文摘
越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语料训练汉、越向量矩阵;然后预训练编码器,通过注意力机制将句子编码信息和短语编码信息进行结合,生成含有上下文语义信息的单语短语向量,同时将平行短语对作为约束,使汉越短语向量在语义空间中距离最小化,非平行短语对的距离最大化,得到汉越双语短语向量表示;最后利用预训练好的编码器来对平行短语对分类器进行训练.实验结果证明,所训练的分类器的准确度达到75.62%,同时,为了检测抽取出来的平行短语对质量,将其添加到SMT的训练语料中,与基线系统相比,提升了0.93Bleu.
-
关键词
上下文语义信息
半监督自编码器
平行短语对抽取
汉-越
可比语料
-
Keywords
contextual semantic information
Semi-AutoEncoder
extraction of parallel phrase pairs
Chinese-Vietnamese
comparable corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合关键词和语义特征的汉越文本相似度计算
- 3
-
-
作者
潘润海
高盛祥
余正涛
刘奕洋
尤丛丛
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第6期1309-1314,共6页
-
基金
国家自然科学基金项目(61761026,61972186,61732005,61672271,61762056)资助
国家重点研发计划项目(2019QY1802,2019QY1801,2019QY1800)资助
+3 种基金
云南省高科技人才项目(201606,202105AC160018)资助
云南省重大科技专项计划项目(202002AD080001-5,202103AA080015)资助
云南省基础研究计划项目(202001AS070014,2018FB104)资助
昆明理工大学省级人培项目(KKSY201703005)资助.
-
文摘
汉越文本相似度计算是实现汉越文本理解和文本分类的基础.目前使用神经网络来计算文本相似度是一个有效方法,但由于文本较长、冗余信息较多,神经网络难以有效捕获文本间的相似信息,同时汉-越平行语料稀缺导致模型泛化性能一般,此方法受到一定限制.故提出一种融合关键词和语义特征的汉越文本相似度计算方法.针对文本较长冗余信息较多,提出使用文本关键词来获得文本关键信息以压缩文本减少冗余,同时计算出文本间关键词相似信息;针对汉-越平行语料稀缺,提出使用知识蒸馏的方法来训练神经网络来对文本进行编码,得到上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断.实验表明,本文提出的方法能有效提升汉-越文本相似度计算的准确率.
-
关键词
汉-越
文本相似度
BERT
关键词
神经网络
-
Keywords
Chinese-Vietnamese
text similarity
BERT
keywords
neural networks
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名基于枢轴语言的汉越神经机器翻译伪平行语料生成
被引量:6
- 4
-
-
作者
贾承勋
赖华
余正涛
文永华
于志强
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第3期542-550,共9页
-
基金
国家重点研发计划(2019QY1801)
国家自然科学基金(61672271,61732005,61761026,61762056,61866020)
云南省高新技术产业专项(201606)。
-
文摘
低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种。目前的研究集中于3种方法的单独使用,缺少方法间融合利用方面的研究工作,针对此问题,提出了融入双语词典的正反向枢轴方法,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在2个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选。汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生更优的伪平行语料,进而显著提升汉越神经机器翻译任务的性能。
-
关键词
汉-越神经机器翻译
伪平行数据生成
词替换
回译
枢轴
-
Keywords
Chinese-Vietnamese neural machine translation
pseudo-parallel data generation
word substitution
back-translation
pivot
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融入语言差异化特征的汉越神经机器翻译译文质量估计
被引量:3
- 5
-
-
作者
邹翔
朱俊国
高盛祥
余正涛
杨福岸
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第7期1413-1418,共6页
-
基金
国家自然科学基金项目(61732005,61761026,61672271,61866020)资助
国家重点研发计划项目(2019QY1802,2019QY1801,2019QY1800)资助
+1 种基金
云南省重大科技专项计划项目(202002AD080001)资助
云南省人培项目(KKSY201903018)资助.
-
文摘
译文质量估计是机器翻译领域中一个重要的子任务,该任务旨在不依靠参考译文的情况下对机器译文进行质量分析.当前,译文质量估计任务在汉英、英德机器翻译上有较好的表现,技术相对成熟.但是将模型应用到汉-越神经机器翻译中面临较多问题.尤其是译文质量估计模型在汉越平行数据中提取到的语言特征不能够充分地体现汉语与越南语之间的语言特点,加之汉语与越南语之间语序与句法结构也存在明显的差异.针对上述问题,本文采用统计对齐的方法对汉越之间结构差异进行建模,提取汉语与越南语之间的语言差异化特征,以提升汉越译文质量估计的效果.实验结果表明,融入语言差异化特征在汉-越和越-汉两个方向上较基线模型分别提升了0.52个百分点和0.35个百分点.
-
关键词
质量估计
汉越平行数据
语言特点
差异化特征
汉-越神经机器翻译
-
Keywords
quality estimates
Chinese-Vietnamese parallel data
linguistic characteristics
differentiation features
Chinese-Vietnamese neural machine translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语替换的汉越伪平行句对生成
被引量:2
- 6
-
-
作者
贾承勋
赖华
余正涛
文永华
于志强
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2021年第8期47-55,共9页
-
基金
国家重点研发计划(2019QY1801)
国家自然科学基金(61672271,61732005,61761026,61762056,61866020)
云南省高新技术产业专项(201606)
-
文摘
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。
-
关键词
汉-越神经机器翻译
数据增强
伪平行句对
短语对齐表
短语替换
-
Keywords
Chinese-Vietnamese neural machine translation
data augmentation
pseudo-parallel sentence pairs
phrase alignment table
phrase substitute
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名汉-越形容词重叠式作定语对比研究
- 7
-
-
作者
NGUYEN THI THUY TRANG
-
机构
郑州大学文学院
-
出处
《汉字文化》
2022年第5期148-151,共4页
-
文摘
文章对汉语和越南语的形容词重叠式作定语进行对比分析,旨在帮助汉语学习者在学习过程中明晰汉-越形容词重叠式作定语的差异,从而更好地把握难点,避免错误。
-
关键词
形容词重叠式
定语
汉-越对比研究
-
分类号
H195.3
[语言文字—汉语]
-
-
题名基于句法差异的汉-越平行句对抽取
- 8
-
-
作者
于志强
高明虎
陈宇星
-
机构
云南民族大学信息与网络中心
-
出处
《云南民族大学学报(自然科学版)》
CAS
2020年第4期366-370,共5页
-
基金
国家自然科学基金(61866020)
云南省教育厅科学研究基金(2019J0674).
-
文摘
低资源环境下,受限于平行语料的规模和质量,神经机器翻译的效果并不理想.汉-越神经机器翻译作为典型的低资源型机器翻译,同样面临平行语料匮乏的问题.针对这一问题提出了基于句法差异的汉-越平行句对抽取方法.一方面,分析了汉语和越南语间的句法差异,通过词性标签对差异进行表述;另一方面,利用孪生结构的循环神经网络,在编码过程中融入句法差异信息,从句法规则角度更好的指导抽取过程.实验表明,基于汉越可比语料所提方法能够有效地抽取出高质量汉越平行句对.
-
关键词
句法特征
平行句对抽取
孪生循环神经网络
汉-越机器翻译
-
Keywords
syntactic feature
parallel sentence pair extraction
Siamese recurrent neural network
Chinese-Vietnam machine translation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名借助汉-越双语词对齐语料构建越南语依存树库
- 9
-
-
作者
李发杰
余正涛
郭剑毅
李英
周兰江
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2015年第6期69-74,共6页
-
基金
国家自然科学基金(61262041
61472168)
云南省自然科学基金(2013FA030)
-
文摘
由于对越南语的研究工作相对较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难得多,所以该文提出了一种借助汉-越双语词对齐语料构建越南语依存树库的方法。首先对汉语-越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉-越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该方法相比采用机器学习的方法准确率明显提高。
-
关键词
越南语依存树库
汉语依存句法分析
汉-越语言对齐关系
-
Keywords
vietnamese dependency treebank
chinese dependency parsing
word alignment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-