期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进字节对编码的汉藏机器翻译研究
被引量:
12
1
作者
头旦才让
仁青东主
+2 位作者
尼玛扎西
于永斌
邓权芯
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2021年第2期249-255,293,共8页
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.8...
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。该模型的命名实体翻译效果优于已商用汉藏在线翻译系统。同时,该文的神经机器翻译模型已部署于汉藏机器翻译网站,实现了汉藏神经机器翻译系统的应用推广。
展开更多
关键词
注意力机制
字节对编码
汉藏神经机器翻译
命名实体识别
下载PDF
职称材料
基于神经网络迁移学习的蒙汉机器翻译方法
被引量:
6
2
作者
赵亚平
苏依拉
+1 位作者
牛向华
仁庆道尔吉
《计算机应用与软件》
北大核心
2020年第1期179-185,共7页
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实...
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。
展开更多
关键词
机器翻译
神经网络
迁移学习
字节对编码
未登录词
下载PDF
职称材料
位置结构导向的多模态代码摘要生成方法
3
作者
张学君
侯霞
《北京信息科技大学学报(自然科学版)》
2024年第2期43-49,共7页
针对软件维护中的自动代码摘要任务,提出了一种创新的模型,旨在解决现有方法在保留源代码语义结构信息方面的不足。该模型采用图神经网络和Transformer技术,以更全面地捕捉代码的语义信息和结构信息。此外,采用字节对编码算法来处理未...
针对软件维护中的自动代码摘要任务,提出了一种创新的模型,旨在解决现有方法在保留源代码语义结构信息方面的不足。该模型采用图神经网络和Transformer技术,以更全面地捕捉代码的语义信息和结构信息。此外,采用字节对编码算法来处理未登录词问题,并通过四元组的形式保留抽象语法树的结构信息。这样的组合使得模型在处理源代码时不仅能够全面地捕捉代码的语义特征,还能够准确地学习到代码的语法结构。在真实Java数据集上的实验结果表明,该模型在BLEU、METEOR和ROUGE指标上均优于基线模型,从而验证了其在生成更准确代码摘要方面的有效性。
展开更多
关键词
自动代码摘要
字节对编码
抽象语法树
TRANSFORMER
下载PDF
职称材料
基于预训练与音素字节对编码的越南语识别
被引量:
1
4
作者
沈之杰
郭武
《数据采集与处理》
CSCD
北大核心
2023年第1期101-110,共10页
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC...
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
展开更多
关键词
低资源语音识别
建模单元
字节对编码
音素子词
预训练
越南语识别
下载PDF
职称材料
基于VOLT的藏汉双向机器翻译
被引量:
3
5
作者
孙义栋
拥措
杨丹
《计算机与现代化》
2022年第5期28-32,39,共6页
藏汉词表的生成不仅是藏汉双向机器翻译任务开始的第一步,而且影响着藏汉双向翻译效果。本文通过改进生成藏汉词表来提升下游藏汉双向翻译性能。一方面从词表拼接入手,采用高频使用正常词表,低频使用字节对编码词表的思想,通过反复训练...
藏汉词表的生成不仅是藏汉双向机器翻译任务开始的第一步,而且影响着藏汉双向翻译效果。本文通过改进生成藏汉词表来提升下游藏汉双向翻译性能。一方面从词表拼接入手,采用高频使用正常词表,低频使用字节对编码词表的思想,通过反复训练找到最佳词频阈值;另一方面通过最优传输的词汇学习方法学习生成藏汉词表,并针对藏语本身语言特点进行改进后应用到藏汉双向翻译上。实验结果表明,本文针对藏文语言特点提出的字节对编码加最优传输的词汇学习方法效果最佳,在藏汉翻译任务上BLEU值达到37.35,汉藏翻译任务上BLEU值达到27.60。
展开更多
关键词
藏文词表
字节对编码
藏汉双向翻译
VOLT
下载PDF
职称材料
端到端维吾尔语语音识别研究
被引量:
2
6
作者
丁枫林
郭武
孙健
《小型微型计算机系统》
CSCD
北大核心
2020年第1期19-23,共5页
近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维...
近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维吾尔语语音识别上.考虑到维吾尔语属于典型的黏着语,其丰富的构词形式使得维吾尔语的词汇量异常庞大,本文引入字节对编码算法进行建模单元的生成,从而获得合适的端到端建模输出单元.在King-ASR450维吾尔语数据集上,提出的算法明显优于基于隐马尔可夫模型的经典混合系统和基于双向长短时记忆网络的端到端模型,最终识别词准确率为91.35%.
展开更多
关键词
语音识别
维吾尔语
端到端
自注意力
字节对编码
链接时序分类
下载PDF
职称材料
基于子词单元的深度学习摘要生成方法
7
作者
陈雪雯
《计算机应用与软件》
北大核心
2020年第3期202-208,共7页
现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;...
现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;提出一种基于关键短语的重排序机制,利用源文本中抽取的关键短语对集束搜索生成的候选序列进行重新排序,以减小其与源文本语义上的距离;对文本进行子词单元提取,利用更细粒度的单元对文本进行表示。该方法在不同长度的摘要数据集上进行实验,均取得了良好的效果。
展开更多
关键词
生成式文本摘要
字节对编码
集束搜索
深度学习
下载PDF
职称材料
基于语种相似性挖掘的神经机器翻译语料库扩充方法
8
作者
李灿
杨雅婷
+1 位作者
马玉鹏
董瑞
《计算机应用》
CSCD
北大核心
2021年第11期3145-3150,共6页
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处...
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
展开更多
关键词
相似语种
语料扩充
机器翻译
字节对编码
音节切分
基于音节切分的字节对编码
“开始-中部-结束”序列标注方法
下载PDF
职称材料
题名
基于改进字节对编码的汉藏机器翻译研究
被引量:
12
1
作者
头旦才让
仁青东主
尼玛扎西
于永斌
邓权芯
机构
青海师范大学藏文信息处理教育部重点实验室
西藏大学信息科学技术学院
电子科技大学信息与软件工程学院
出处
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2021年第2期249-255,293,共8页
基金
国家自然科学基金(61262051)
国家社会科学基金(19XYY021)
+1 种基金
国家重点研发计划重点专项(2017YFB1402200)
青海省科技计划(2017-GX-146,2017-ZJ-767)。
文摘
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。该模型的命名实体翻译效果优于已商用汉藏在线翻译系统。同时,该文的神经机器翻译模型已部署于汉藏机器翻译网站,实现了汉藏神经机器翻译系统的应用推广。
关键词
注意力机制
字节对编码
汉藏神经机器翻译
命名实体识别
Keywords
attention
mechanism
byte
pair
encoding
Chinese-Tibetan
neural
machine
translation
named
entity
recognition
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于神经网络迁移学习的蒙汉机器翻译方法
被引量:
6
2
作者
赵亚平
苏依拉
牛向华
仁庆道尔吉
机构
内蒙古工业大学信息工程学院
出处
《计算机应用与软件》
北大核心
2020年第1期179-185,共7页
基金
国家自然科学基金项目(61363052,61502255)
内蒙古自治区自然科学基金项目(2016MS0605)
内蒙古自治区民族事务委员会基金项目(MW-2017-MGYWXXH-03)
文摘
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。
关键词
机器翻译
神经网络
迁移学习
字节对编码
未登录词
Keywords
Machine
translation
Neural
network
Transfer
learning
byte
pair
encoding
Unknown
words
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
位置结构导向的多模态代码摘要生成方法
3
作者
张学君
侯霞
机构
北京信息科技大学计算机学院
出处
《北京信息科技大学学报(自然科学版)》
2024年第2期43-49,共7页
基金
北京市自然科学基金青年项目(4224090)。
文摘
针对软件维护中的自动代码摘要任务,提出了一种创新的模型,旨在解决现有方法在保留源代码语义结构信息方面的不足。该模型采用图神经网络和Transformer技术,以更全面地捕捉代码的语义信息和结构信息。此外,采用字节对编码算法来处理未登录词问题,并通过四元组的形式保留抽象语法树的结构信息。这样的组合使得模型在处理源代码时不仅能够全面地捕捉代码的语义特征,还能够准确地学习到代码的语法结构。在真实Java数据集上的实验结果表明,该模型在BLEU、METEOR和ROUGE指标上均优于基线模型,从而验证了其在生成更准确代码摘要方面的有效性。
关键词
自动代码摘要
字节对编码
抽象语法树
TRANSFORMER
Keywords
automatic
code
summarization
byte
pair
encoding
abstract
syntax
tree
Transformer
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于预训练与音素字节对编码的越南语识别
被引量:
1
4
作者
沈之杰
郭武
机构
中国科学技术大学电子工程与信息科学系
出处
《数据采集与处理》
CSCD
北大核心
2023年第1期101-110,共10页
基金
国家自然科学基金(U1836219)。
文摘
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
关键词
低资源语音识别
建模单元
字节对编码
音素子词
预训练
越南语识别
Keywords
low-resource
speech
recognition
modeling
unit
byte
-
pair
encoding
phone
based
subword
pretraining
Vietnamese
speech
recognition
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于VOLT的藏汉双向机器翻译
被引量:
3
5
作者
孙义栋
拥措
杨丹
机构
西藏大学信息科学技术学院
西藏自治区藏文信息技术人工智能重点实验室
藏文信息技术教育部工程研究中心
出处
《计算机与现代化》
2022年第5期28-32,39,共6页
基金
国家重点研发计划项目(2017YFB1402200)
国家自然科学基金资助项目(61262086)
+1 种基金
西藏大学高水平人才培养计划项目(2019-GSP-S117)
西藏自治区教育厅“计算机及藏文信息技术国家级团队和重点实验室建设”项目(藏教财指[2018]81号)。
文摘
藏汉词表的生成不仅是藏汉双向机器翻译任务开始的第一步,而且影响着藏汉双向翻译效果。本文通过改进生成藏汉词表来提升下游藏汉双向翻译性能。一方面从词表拼接入手,采用高频使用正常词表,低频使用字节对编码词表的思想,通过反复训练找到最佳词频阈值;另一方面通过最优传输的词汇学习方法学习生成藏汉词表,并针对藏语本身语言特点进行改进后应用到藏汉双向翻译上。实验结果表明,本文针对藏文语言特点提出的字节对编码加最优传输的词汇学习方法效果最佳,在藏汉翻译任务上BLEU值达到37.35,汉藏翻译任务上BLEU值达到27.60。
关键词
藏文词表
字节对编码
藏汉双向翻译
VOLT
Keywords
Tibetan
word
list
byte
pair
encoding
two-way
Tibetan-Chinese
translation
VOLT
分类号
TP38 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
端到端维吾尔语语音识别研究
被引量:
2
6
作者
丁枫林
郭武
孙健
机构
中国科学技术大学语音及语言信息处理国家工程实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第1期19-23,共5页
基金
科技部国家重点研发计划16年项目(YF2100060003)资助
文摘
近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维吾尔语语音识别上.考虑到维吾尔语属于典型的黏着语,其丰富的构词形式使得维吾尔语的词汇量异常庞大,本文引入字节对编码算法进行建模单元的生成,从而获得合适的端到端建模输出单元.在King-ASR450维吾尔语数据集上,提出的算法明显优于基于隐马尔可夫模型的经典混合系统和基于双向长短时记忆网络的端到端模型,最终识别词准确率为91.35%.
关键词
语音识别
维吾尔语
端到端
自注意力
字节对编码
链接时序分类
Keywords
automatic
speech
recognition
uyghur
end-to-end
self-attention
byte
pair
encoding
connectionist
temporal
classification
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于子词单元的深度学习摘要生成方法
7
作者
陈雪雯
机构
中国科学技术大学计算机科学与技术学院中国科大-伯明翰大学智能计算与应用联合研究所
出处
《计算机应用与软件》
北大核心
2020年第3期202-208,共7页
文摘
现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;提出一种基于关键短语的重排序机制,利用源文本中抽取的关键短语对集束搜索生成的候选序列进行重新排序,以减小其与源文本语义上的距离;对文本进行子词单元提取,利用更细粒度的单元对文本进行表示。该方法在不同长度的摘要数据集上进行实验,均取得了良好的效果。
关键词
生成式文本摘要
字节对编码
集束搜索
深度学习
Keywords
Generative
text
abstract
byte
pair
encoding
Beam
search
Deep
learning
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于语种相似性挖掘的神经机器翻译语料库扩充方法
8
作者
李灿
杨雅婷
马玉鹏
董瑞
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室(中国科学院新疆理化技术研究所)
出处
《计算机应用》
CSCD
北大核心
2021年第11期3145-3150,共6页
基金
国家自然科学基金资助项目(U1703133)
国家重点研发计划项目(2017YFC0822505-04)
+2 种基金
中国科学院“西部之光”人才培养计划A类项目(2017-XBQNXZ-A-005)
中国科学院青年创新促进会项目(2017472号)
新疆高层次引进人才项目(新人社函[2017]699号)。
文摘
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
关键词
相似语种
语料扩充
机器翻译
字节对编码
音节切分
基于音节切分的字节对编码
“开始-中部-结束”序列标注方法
Keywords
similar
language
corpus
expansion
machine
translation
byte
pair
encoding
(BPE)
syllable
segmentation
byte
pair
encoding
(BPE)based
on
syllable
segmentation
“Begin-Middle-End(BME)”sequence
tagging
method
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进字节对编码的汉藏机器翻译研究
头旦才让
仁青东主
尼玛扎西
于永斌
邓权芯
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2021
12
下载PDF
职称材料
2
基于神经网络迁移学习的蒙汉机器翻译方法
赵亚平
苏依拉
牛向华
仁庆道尔吉
《计算机应用与软件》
北大核心
2020
6
下载PDF
职称材料
3
位置结构导向的多模态代码摘要生成方法
张学君
侯霞
《北京信息科技大学学报(自然科学版)》
2024
0
下载PDF
职称材料
4
基于预训练与音素字节对编码的越南语识别
沈之杰
郭武
《数据采集与处理》
CSCD
北大核心
2023
1
下载PDF
职称材料
5
基于VOLT的藏汉双向机器翻译
孙义栋
拥措
杨丹
《计算机与现代化》
2022
3
下载PDF
职称材料
6
端到端维吾尔语语音识别研究
丁枫林
郭武
孙健
《小型微型计算机系统》
CSCD
北大核心
2020
2
下载PDF
职称材料
7
基于子词单元的深度学习摘要生成方法
陈雪雯
《计算机应用与软件》
北大核心
2020
0
下载PDF
职称材料
8
基于语种相似性挖掘的神经机器翻译语料库扩充方法
李灿
杨雅婷
马玉鹏
董瑞
《计算机应用》
CSCD
北大核心
2021
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部