期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
Transformer在语音识别任务中的研究现状与展望 被引量:15
1
作者 张晓旭 马志强 +2 位作者 刘志强 朱方圆 王春喻 《计算机科学与探索》 CSCD 北大核心 2021年第9期1578-1594,共17页
Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点。Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习。对于语音识别任务来说,重点是把输入... Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点。Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习。对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本。过去的做法是将声学模型、发音词典和语言模型组成语音识别系统来实现语音识别任务,而Transformer可以将声学、发音和语言模型集成到单个神经网络中形成端到端语音识别系统,解决了传统语音识别系统的强制对齐和多模块训练等问题。因此,探讨Transformer在语音识别任务中存在的问题是非常有必要的。首先介绍Transformer的模型结构,并且从输入语音序列、深层模型结构和模型推理过程三方面对语音识别任务面临的问题进行分析;其次对现阶段解决语音识别中Transformer模型存在输入语音序列、深层模型结构和模型推理过程的问题进行方法总结和简要概述;最后对Transformer在语音识别任务中的应用方向进行总结和展望。 展开更多
关键词 TRANSFORMER 深度学习 端到端 语音识别
下载PDF
TCN-Transformer-CTC的端到端语音识别 被引量:11
2
作者 谢旭康 陈戈 +1 位作者 孙俊 陈祺东 《计算机应用研究》 CSCD 北大核心 2022年第3期699-703,共5页
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经... 基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。 展开更多
关键词 端到端语音识别 TRANSFORMER 时序卷积神经网络 连接时序分类
下载PDF
使用Conformer增强的混合CTC/Attention端到端中文语音识别 被引量:5
3
作者 陈戈 谢旭康 +1 位作者 孙俊 陈祺东 《计算机工程与应用》 CSCD 北大核心 2023年第4期97-103,共7页
最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问... 最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型。由于Attention过于灵活的对齐方式,使得在嘈杂环境中的效果急剧下降,采用连接时序分类(connectionist temporal classification,CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出了效果更好的Conformer-LAS-CTC语音识别模型。在开源中文普通话Aishell-1数据集上对提出来的模型进行验证,实验结果表明,Conformer-LAS-CTC相对于采用的基线BLSTM-LAS和Transformer-LAS模型在测试集上的字错率分别相对降低了22.58%和48.76%,模型最终字错误率为4.54%。 展开更多
关键词 端到端 语音识别 CONFORMER LAS 连接时序分类
下载PDF
融合语言模型的端到端濒危语言语音识别研究
4
作者 阮征 于重重 +1 位作者 钱兆鹏 吴佳佳 《计算机仿真》 2024年第7期330-335,共6页
保护濒危语言的有效方法主要是保存该语言的语音和视频数据,并需要母语人士和专业领域的语言学家对语料进行标注。土家语是无文字濒危语言,由于语料资源匮乏及其独特的语法结构,不仅导致语音识别准确性低,而且仅停留在语音层面。故提出... 保护濒危语言的有效方法主要是保存该语言的语音和视频数据,并需要母语人士和专业领域的语言学家对语料进行标注。土家语是无文字濒危语言,由于语料资源匮乏及其独特的语法结构,不仅导致语音识别准确性低,而且仅停留在语音层面。故提出融合汉语对译词级语言模型的端到端语音识别模型,将语言模型融合到声学模型的解码阶段进行联合解码,输出中文序列标记的土家语。该模型首先搭建基于Attention-CTC的混合语音识别模型;其次通过基于词法信息的建模单元为词级国际音标序列的TransLM(基于transformer的词级语言模型)模型,输出对译序列。在土家语语音数据上的实验表明该模型针对土家语的识别相比较基于Attention的和基于CTC的模型在WER指标上分别降低了10.3%和9.6%,为未来研究如何提升将语音信号转为国际音标序列的正确率做了有效尝试。 展开更多
关键词 濒危语言 无文字语言 端到端语音识别 语言模型 注意力机制
下载PDF
基于改进Conformer的新闻领域端到端语音识别
5
作者 张济民 早克热·卡德尔 +2 位作者 艾山·吾买尔 申云飞 汪烈军 《中文信息学报》 CSCD 北大核心 2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进... 目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。 展开更多
关键词 端到端语音识别 CONFORMER 句子层级一致性
下载PDF
混合连接时间/注意力机制端到端语音识别 被引量:5
6
作者 陈聪 贺杰 陈佳 《控制工程》 CSCD 北大核心 2021年第3期585-591,共7页
为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音... 为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。 展开更多
关键词 隐式马尔可夫 连接时间分类 注意力机制 端到端 语音识别
下载PDF
基于端到端的多语种语音识别研究 被引量:4
7
作者 胡文轩 王秋林 +2 位作者 李松 洪青阳 李琳 《信号处理》 CSCD 北大核心 2021年第10期1816-1824,共9页
端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担。本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统。该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集... 端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担。本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统。该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符。模型训练生成单一模型,其网络参数为所有语种共享。在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀。 展开更多
关键词 端到端 语音识别 多语种 低资源 联合学习
下载PDF
基于分解门控注意力单元的高效Conformer模型
8
作者 李宜亭 屈丹 +2 位作者 杨绪魁 张昊 沈小龙 《计算机工程》 CAS CSCD 北大核心 2023年第5期73-80,共8页
为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高... 为利用有限的存储和计算资源,在保证Conformer端到端语音识别模型精度的前提下,减少模型参数量并加快训练和识别速度,构建一个基于分解门控注意力单元与低秩分解的高效Conformer模型。在前馈和卷积模块中,通过低秩分解进行计算加速,提高Conformer模型的泛化能力。在自注意力模块中,使用分解门控注意力单元降低注意力计算复杂度,同时引入余弦加权机制对门控注意力进行加权保证其向邻近位置集中,提高模型识别精度。在AISHELL-1数据集上的实验结果表明,在引入分解门控注意力单元和余弦编码后,该模型的参数量和语音识别字符错误率(CER)明显降低,尤其当参数量被压缩为Conformer端到端语音识别模型的50%后语音识别CER仅增加了0.34个百分点,并且具有较低的计算复杂度和较高的语音识别精度。 展开更多
关键词 端到端语音识别 Conformer模型 分解门控注意力单元 模型压缩 低秩分解
下载PDF
基于拼音约束联合学习的汉语语音识别 被引量:2
9
作者 梁仁凤 余正涛 +3 位作者 高盛祥 黄于欣 郭军军 许树理 《中文信息学报》 CSCD 北大核心 2022年第10期167-172,共6页
当前的语音识别模型在英语、法语等表音文字中已取得很好的效果。然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系。因此,在汉语语音识别中利用拼音作为解码... 当前的语音识别模型在英语、法语等表音文字中已取得很好的效果。然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系。因此,在汉语语音识别中利用拼音作为解码时的约束,可以引入一种更接近语音的归纳偏置。该文基于多任务学习框架,提出一种基于拼音约束联合学习的汉语语音识别方法,以端到端的汉字语音识别为主任务,以拼音语音识别为辅助任务,通过共享编码器,同时利用汉字与拼音识别结果作为监督信号,增强编码器对汉语语音的表达能力。实验结果表明,相比基线模型,该文提出的方法取得了更优的识别效果,词错误率降低了2.24%。 展开更多
关键词 端到端 汉语语音识别 联合学习 拼音
下载PDF
基于Conformer的端到端语音识别模型的压缩优化策略 被引量:1
10
作者 桑江坤 努尔麦麦提·尤鲁瓦斯 《信号处理》 CSCD 北大核心 2022年第12期2639-2649,共11页
随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以... 随着深度学习的兴起,端到端语音识别模型受到越来越多的关注。最近,基于Conformer框架的提出,使得端到端语音识别模型的性能得到进一步的提升,同时在语音识别领域也得到了广泛的应用。然而,这些端到端模型由于内存和计算需求较大,所以在资源有限的设备上部署和推理是受限的。该文为了保证模型精度损失较小的情况下,尽可能地减少模型的大小和计算量,分别采用了模型量化,基于权重通道的结构化剪枝以及奇异值分解等三种压缩优化策略,同时对模型量化进行了改进。探究了不同程度的压缩对模型精度损失所造成的影响。通过结合这些策略在不同设备进行了测试,相比于基线在其字错误率误差小于3%的情况下,模型推理识别的速度约提升3~4倍。 展开更多
关键词 深度学习 端到端语音识别 CONFORMER 量化 剪枝 分解
下载PDF
基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别 被引量:2
11
作者 王一鸣 陈恳 萨阿卜杜萨拉木·艾海提拉木 《电信科学》 2019年第12期79-89,共11页
提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长... 提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。 展开更多
关键词 端到端 视听语音识别 稀疏瓶颈特征 注意力机制
下载PDF
探究端到端的深度卷积神经网络语音识别
12
作者 张守叶 《软件》 2022年第3期173-176,共4页
深度卷积神经网络是常用的语音识别模型,可通过卷积结构,保证语音信号时域、频域的平移特性,但是,深度卷积神经网络在实际应用中,仍然会出现语音信号建模能力不足的情况,因此,构建深度卷积神经网络模型,并引入残差块结构,通过Maxout激... 深度卷积神经网络是常用的语音识别模型,可通过卷积结构,保证语音信号时域、频域的平移特性,但是,深度卷积神经网络在实际应用中,仍然会出现语音信号建模能力不足的情况,因此,构建深度卷积神经网络模型,并引入残差块结构,通过Maxout激活函数,对深度卷积神经网络模型进行优化,利用TIMIT语音库进行实验,实验结果表明,深度卷积神经网络模型的准确率提高,语音识别精准度提升,可应用于实践操作中。 展开更多
关键词 端到端 深度卷积神经网络 语音识别
下载PDF
基于智能算法的英语翻译器语音识别方法
13
作者 温湛靓 《自动化与仪器仪表》 2022年第12期162-165,共4页
为了解决英语翻译器中语音识别的精度较低的问题,提出一种基于智能算法的英语翻译器语音识别方法。首先采集语音信息,再提取语音信号特征;然后基于谱分解模型对语音信号特征进行预处理;最后设计一种翻译器语音识别方法,实现英语翻译器... 为了解决英语翻译器中语音识别的精度较低的问题,提出一种基于智能算法的英语翻译器语音识别方法。首先采集语音信息,再提取语音信号特征;然后基于谱分解模型对语音信号特征进行预处理;最后设计一种翻译器语音识别方法,实现英语翻译器语音识别方法的设计。仿真测试结果表明,采用设计方法后,英语翻译器语音识别准确率最高为96.13%,识别时间最长仅为1.77 s,说明本方法的准确配准能力较强,识别效率较高,具有一定应用价值。 展开更多
关键词 智能算法 谱分解模型 端到端建模 英语翻译器 语音识别 频谱特征分解
原文传递
基于端到端的蒙古语异形同音词声学建模方法
14
作者 陈艳 李图雅 +2 位作者 马志强 谢秀兰 王洪彬 《中文信息学报》 CSCD 北大核心 2022年第3期27-35,共9页
蒙古语声学模型的训练过程是模型学习发音数据与标注数据之间关系的一个过程。针对以音素为建模粒子的蒙古语声学模型建模,由于蒙古语词的发音与语义存在一对多映射现象,会造成解码出的蒙古语文本错误,进而导致蒙古语语音识别系统识别... 蒙古语声学模型的训练过程是模型学习发音数据与标注数据之间关系的一个过程。针对以音素为建模粒子的蒙古语声学模型建模,由于蒙古语词的发音与语义存在一对多映射现象,会造成解码出的蒙古语文本错误,进而导致蒙古语语音识别系统识别率降低的问题。对此,该文以端到端模型为基础,以蒙古语音素、字母为蒙古语声学模型建模粒子,设计了基于BLSTM-CTC的蒙古语声学模型,并给出了动量训练算法。实验结果表明,基于蒙古语字母的BLSTM-CTC蒙古语声学模型可以有效降低蒙古语语音识别系统中异形同音词的词错率。 展开更多
关键词 异形同音词 建模粒子 端到端 蒙古语声学模型 语音识别
下载PDF
循环神经网络在端到端语音识别中的应用
15
作者 阎艺璇 葛万成 《通信技术》 2019年第11期2659-2663,共5页
当前,循环神经网络(Recurrent Neural Networks,RNN)被广泛应用于语音识别系统。使用循环神经网络与连接时序分类(CTC)进行端到端语音识别建模,基于TED-LIUM v2语料库训练不同结构的网络模型,即单/双向RNN和单/双向LSTM,比较和分析不同... 当前,循环神经网络(Recurrent Neural Networks,RNN)被广泛应用于语音识别系统。使用循环神经网络与连接时序分类(CTC)进行端到端语音识别建模,基于TED-LIUM v2语料库训练不同结构的网络模型,即单/双向RNN和单/双向LSTM,比较和分析不同结构网络模型的语音识别性能。实验结果显示,BLSTM在音素识别性能和学习速度上都取得了最好表现。为解决BLSTM网络的过拟合问题,实验将状态dropout应用于LSTM单元,既能保障BLSTM网络的长时记忆能力,也能减小在训练集与测试集上PER的差异,从而有效改善BLSTM的过拟合问题。 展开更多
关键词 循环神经网络 长短时记忆网络 端到端语音识别 连接时序分类
下载PDF
混合CTC/attention架构端到端带口音普通话识别 被引量:11
16
作者 杨威 胡燕 《计算机应用研究》 CSCD 北大核心 2021年第3期755-759,共5页
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中... 针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。 展开更多
关键词 口音 混合CTC/attention的端到端模型 多头注意力 链接时序主义 语音识别
下载PDF
基于多模态融合的端到端中文唇读识别研究
17
作者 陈焯辉 林绰雅 +3 位作者 刘奕显 王茗琛 梁思敏 陈灵 《科学技术创新》 2023年第10期85-88,共4页
为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字... 为了更好地帮助健全人与听障或语言障碍人士进行交流,构建无障碍社会。构建了一个基于多模态融合的端到端音视频识别系统,实现中文唇语翻译功能。实验结果表明,将所提出的端到端视听语音识别结构体系应用于唇语识别模型,实现了8.0%的字符错误率。与之前的唇语识别模型相比,它在融合图像特征和音频特征方面表现出了良好的性能。 展开更多
关键词 端到端音视觉语音识别结构体系 多模态融合 唇语识别
下载PDF
基于端到端技术的藏语语音识别 被引量:8
18
作者 王庆楠 郭武 解传栋 《模式识别与人工智能》 EI CSCD 北大核心 2017年第4期359-364,共6页
现阶段基于链接时序分类技术的端到端的大规模连续语音识别成为研究热点,文中将其应用于藏语识别中,取得优于主流的双向长短时记忆网络性能.在基于端到端的语音识别中,不需要发音字典等语言学知识,识别性能无法得到保证.文中提出将已有... 现阶段基于链接时序分类技术的端到端的大规模连续语音识别成为研究热点,文中将其应用于藏语识别中,取得优于主流的双向长短时记忆网络性能.在基于端到端的语音识别中,不需要发音字典等语言学知识,识别性能无法得到保证.文中提出将已有的语言学知识结合至端到端的声学建模中,采用绑定的三音子作为建模单元,解决建模单元的稀疏性问题,大幅提高声学建模的区分度和鲁棒性.在藏语测试集上,通过实验证明文中方法提高基于链接时序分类技术的声学模型的识别率,并验证语言学知识和基于端到端声学建模技术结合的有效性. 展开更多
关键词 端到端 藏语 自动语音识别 链接时序分类
下载PDF
基于Transformer的越南语连续语音识别 被引量:2
19
作者 刘佳文 屈丹 +2 位作者 杨绪魁 张昊 唐君 《信息工程大学学报》 2020年第2期129-133,152,共6页
针对现有越南语语音识别模型大量使用循环神经网络,无法并行训练,模型收敛速度慢的问题,构建基于transformer的端到端语音识别模型,加快模型训练的同时,减少对语言学知识的依赖。通过分析越南语发音规律,系统以音素作为识别单元,对识别... 针对现有越南语语音识别模型大量使用循环神经网络,无法并行训练,模型收敛速度慢的问题,构建基于transformer的端到端语音识别模型,加快模型训练的同时,减少对语言学知识的依赖。通过分析越南语发音规律,系统以音素作为识别单元,对识别结果利用基于音节的语言模型进行重打分。实验结果表明,基于transformer的越南语语音识别系统与其他方法相比,能够同时提升识别率和收敛速度。 展开更多
关键词 越南语 TRANSFORMER 端到端 语音识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部