-
题名基于神经网络的低码率语音编码技术研究综述
- 1
-
-
作者
王晶
徐亮
陈晓娇
谢湘
费泽松
-
机构
北京理工大学信息与电子学院
-
出处
《信号处理》
CSCD
北大核心
2024年第12期2261-2280,共20页
-
基金
国家重点研发计划(2022YFB2902003)
国家自然科学基金(62071039)。
-
文摘
语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下降,极大程度上影响了用户的听觉体验。随着人工智能技术的不断进步,深度神经网络模型在语音处理任务中的应用也日益广泛,其性能普遍远超传统方法。在语音编解码领域,近年来很多研究也开始关注如何将神经网络模块融入编解码器,以实现更高效的语音传输,旨在低码率下实现传统方案无法达到的性能,为无线或网络语音传输提供新的解决方案。本文对基于神经网络的低码率语音编解码算法进行全面的整理分析和分类汇总,详细介绍了使用传统方法与神经网络结合的混合式编解码器以及使用编码器-解码器联合训练的端到端编解码器的发展历程、原理、特点及评价指标,并总结了这些方法的优势与不足。最后,结合当前各类编解码器的发展状况,对低速率语音编解码器的未来进行展望。基于神经网络的低码率语音编码技术有望解决实际通话中传输带宽受限时通话质量不佳的问题,为实时语音通信的进一步发展提供有力支持,并为未来压缩编码的研究方向提供新的思路。
-
关键词
语音编码
低码率
神经网络
混合式编码器
端到端编码器
-
Keywords
speech coding
low bitrate
neural network
hybrid codec
end-to-end codec
-
分类号
TN912
[电子电信—通信与信息系统]
-