Kaldi为目前主流桌面端语音识别的人工智能框架,随着智能家居产品语音识别的需求增长,针对嵌入式硬件实现语音识别显得十分重要。针对Kaldi进行交叉编译并实现了基于ARM Cortex-A72内核的Raspberry Pi 4B嵌入式平台的移植,结合ReSpeaker...Kaldi为目前主流桌面端语音识别的人工智能框架,随着智能家居产品语音识别的需求增长,针对嵌入式硬件实现语音识别显得十分重要。针对Kaldi进行交叉编译并实现了基于ARM Cortex-A72内核的Raspberry Pi 4B嵌入式平台的移植,结合ReSpeaker 2-Mics Pi HAT,使用深度神经网络隐马科夫模型,实现了嵌入式实时离线大词汇量连续语音识别。实验结果表明,Kalid在嵌入式设备上运行语音识别算法时,并非预期的增加语音识别算法使用的CPU核心并行数有利于语音识别的响应时间。由于受制于算法框架和硬件资源的限制,应选择适合硬件条件的核心数来并行运算语音识别算法最佳,从而保证语音识别的速度。展开更多
在基于双麦克风的声学场景分析中,当双麦克风间距变小并且多个声源不断运动时,传统方法对于多个运动声源角度估计的准确性会降低。该文提出了一种适用于近距离双麦克风,对多个运动声源方向进行估计的方法。该方法提出利用改进的Gammaton...在基于双麦克风的声学场景分析中,当双麦克风间距变小并且多个声源不断运动时,传统方法对于多个运动声源角度估计的准确性会降低。该文提出了一种适用于近距离双麦克风,对多个运动声源方向进行估计的方法。该方法提出利用改进的Gammatone滤波器对混合声源样本进行时频分析,通过提取与声源方向相对应的过零点时间差(zero-crossing time difference,ZCTD)的特征信息,利用Gauss函数对ZCTD进行统计分析,最终实现多个运动声源方向的确定。对于不同性质、不同速度、不同轨迹的多个运动声源,测试结果表明:该方法对其角度的估计准确性较好。展开更多
文摘提出了利用频域的独立成分分析(Independent components analysis)算法分离语音信号和噪声信号,达到抑制噪声的效果。并且,针对ICA算法在噪声源集中的环境中效果较好,在噪声源分散的环境中性能有所退化的情况,基于时域带噪信号的ICA算法提出频域带噪信号的ICA算法。最后利用最小均方误差估计谱幅度算法(Minimum mean square error)去除残留噪声,达到较好的语音增强效果。通过大量的实验数据测试,文中提出的基于ICA和MMSE短时谱幅度估计的双麦克语音增强算法在不同信噪比(Signal to Noise Ratio)下,都取得了良好的降噪效果。
文摘Kaldi为目前主流桌面端语音识别的人工智能框架,随着智能家居产品语音识别的需求增长,针对嵌入式硬件实现语音识别显得十分重要。针对Kaldi进行交叉编译并实现了基于ARM Cortex-A72内核的Raspberry Pi 4B嵌入式平台的移植,结合ReSpeaker 2-Mics Pi HAT,使用深度神经网络隐马科夫模型,实现了嵌入式实时离线大词汇量连续语音识别。实验结果表明,Kalid在嵌入式设备上运行语音识别算法时,并非预期的增加语音识别算法使用的CPU核心并行数有利于语音识别的响应时间。由于受制于算法框架和硬件资源的限制,应选择适合硬件条件的核心数来并行运算语音识别算法最佳,从而保证语音识别的速度。
文摘在基于双麦克风的声学场景分析中,当双麦克风间距变小并且多个声源不断运动时,传统方法对于多个运动声源角度估计的准确性会降低。该文提出了一种适用于近距离双麦克风,对多个运动声源方向进行估计的方法。该方法提出利用改进的Gammatone滤波器对混合声源样本进行时频分析,通过提取与声源方向相对应的过零点时间差(zero-crossing time difference,ZCTD)的特征信息,利用Gauss函数对ZCTD进行统计分析,最终实现多个运动声源方向的确定。对于不同性质、不同速度、不同轨迹的多个运动声源,测试结果表明:该方法对其角度的估计准确性较好。