期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
面向多场景的环境异常声音识别 被引量:4
1
作者 郑文宾 何蔚 《科学技术与工程》 北大核心 2023年第17期7444-7449,共6页
随着人工智能和大数据的发展,各种场景中对异常声音识别的需求日益增长,基于人工智能的声音识别技术正在兴起并被高度重视。现行主流的异常声音识别算法多为浅层机器学习模型结构,对异常声音的识别率较低,且识别的声音类型单一。为了有... 随着人工智能和大数据的发展,各种场景中对异常声音识别的需求日益增长,基于人工智能的声音识别技术正在兴起并被高度重视。现行主流的异常声音识别算法多为浅层机器学习模型结构,对异常声音的识别率较低,且识别的声音类型单一。为了有效识别异常声音,提出一种基于梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)和卷积神经网络(convolution neural network,CNN)的环境声音识别算法,对各类异常声音进行采集和有效识别,并及时反馈声音状态,为各类声识别应用场景提供精细化管理技术手段。结果表明:提出的算法对5类场景下环境异常声音的识别率得到极大提高,适用于更广泛的声学场景,具有明显的优势。 展开更多
关键词 异常声音 梅尔频率倒谱系数 卷积神经网络 音频事件检测
下载PDF
基于听觉融合特征的多声音事件检测
2
作者 罗吉 夏秀渝 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期225-231,共7页
为提高多声音事件检测任务的性能,本文深入研究速动压缩非对称谐振器级联CARFAC数字耳蜗模型,并提出了基于听觉融合特征的多声音事件检测方法 .该方法首先利用CARFAC提取混叠声音的神经活动模式图NAP,然后将NAP与GFCC拼接后生成融合听... 为提高多声音事件检测任务的性能,本文深入研究速动压缩非对称谐振器级联CARFAC数字耳蜗模型,并提出了基于听觉融合特征的多声音事件检测方法 .该方法首先利用CARFAC提取混叠声音的神经活动模式图NAP,然后将NAP与GFCC拼接后生成融合听觉特征,并将其送入CRNN神经网络进行全监督学习,以实现对城市声音事件的检测.实验表明,在低信噪比且重叠事件较多的情况下,融合听觉特征较单独的NAP、MFCC以及GFCC等特征具有更好的鲁棒性和多声音事件检测性能. 展开更多
关键词 数字耳蜗模型 神经活动模式 融合听觉特征 声音事件检测 四折交叉验证
下载PDF
Sound event localization and detection based on deep learning
3
作者 ZHAO Dada DING Kai +2 位作者 QI Xiaogang CHEN Yu FENG Hailin 《Journal of Systems Engineering and Electronics》 SCIE CSCD 2024年第2期294-301,共8页
Acoustic source localization(ASL)and sound event detection(SED)are two widely pursued independent research fields.In recent years,in order to achieve a more complete spatial and temporal representation of sound field,... Acoustic source localization(ASL)and sound event detection(SED)are two widely pursued independent research fields.In recent years,in order to achieve a more complete spatial and temporal representation of sound field,sound event localization and detection(SELD)has become a very active research topic.This paper presents a deep learning-based multioverlapping sound event localization and detection algorithm in three-dimensional space.Log-Mel spectrum and generalized cross-correlation spectrum are joined together in channel dimension as input features.These features are classified and regressed in parallel after training by a neural network to obtain sound recognition and localization results respectively.The channel attention mechanism is also introduced in the network to selectively enhance the features containing essential information and suppress the useless features.Finally,a thourough comparison confirms the efficiency and effectiveness of the proposed SELD algorithm.Field experiments show that the proposed algorithm is robust to reverberation and environment and can achieve higher recognition and localization accuracy compared with the baseline method. 展开更多
关键词 sound event localization and detection(SELD) deep learning convolutional recursive neural network(CRNN) channel attention mechanism
下载PDF
音频标记一致性约束CRNN声音事件检测 被引量:4
4
作者 杨利平 郝峻永 +1 位作者 辜小花 侯振威 《电子与信息学报》 EI CSCD 北大核心 2022年第3期1102-1110,共9页
级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频... 级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频标记一致性约束CRNN声音事件检测方法(ATCC-CRNN)。该方法在CRNN模型的声音事件分类网络中添加了CRNN音频标记分支,同时增加了CNN音频标记网络对CRNN网络CNN结构输出的特征图进行音频标记。然后,通过在模型训练阶段限定CNN和CRNN的音频标记预测结果一致使CRNN模型的CNN结构更关注音频标记任务,RNN结构更关注建立音频样本的帧间关系。从而使CRNN模型的CNN和RNN结构具备了不同的特征描述功能。该文在IEEE DCASE 2019国际竞赛家庭环境声音事件检测任务(任务4)的数据集上进行了实验。实验结果显示:提出的ATCC-CRNN方法显著提高了CRNN模型的声音事件检测性能,在验证集和评估集上的F1得分提高了3.7%以上。这表明提出的ATCC-CRNN方法促进了CRNN模型的功能划分,有效改善了CRNN声音事件检测模型的泛化能力。 展开更多
关键词 声音事件检测 音频标记 深度学习 卷积循环神经网络
下载PDF
基于多随机森林的低信噪比声音事件检测 被引量:5
5
作者 李应 印佳丽 《电子学报》 EI CAS CSCD 北大核心 2018年第11期2705-2713,共9页
论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接... 论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接着使用子带能量分布方法,提取声音数据的特征.最后,论文将背景声音与声音事件样本库中所有声音样本按照估算的信噪比相混合,生成混合声音特征训练多随机森林,用于低信噪比声音事件的检测.实验证实,所提出的方法可以用于各种声场景下低信噪比声音事件的检测,并能在信噪比为-5dB的情况下保持67. 1%的平均检测率. 展开更多
关键词 声音事件检测 信噪比 经验模态分解 子带能量分布 随机森林
下载PDF
基于改进池化层的弱标记声音事件检测 被引量:4
6
作者 刘淼 王晶 +1 位作者 董桂官 易伟明 《信号处理》 CSCD 北大核心 2021年第10期1907-1913,共7页
针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神... 针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,我们搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神经网络反向传播中的部分推演过程,并在linear softmax池化层的基础上进行改进,提出了一种"指数可学习的幂函数softmax"池化层。实验结果表明,相比于DCASE竞赛中获得第一名的模型,应用"指数可学习的幂函数softmax"池化层的检测系统,将段级别的声音事件预测的F1值从0.556提高到0.652,帧级别预测的F1值从0.518提高到0.583,帧级别预测的error rate(ER)从0.730降低到0.667。 展开更多
关键词 弱标记 声音事件检测 池化层 指数可学习的幂函数softmax
下载PDF
声音事件检测综述
7
作者 杨烁祯 张珑 +1 位作者 王建华 张恒远 《广西师范大学学报(自然科学版)》 CAS 北大核心 2023年第2期1-18,共18页
声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方... 声音事件检测技术能够识别出一个音频段中存在的事件类别并标注出各事件的起止时间,在智能城市、医疗监控、野生动物保护等应用场景有巨大潜力,是机器听觉领域的一个重要研究课题。本文从监督学习和半监督学习2个方面对声音事件检测方法进行综述,汇总和分析现有研究中使用的特征、检测模型及其性能。对于监督学习,重点介绍机器学习方法和深度学习方法。对于半监督学习,总结基于均值教师、协同训练、多尺度卷积和注意力机制等4种有效方法。最后,介绍常用数据集和评价指标,并讨论未来可能的研究方向,包括声音分离预处理、合成数据和真实数据域适应、自注意力模型优化、特征选择和融合、流式系统建模等问题。 展开更多
关键词 声音事件检测 机器学习 深度学习 神经网络 监督学习 半监督学习
下载PDF
弱标签声音事件检测的空间-通道特征表征与自注意池化
8
作者 杨利平 侯振威 +1 位作者 辜小花 郝峻永 《电子学报》 EI CAS CSCD 北大核心 2023年第2期297-306,共10页
深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络... 深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络提出弱标签声音事件检测的空间-通道特征表征与自注意池化方法.该方法研究多实例弱标签声音事件检测的特征表征和帧级预测结果池化两个方面的内容.在特征表征方面,为了增强卷积神经网络的特征表征能力,结合上下文门控和通道注意机制构建门控注意力结构并嵌入到卷积循环神经网络中,实现了音频样本特征的空间和通道特征选择;在预测结果池化方面,引入自注意思想设计音频帧预测结果的自注意池化方法,增强了音频样本中事件帧之间的相关度,使事件帧获得更大的权重.本文方法通过对卷积循环神经网络特征表征和预测结果池化的革新,有效提升了模型的检测性能.本文提出的方法在DCASE 2017任务4和DCASE 2018任务4数据集的评估集中分别取得了52.47%和31.00%的F1得分,性能优于当前绝大部分的弱标签声音事件检测方法.实验结果表明:本文提出的空间-通道特征表征与自注意池化方法能显著改善弱标签声音事件检测的综合性能. 展开更多
关键词 特征表征 自注意池化 卷积循环神经网络 弱标签学习 声音事件检测
下载PDF
用多频带能量分布检测低信噪比声音事件 被引量:3
9
作者 李应 吴灵菲 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2905-2912,共8页
该文针对低信噪比噪声环境下的声音事件检测问题,提出基于多频带能量分布图离散余弦变换的声音事件检测的方法。首先,将声音数据转化为gammatone频谱,并计算其多频带能量分布;接着,对多频带能量分布图进行8×8分块与离散余弦变换;然... 该文针对低信噪比噪声环境下的声音事件检测问题,提出基于多频带能量分布图离散余弦变换的声音事件检测的方法。首先,将声音数据转化为gammatone频谱,并计算其多频带能量分布;接着,对多频带能量分布图进行8×8分块与离散余弦变换;然后,对8×8的离散余弦变换系数进行Zigzag扫描,抽取离散余弦变换系数的主要系数作为声音事件的特征;最后,利用随机森林分类器对特征建模与检测。实验结果表明,在低信噪比及各种噪声环境下,该文提出的方法具有良好的检测效果。 展开更多
关键词 声音事件检测 多频带能量分布 随机森林 离散余弦变换
下载PDF
Environmental Sound Event Detection in Wireless Acoustic Sensor Networks for Home Telemonitoring 被引量:1
10
作者 Hyoung-Gook Kim Jin Young Kim 《China Communications》 SCIE CSCD 2017年第9期1-10,共10页
In this paper, we present an approach to improve the accuracy of environmental sound event detection in a wireless acoustic sensor network for home monitoring. Wireless acoustic sensor nodes can capture sounds in the ... In this paper, we present an approach to improve the accuracy of environmental sound event detection in a wireless acoustic sensor network for home monitoring. Wireless acoustic sensor nodes can capture sounds in the home and simultaneously deliver them to a sink node for sound event detection. The proposed approach is mainly composed of three modules, including signal estimation, reliable sensor channel selection, and sound event detection. During signal estimation, lost packets are recovered to improve the signal quality. Next, reliable channels are selected using a multi-channel cross-correlation coefficient to improve the computational efficiency for distant sound event detection without sacrificing performance. Finally, the signals of the selected two channels are used for environmental sound event detection based on bidirectional gated recurrent neural networks using two-channel audio features. Experiments show that the proposed approach achieves superior performances compared to the baseline. 展开更多
关键词 sound event detection wirelesssensor network GATED RECURRENT neural net-work MULTICHANNEL audio
下载PDF
基于多层次注意力机制一维DenseNet音频事件检测 被引量:2
11
作者 杨吕祥 胡燕 《计算机应用研究》 CSCD 北大核心 2020年第6期1642-1646,共5页
在音频事件检测任务中,目标音频易受背景噪声等因素的干扰,并且其在音频信号流中存在的比例不高,针对这些问题,提出一种多层次注意力机制一维DenseNet(dense convolutional network)音频事件检测模型。使用一维DenseNet模型进行帧级检... 在音频事件检测任务中,目标音频易受背景噪声等因素的干扰,并且其在音频信号流中存在的比例不高,针对这些问题,提出一种多层次注意力机制一维DenseNet(dense convolutional network)音频事件检测模型。使用一维DenseNet模型进行帧级检测能有效地检测音频事件发生的开始和结束时间;在一维DenseNet模型中引入多层次注意力机制,使得不同模块的感知特性随着网络层数的加深而自适应地变化,因此模型可以在不同的网络层次自动选择和关注重要的目标帧而抑制不相关的背景帧。在DCASE 2017任务2的开发数据集上的实验表明,该方法的整体性能较传统的深度学习方法有进一步提高。 展开更多
关键词 音频事件检测 深度学习 DenseNet 多层次注意力机制
下载PDF
基于多尺度注意力特征融合CRNN的声音事件检测 被引量:1
12
作者 刘亚灵 郭敏 马苗 《光电子.激光》 CAS CSCD 北大核心 2021年第12期1271-1277,共7页
针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能。首先... 针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能。首先,提出多尺度注意力模块,实现对局部时频单元和全局通道特征的多尺度注意,提高模型的特征选择能力;其次,提出一种多尺度特征融合方法,融合含有丰富上下文信息的多尺度注意力特征,提高模型的特征表达能力;最后,双向门控循环网络层对时间依赖性进行建模,全连接层对声音事件进行逐帧分类。除此之外,使用数据平衡技术进一步泛化模型。在AudioSet子数据集上的实验结果表明:提出的网络模型与CRNN相比,评估集(error rate,ER)下降11%,F1分数(F1-score,F1)提升8.3%,有效地提高了声音事件检测性能。 展开更多
关键词 声音事件检测 多尺度特征融合 注意力机制 数据平衡
原文传递
基于平均教师模型的弱标记半监督声音事件检测
13
作者 王金甲 杨倩 +1 位作者 崔琳 纪绍男 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期540-550,共11页
为了利用大量不平衡和未标记数据,采用一致性正则化思想的平均教师模型用于弱标记半监督声音事件检测,可有效减少半监督学习中的过拟合问题.在教师模型的权重更新过程中,首次提出将随机加权平均算法(SWA)用于声音事件检测,可以加快预测... 为了利用大量不平衡和未标记数据,采用一致性正则化思想的平均教师模型用于弱标记半监督声音事件检测,可有效减少半监督学习中的过拟合问题.在教师模型的权重更新过程中,首次提出将随机加权平均算法(SWA)用于声音事件检测,可以加快预测速度并且节约成本.针对模型的架构问题,采用改进的门控卷积长短时记忆网络(GCLSTM)作为学生模型和教师模型,其中全局加权秩池化层可以克服平均池化和最大池化对声音事件的低估和高估的限制,有效地提高系统的性能.在对数据进行特征提取过程中,采用SpecAugment策略对语谱图进行增强,从而有效地解决过拟合问题.为了评估实验方法,在声学场景和事件的检测及分类(DCASE)2018挑战任务4数据集上进行测试,结果表明:评估集的平均F1分数可达24.9%,明显优于基线系统和其他方法的F1分数. 展开更多
关键词 声音事件检测 弱标记半监督 平均教师模型 随机加权平均 数据增强
下载PDF
利用能量压缩后的MBPD检测低信噪比声音事件
14
作者 林艺明 李应 《计算机应用与软件》 北大核心 2021年第6期126-133,共8页
针对低信噪比下的声音事件检测问题,提出基于能量压缩和灰度增强的多频带能量分布图的声音事件检测方法。将声音数据的gammatone频谱转成能量谱,对不同频带的能量进行不同比例的能量压缩,计算其多频带能量分布图,并对其进行灰度增强;对... 针对低信噪比下的声音事件检测问题,提出基于能量压缩和灰度增强的多频带能量分布图的声音事件检测方法。将声音数据的gammatone频谱转成能量谱,对不同频带的能量进行不同比例的能量压缩,计算其多频带能量分布图,并对其进行灰度增强;对调整后的多频带能量分布图进行8×8的分块,对每一子块进行奇异值分解,提取主要数值作为声音事件的特征;利用随机森林分类器对特征建模与检测。实验结果表明,在低信噪比环境下,该方法具有良好的检测效果。 展开更多
关键词 声音事件检测 多频带能量分布 能量压缩 灰度增强 奇异值 随机森林
下载PDF
基于多状态跳转模型的场景独立音频事件检测方法
15
作者 王健飞 张卫强 刘加 《中国科学院大学学报(中英文)》 CSCD 北大核心 2019年第2期218-225,共8页
针对不同类型事件设计多状态跳转模型,结合两种深度神经网络实现对传统音频事件检测框架的改进。实验表明,在DCASE2017任务2的开发集数据上,改进后的DNN-HMM系统相比于基线系统取得F值8.9%的相对提升和错误率19%的绝对下降;基于多状态... 针对不同类型事件设计多状态跳转模型,结合两种深度神经网络实现对传统音频事件检测框架的改进。实验表明,在DCASE2017任务2的开发集数据上,改进后的DNN-HMM系统相比于基线系统取得F值8.9%的相对提升和错误率19%的绝对下降;基于多状态跳转模型聚类的卷积神经网络模型(SC-CNN),相比于基线系统取得F值18%的相对提升和错误率30%的绝对下降。 展开更多
关键词 音频事件检测 多状态跳转模型 深度神经网络 迁移学习 多任务学习
下载PDF
基于MobileNetV3卷积神经网络的供水管道漏损音频分类
16
作者 陈双叶 徐雷桁 +3 位作者 黄成意 张智武 张林 韩默 《北京工业大学学报》 CAS CSCD 北大核心 2024年第7期797-804,共8页
为了对城市供水管网漏损音进行准确识别,提出一种基于MobileNetV3的供水管道漏损音频分类识别方法。首先将ROPP数据集中的音频文件进行离线数据增强,将漏损信号转变为对数梅尔谱图并采用谱减法实现数据降噪;然后使用注意力机制模块与Mob... 为了对城市供水管网漏损音进行准确识别,提出一种基于MobileNetV3的供水管道漏损音频分类识别方法。首先将ROPP数据集中的音频文件进行离线数据增强,将漏损信号转变为对数梅尔谱图并采用谱减法实现数据降噪;然后使用注意力机制模块与MobileNetV3网络训练识别并提取图像特征;最后使用Softmax函数对漏损音频进行分类。实验结果表明,该方法可以使漏水类别的分类精确度达到99.40%,召回率达到99.20%。 展开更多
关键词 声音事件分类 水管泄漏检测 MobileNetV3 数据增强 谱减法 压缩奖惩网络模块
下载PDF
采用多视角注意力的声音事件定位与检测
17
作者 杨吉斌 黄翔 +2 位作者 张雄伟 张强 梅鹏程 《信号处理》 CSCD 北大核心 2024年第2期385-395,共11页
近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了... 近年来,基于深度学习的方法有效改进了声音事件定位与检测的性能,但当场景中存在多声源重叠时,准确的声源时空信息估计依然较为困难,声音事件定位与检测的性能存在较大提升空间。为充分挖掘多通道深层表示所包含的关键信息,本文提出了一种多视角注意力网络模型MVANet(Multi-View Attention Network)。首先,引入软参数共享网络架构实现不同任务之间的交互学习,计算多通道深层表示,在对比不同通道注意力结构的基础上,选择了一种轻量级的高效通道注意力模块ECA(Efficient Channel Attention)与多头自注意力模块MHSA(Multi-Head Self-Attention)结合,从通道、时间、频率三个视角关注深层表示中的关键特征,丰富高维特征信息。其次,对比了ECA模块和软参数共享架构在MVANet不同位置上的性能,确定了ECA模块和软参数共享在模型上的最佳实现位置,最大程度上提高模型对特征的挖掘能力。仿真结果表明,对于包含同类别重叠声事件的TAU-NIGENS Spatial Sound Events 2020数据集,本文提出的MVANet模型相比较于基线方法,检测和定位性能均得到了改善。在多声源场景下,检测错误率下降了0.03,定位误差下降了1.5°。 展开更多
关键词 声音事件定位与检测 深度学习 多视角注意力 通道注意力 多头自注意力
下载PDF
基于特征融合与Transformer模型的声音事件定位与检测算法研究
18
作者 濮子俊 张寿明 《计算机工程与科学》 CSCD 北大核心 2023年第6期1097-1105,共9页
针对多通道环境声音检测问题,提出了一种引入Transformer结构的特征融合网络模型TBCF-MTNN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过CNN和GRU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过Cross-stitch... 针对多通道环境声音检测问题,提出了一种引入Transformer结构的特征融合网络模型TBCF-MTNN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过CNN和GRU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过Cross-stitch模块进行融合,有效解决了传统网络中多特征信息无法共享的问题;然后,将融合后的特征图送入Transformer进行特征的再次采集;最终,通过全链接层输出分类和定位结果。在TAU-NIGENS 2020数据集上的实验结果表明,所提出的TBCF-MTNN网络在声音检测任务中的分类错误率能够减小至0.26;在声源定位任务中与Baseline相比较其定位误差减小至4.7°;通过和Baseline、FPN、EIN等模型相比较,结果表明所提网络具有更优的识别检测效果。 展开更多
关键词 声音事件定位与检测 深度学习 Transformer模型 CROSS-STITCH 特征融合
下载PDF
一种基于三维卷积的声学事件联合估计方法
19
作者 梅鹏程 杨吉斌 +1 位作者 张强 黄翔 《计算机科学》 CSCD 北大核心 2023年第3期191-198,共8页
声学事件定位与检测在监控、异常检测等任务中应用广泛,以基于卷积递归神经网络架构为代表的深度学习方法可以联合实现声学事件检测和声源定位。为提高定位与检测的综合性能,提出了一种基于三维卷积的声学事件联合估计方法SELD3Dnet。... 声学事件定位与检测在监控、异常检测等任务中应用广泛,以基于卷积递归神经网络架构为代表的深度学习方法可以联合实现声学事件检测和声源定位。为提高定位与检测的综合性能,提出了一种基于三维卷积的声学事件联合估计方法SELD3Dnet。通过对输入的多通道音频计算幅度相位特征,并经过多重三维卷积结构提取高层特征表示,最后利用循环网络和全连接层实现声音事件类别和空间位置的估计。在处理多通道的声学信号特征时,三维卷积可以同时对时间、频率、信号通道3个维度进行卷积计算,最大程度地利用信号通道间的相关性,克服噪声和混响的影响。在TUT2018和TAU2019等公开数据集上进行了充分的对比实验。结果表明,所提方法在TUT2018 REAL和TUT2019 MREAL数据集上的综合性能都有显著提升。其中,在TUT2018 REAL数据集上声学事件检测的F1指标显著提升了13.9%,帧准确率显著提升了21.1%;在TUT2019 MREAL数据集上F1指标显著提升了10.8%,帧准确率显著提升了14.4%。表明所提方法能有效克服实际信号中混响的影响。 展开更多
关键词 声学事件定位与检测 深度学习 卷积神经网络 三维卷积 多通道信号
下载PDF
融合注意力机制的SimNet声音事件定位与检测算法
20
作者 许春冬 汪雄 闵源 《国外电子测量技术》 北大核心 2023年第8期33-39,共7页
基于深度学习的声音事件定位与检测网络存在输入特征的关键信息丢失的问题,导致声音事件定位与检测更加困难,提出了一种基于注意力机制的简单无参数网络模型(simple and parameter-free network,SimNet)。首先在残差块后引入简单无参注... 基于深度学习的声音事件定位与检测网络存在输入特征的关键信息丢失的问题,导致声音事件定位与检测更加困难,提出了一种基于注意力机制的简单无参数网络模型(simple and parameter-free network,SimNet)。首先在残差块后引入简单无参注意力模块(simple and parameter-free attention module,SimAM),通过能量函数帮助网络聚焦特征图中各神经元的深度特征,以此增强模型对更丰富的特征信息的辨别能力。此外为促进模型朝更精准的方向训练,还采用了一种均方根绝对误差(root mean square absolute error,RMSAE)损失函数,有助于模型准确搜索更全面的空间信息。实验结果表明,在TAU-NIGENS Spatial Sound Events 2021数据集中,提出的网络算法相比原基线网络性能有较大程度的提升,错误率(error rate,ER)和定位误差(localization error,LE)降低到0.394和12.03°,F1分数(F1-score)和定位召回(localization recall,LR)提升到72.6%和73.8%。 展开更多
关键词 声音事件定位与检测 注意力机制 RMSAE 卷积神经网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部