基于频谱图转换器的音频场景分类被引量：3

Audio Scene Classification Based on Audio Spectrogram Transformer

下载PDF

导出

摘要音频场景分类是场景理解重要的一环,学习音频场景特征并精准分类能加强机器与环境的交互能力,在大数据时代其重要性不言而喻。鉴于分类任务表现依赖数据集规模,但实际任务中又面临数据集严重不足的情况,本文提出了数据增强和网络模型预训练策略,将频谱图转换器模型和音频场景分类任务相结合。首先,提取音频信号对数梅尔能量频谱图输入模型,然后通过模型动态交互能力,加强音频序列空间关系,最后由标记向量完成分类。将本文方法在DCASE2019task1和DCASE2020task1公开数据集上进行测试,分类准确率分别达到了96.489%和93.227%,与已有算法相比有明显的提升,说明本方法适用高精度音频场景分类任务,为高精度智能设备感知环境内容、检测环境动态打下了基础。 Audio scene classification was an important part of scene understanding.Learning the characteristics of audio scenes and accurate classification can strengthen the interaction between machines and the environment,and its importance is self-evident in the age of big data.In view of the fact that the performance of classification task depends on the size of the dataset,but the actual task is faced with a serious shortage of data sets,this paper proposed a data enhancement and network model pre-training strategy,which combined the audio spectrogram transformer model with the audio scene classification task.First,extracted the input model of the log-Mel energies spectrum of the audio signal,then strengthened the spatial relationship of the audio sequence through the dynamic interaction ability of the model,and finally complete the classification by the tag vector.The method in this paper is tested on the public datasets of DCASE2019task1 and DCASE2020task1,and the classification accuracy rates are 96.489%and 93.227%respectively,which is significantly improved compared with the existing algorithms,indicating that this method is applicable to high-precision audio scene classification tasks,laying a foundation for high-precision intelligent devices to perceive environmental content and detect environmental dynamics.

作者袁双杨立东郭勇牛大伟张丹丹 YUAN Shuang;YANG Lidong;GUO Yong;NIU Dawei;ZHANG Dandan(Inner Mongolia University of Science and Technology,School of Information Engineering,Baotou,Inner Mongolia 014010,China)

机构地区内蒙古科技大学信息工程学院

出处《信号处理》 CSCD 北大核心 2023年第4期730-736,共7页 Journal of Signal Processing

基金国家自然科学基金项目(62161040) 内蒙古科技计划项目(2021GG0023) 内蒙古自然科学基金项目(2021MS06030) 内蒙古自治区高等学校青年科技英才支持计划(NJYT22056)资助。

关键词音频场景分类转换器预训练数据增强 audio scene classification transformer pre-trained data enhancement

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP183 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1701
2刘亚荣,黄昕哲,谢晓兰,刘鑫.美尔谱系数与卷积神经网络相组合的环境声音识别方法[J].信号处理,2020,36(6):1020-1028. 被引量：9
3董永峰,苏海洋,刘斌,陶建华.基于多头注意力机制的模型层融合维度情感识别方法[J].信号处理,2021,37(5):885-892. 被引量：9

二级参考文献10

1栾少文,龚卫国.公共场所典型异常声音的特征提取[J].计算机工程,2010,36(7):208-210. 被引量：16
2余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：606
3刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):1-16. 被引量：71
4金林鹏,董军.面向临床心电图分析的深层学习算法[J].中国科学：信息科学,2015,45(3):398-416. 被引量：36
5Yi ZHENG,QiLIU,Enhong CHEN,Yong GE,J. Leon ZHAO.Exploiting multi-channels deep convolutional neural networks for multivariate time series classification[J].Frontiers of Computer Science,2016,10(1):96-112. 被引量：21
6高君宇,杨小汕,张天柱,徐常胜.基于深度学习的鲁棒性视觉跟踪方法[J].计算机学报,2016,39(7):1419-1434. 被引量：30
7李红,刘芳,杨淑媛,张凯.基于深度支撑值学习网络的遥感图像融合[J].计算机学报,2016,39(8):1583-1596. 被引量：39
8常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：424
9周飞燕,金林鹏,董军.基于集成学习的室性早博识别方法[J].电子学报,2017,45(2):501-507. 被引量：8
10胡涛,张超,程炳,吴小培.卷积神经网络在异常声音识别中的研究[J].信号处理,2018,34(3):357-367. 被引量：19

共引文献1716

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3陆天和,刘莉,贺云涛,杨盾.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020(1):85-90. 被引量：7
4林桢哲,王桂棠,陈建强,符秦沈.基于残差网络深度学习的肺部CT图像结节良恶性分类模型[J].仪器仪表学报,2020,41(3):248-256. 被引量：22
5陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：20
6鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：12
7谭宇辰,蔡晶晶,倪辰.基于深度学习的Web攻击检测技术研究[J].信息网络安全,2020(S02):122-126.
8任杰,李钢,赵燕姣,姚琼辛,田培辰.基于改进Faster RCNN的城市道路货车检测[J].计算机系统应用,2022,31(12):316-321. 被引量：2
9胡伟,文武,魏敏.改进U-Net的高分辨率遥感图像轻量化分割[J].计算机系统应用,2022,31(12):135-146. 被引量：2
10李莉,陈心宇,高文斌.一种基于FPGA的卷积神经网络加速器实现方案[J].北京电子科技学院学报,2022,30(4):96-104. 被引量：1

同被引文献30

1施静娴,冉志红,林帆,许强.基于短时傅立叶变换的索力动态监测试验研究[J].中国水运（下半月）,2021,21(12):99-101. 被引量：1
2张小梅,杨鼎才.基于支持向量机模型的环境音分类研究[J].电子测量技术,2008,31(9):121-123. 被引量：4
3陶丹丹,赵迪.机械手臂中心视觉自动校正方法研究[J].机床与液压,2019,47(20):55-59. 被引量：3
4王天锐,鲍骞月,秦品乐.基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法[J].计算机应用,2019,39(12):3515-3521. 被引量：3
5张科,苏雨,王靖宇,王霰宇,张彦华.基于融合特征以及卷积神经网络的环境声音分类系统研究[J].西北工业大学学报,2020,38(1):162-169. 被引量：20
6田会方,潘宁静.纤维缠绕机芯模自动装卸机械臂轨迹仿真与分析[J].机床与液压,2020,48(3):52-57. 被引量：7
7吴亚文,赵家龙,侯金波,辜丽川,何屿彤,焦俊.基于改进压缩感知的生猪音频信号处理[J].江苏农业科学,2020,48(10):250-255. 被引量：5
8刘瑜.智能采摘机器人自动化系统研究——基于交互式视音频技术[J].农机化研究,2020,42(12):236-240. 被引量：7
9刘瑜.交互式视音频在智能采摘机器人自动化系统中的应用[J].农机化研究,2020,42(12):241-245. 被引量：6
10赵英宝,黄丽敏,刘慧贤.基于深度学习的电力调度数据自动备份系统设计[J].现代电子技术,2020,43(20):42-45. 被引量：11

引证文献3

1柳薇,张波,梁明源.基于深度学习的电力数据分析研究[J].宇航计测技术,2023,43(3):97-102. 被引量：3
2杨俊杰,丁家辉,杨柳,冯丽,杨超.结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法[J].应用声学,2024,43(3):513-524.
3张戈.基于机械臂的自动和声调音器研究[J].自动化与仪器仪表,2024(8):251-255.

二级引证文献3

1蔡思烨,卢泉篠,胡鹏,杨恩龙,余玉良,顾小旭.基于深度学习的调度检修预案生成模型构建[J].粘接,2024,51(3):153-156.
2付晖,王艳飞.深度学习在电力通信数据分析与预测中的应用研究[J].信息与电脑,2023,35(23):184-186.
3张萌.配电线路故障精确定位系统的应用[J].电力设备管理,2024(13):32-34.

1李静.幼儿园环境创设对幼儿成长发展的影响的研究[J].中国科技期刊数据库科研,2022(11):67-70.
2贾丽慧.环境监测在环境工程管理中的作用[J].中文科技期刊数据库（全文版）工程技术,2021(8):86-87.
3李书琼.如何在高中地理教学中进行环境教育[J].中文科技期刊数据库（全文版）教育科学,2022(1):121-123.
4邱艳.在任务驱动教学中发展学生的科学思维——以"细胞生活的环境"为例[J].中学生物教学,2022(26):31-33.
5张旭楠.网络思想政治教育环境的新生态论析[J].大庆社会科学,2022(6):96-100.
6张艳杰,马云珠.环境保护动态监测及应急管理的有效措施[J].中文科技期刊数据库（全文版）社会科学,2021(10):207-208.
7彭绪涛,王仪,贾程,任俊松.基于麻雀搜索算法与BP神经网络的压裂效果预测[J].石油钻采工艺,2022,44(4):522-528. 被引量：4
8邱际亮,陈建设.湖南旅游业、金融业与生态环境动态关系研究——基于VAR模型[J].安顺学院学报,2023,25(2):23-28.
9张晖,倪定安,曾科,丁乃侃,吴超仲.人机共驾环境下驾驶疲劳研究综述[J].中国安全科学学报,2023,33(3):204-211. 被引量：8
10汤娟,汪德根,王莉.基于场景理论的历史文化街区文化价值识别——以苏州平江路为例[J].中国生态旅游,2023,13(1):78-94. 被引量：4

信号处理

2023年第4期

浏览历史

内容加载中请稍等...

基于频谱图转换器的音频场景分类被引量：3

参考文献3

二级参考文献10

共引文献1716

同被引文献30

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于频谱图转换器的音频场景分类 被引量：3

参考文献3

二级参考文献10

共引文献1716

同被引文献30

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于频谱图转换器的音频场景分类被引量：3