基于生成对抗网络去影像的多基频估计算法被引量：2

Multiple Fundamental Frequency Estimation Algorithm Based on Generative Adversarial Networks for Image Removal

下载PDF

导出

摘要多基频估计被广泛应用于音乐结构分析、乐音辅助教育、信息检索等各个领域。为了满足准确识别乐曲中随机和弦的需求,提出了基于生成对抗网络去影像的多基频估计算法。首先将完整音频切分成音符段,提出了一种谐音指纹图提取音符段频谱特征;然后通过卷积神经网络识别谐音指纹图当前的主导基频,将已识别出的主导基频作为干扰下一个基频识别的影像,并通过生成对抗网络去除干扰影像,对已去除干扰影像后的谐音指纹图进行新一轮的多基频估计;最后通过逐级迭代去影像操作实现完整和弦的多基频估计。对随机二音和弦及随机三音和弦组成的钢琴音频数据库进行实验,结果表明,所提算法与经典频谱迭代删除算法和大型词袋和弦识别算法相比,能够适应随机和弦的识别,在不同的音域范围内鲁棒性高,整体正确率有明显提升。 Multiple fundamental frequency estimation is widely used in music structure analysis,music aided education,information retrieval and other fields.In order to meet the requirements of accurate identification of random chords in music,a multiple fundamental frequency estimation algorithm based on generative adversarial networks is proposed.Firstly,the complete audio is divided into note segments,and a homophonic fingerprint is proposed to extract the spectrum characteristics of the note segment.Then,the current dominant fundamental frequency of the homophonic fingerprint is identified by convolution neural network,and the identified dominant fundamental frequency is considered as the image that interferes with the next fundamental frequency recognition.Then,the interference image is removed by generative adversarial networks,and the homophonic fingerprint image affected by interference is processed in a new round.Finally,the multiple fundamental frequency estimation of complete chords is realized by iterative de imaging operation step by step.Experiments on the piano audio database composed of random two tone chord and random three tone chord are carried out.The results show that,compared with the classical spectrum iterative deletion algorithm and the large vocabulary chord recognition algorithm,the algorithm in this paper can adapt to the recognition of random chords,has high robustness in different ranges,and improves the overall accuracy significantly.

作者黎思泉万永菁蒋翠玲 LI Si-quan;WAN Yong-jing;JIANG Cui-ling(Department of Information Science and Engineering,East China University of Science and Technology,Shanghai 200000,China)

机构地区华东理工大学信息科学与工程学院

出处《计算机科学》 CSCD 北大核心 2022年第3期179-184,共6页 Computer Science

关键词多基频估计谐音指纹图生成对抗网络卷积神经网络基频影像 Multiple fundamental frequency estimation Homophonic fingerprint Generative adversarial networks Convolution neural network Fundamental frequency image

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1程显毅,谢璐,朱建新,胡彬,施佺.生成对抗网络GAN综述[J].计算机科学,2019,46(3):74-81. 被引量：29
2李燕萍,曹盼,石杨,张燕,钱博.非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换[J].复旦学报（自然科学版）,2020,59(3):322-329. 被引量：10
3刘航,李扬,袁浩期,王俊影.基于生成对抗网络的语音信号分离[J].计算机工程,2020,46(1):302-308. 被引量：6
4余亮,吴海军,蒋伟康.结合波束形成和GAN网络的多通道语音增强研究[J].噪声与振动控制,2018,38(A02):591-596. 被引量：5
5张晓龙,彭宜.基于残差网络和随机森林的音频识别方法[J].计算机工程与科学,2019,41(4):727-732. 被引量：9
6刘莹,赵彤洲,江逸琪,柴悦,李翔.基于自相关函数的钢琴乐音改进识别算法[J].武汉工程大学学报,2018,40(2):208-213. 被引量：6
7陈燕文,李坤,韩焱,王燕平.基于MFCC和常数Q变换的乐器音符识别[J].计算机科学,2020,47(3):149-155. 被引量：10

二级参考文献28

1徐国庆,张彦铎,王海晖,欧青军.乐音旋律识别研究[J].武汉工程大学学报,2007,29(2):60-62. 被引量：4
2徐国庆,张彦铎,王海晖.基于多分辨分解的乐音水印算法实现[J].武汉工程大学学报,2008,30(2):91-93. 被引量：5
3顾亦然,秦军,王锁萍,杨灵.几种音乐识别算法比较[J].南京邮电学院学报,1998,18(2):36-40. 被引量：10
4翟景瞳,王玲,杜秀伟.改进的音高识别算法[J].计算机工程与应用,2009,45(20):228-230. 被引量：4
5马效敏,郑文思,陈琪.自相关基频提取算法的MATLAB实现[J].西北民族大学学报（自然科学版）,2010,31(4):54-58. 被引量：7
6何晓亮,贾亮,秦文健.舞蹈机器人中音乐基音频率的提取[J].电子设计工程,2011,19(13):39-41. 被引量：1
7黄建军,张雄伟,张亚非,邹霞.时频字典学习的单通道语音增强算法[J].声学学报,2012,37(5):539-547. 被引量：13
8沈瑜,党建武,王阳萍,雷涛.加权短时自相关函数的基音周期估计算法[J].计算机工程与应用,2012,48(35):1-6. 被引量：9
9刘婷.基于非线性特征的音符识别算法的应用与研究[J].计算机与数字工程,2013,41(8):1246-1248. 被引量：2
10甄斌,吴玺宏,刘志敏,迟惠生.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报（自然科学版）,2001,37(3):371-378. 被引量：74

共引文献65

1吕义付,张乾,徐艳.基于BEDU-Net算法的皮肤病灶分割研究[J].智能计算机与应用,2023,13(8):73-79.
2潘梦鹞,吕小勇,陈少伟,郇锐铁,王锋.基于AI智能语音技术线上教学的创新与实践[J].创新创业理论研究与实践,2022(24):170-173. 被引量：1
3王来兵.基于贝叶斯与生成式对抗网络的手写字文本识别算法[J].黑龙江工业学院学报（综合版）,2019,19(8):31-35. 被引量：3
4李恝,吴海彬,叶锦华.改进经验模态分解的麦克风阵列语音增强方法[J].福州大学学报（自然科学版）,2019,47(6):734-739. 被引量：2
5王旭洋.综述预测台风路径的传统模型与神经网络[J].科学咨询,2020,0(1):62-65. 被引量：1
6刘航,李扬,袁浩期,王俊影.基于生成对抗网络的语音信号分离[J].计算机工程,2020,46(1):302-308. 被引量：6
7陈燕文,李坤,韩焱,王燕平.基于MFCC和常数Q变换的乐器音符识别[J].计算机科学,2020,47(3):149-155. 被引量：10
8刘遵雄,蒋中慧,任行乐.多尺度生成对抗网络的图像超分辨率算法[J].科学技术与工程,2020,20(13):5217-5223. 被引量：6
9齐永锋,侯璐璐,段友放.基于DenseNet-BC网络的皮肤镜下皮肤损伤分割[J].计算机工程与科学,2020,42(6):1060-1067. 被引量：8
10姜禄瑶,曲丽萍.基于生成式对抗网络的中国电影连续观影数据预测[J].计算机系统应用,2020,29(8):31-37.

同被引文献22

1刘莹,赵彤洲,江逸琪,柴悦,李翔.基于自相关函数的钢琴乐音改进识别算法[J].武汉工程大学学报,2018,40(2):208-213. 被引量：6
2胡昭华,余媛媛.深度卷积神经网络在音乐风格识别中的应用[J].小型微型计算机系统,2018,39(9):1932-1936. 被引量：9
3赵凌览,李晓峰.基于频域匹配滤波的音频信号分析与识别[J].实验科学与技术,2018,16(5):34-38. 被引量：3
4李强,刘晓峰.基于PNN的音乐情感分类[J].计算机工程与设计,2019,40(2):528-532. 被引量：12
5贾宁,郑纯军.基于注意力LSTM的音乐主题推荐模型[J].计算机科学,2019,46(S11):230-235. 被引量：7
6张怡文,王冉,杨安桔,计成睿,岳丽华.基于用户偏好度的双极协同过滤推荐算法[J].南京理工大学学报,2020,44(3):313-319. 被引量：9
7马连航,王军,阮林萍,汪万涛,文亮,杨帆,赵罡.一种新型的特征平滑处理的民乐音符起始点检测算法[J].复旦学报（自然科学版）,2021,60(3):315-322. 被引量：4
8金涛,陆志华,陈修凯.单声矢量传感器方位基频联合估计[J].无线通信技术,2021,30(3):13-16. 被引量：1
9任瑞.基于音频特征的音乐音符智能切分识别方法[J].信息技术,2021,45(12):31-36. 被引量：2
10邱硕,刘佳欣,李启康,施炎峰,柳亚男,张正.数据聚合与共享技术在电子医疗病历中的应用[J].南京理工大学学报,2021,45(6):672-679. 被引量：7

引证文献2

1刘玥彤,吴迪,滕华.基于改进胶囊神经网络的乐音主频识别研究[J].南京理工大学学报,2023,47(2):207-213.
2陈薄茹.基于多基频估计的多声部音乐和声自动编配算法[J].赤峰学院学报（自然科学版）,2024,40(3):10-14.

1吕作鹏,罗健,冯金,钱露露,黄钟韬.系统级分析方法在风扇驱动齿轮箱试验中的应用[J].机械传动,2021,45(5):161-168.
2谭振宇,吴怡之.基于多模态的端到端语音识别[J].计算机科学与应用,2021,11(5):1315-1324.
3石川.谐音汉字谐趣人生:“阅”与“悦”[J].文艺生活（艺术中国）,2022(1):102-103.
4金涛,陆志华,陈修凯.单声矢量传感器方位基频联合估计[J].无线通信技术,2021,30(3):13-16. 被引量：1
5印兴耀,裴松,李坤,林海鲲.多尺度快速匹配追踪多域联合地震反演方法[J].地球物理学报,2020,63(9):3431-3441. 被引量：11
6陈曦.好奇心诊所[J].奇妙博物馆,2022(3):47-47.
7苑丛梅.隆冬时节分外甜[J].龙门阵,2022(1):76-78.
8马连航,王军,阮林萍,汪万涛,文亮,杨帆,赵罡.一种新型的特征平滑处理的民乐音符起始点检测算法[J].复旦学报（自然科学版）,2021,60(3):315-322. 被引量：4
9刘峰.洗冬[J].乡村振兴,2021(12):77-77.
10顾日升,王俊杰.农民画里的“年味儿”[J].乡镇论坛,2022(5):44-44.

计算机科学

2022年第3期

浏览历史

内容加载中请稍等...

基于生成对抗网络去影像的多基频估计算法被引量：2

参考文献7

二级参考文献28

共引文献65

同被引文献22

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络去影像的多基频估计算法 被引量：2

参考文献7

二级参考文献28

共引文献65

同被引文献22

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络去影像的多基频估计算法被引量：2