基于CNN-BiGRU-注意力机制的融合深度学习模型在器乐情感识别中的创新应用研究

《Scientific Reports》:Application of artificial intelligence CNN model in emotional recognition of instrumental music

【字体: 时间:2025年12月23日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对器乐情感识别中特征提取不全面、时序建模能力不足等挑战,创新性地构建了融合卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制的多层深度学习模型。通过CNN提取局部时频特征,BiGRU建模上下文时序关系,注意力机制动态聚焦关键情感片段,并结合多尺度特征融合策略,在Valence(效价)、Arousal(唤醒度)和Dominance(支配度)三个连续情感维度上取得了Pearson相关系数分别达0.871、0.832和0.784的优异性能,显著提升了器乐情感识别的准确性和鲁棒性,为音乐情感计算提供了新方法。

  
在数字音乐与多媒体技术迅猛发展的今天,音乐早已超越单纯的艺术表达范畴,成为情感交流与精神体验的重要载体。特别是器乐作品,由于缺乏歌词等语义辅助信息,其情感表达更加依赖于旋律、节奏、音色等复杂的声学特征,这使得准确识别器乐中蕴含的情感变得极具挑战性。传统的情感识别方法多基于人工设计的浅层音频特征和简单机器学习算法,难以有效捕捉音乐情感的多样性和微妙变化,识别精度存在较大提升空间。
尽管深度学习技术如卷积神经网络(CNN)和循环神经网络(RNN)在音频信号处理和情感识别中展现出卓越性能,但现有研究仍存在明显局限:多数方法局限于单层次特征建模,缺乏对低层音频特征与高层语义信息的有效融合;面对不同情感维度的动态变化,现有模型的时序建模能力仍有待加强;数据稀缺和标注噪声等问题也持续制约着模型的泛化能力和应用范围。这些瓶颈严重限制了器乐情感识别技术在音乐推荐、情感计算和人机交互等领域的实际应用效果。
为了解决上述挑战,厦门大学艺术学院音乐系的杨柳在《Scientific Reports》上发表了一项创新研究,提出了一种融合CNN、BiGRU和注意力机制的多层音乐情感识别模型。该研究通过构建混合神经网络架构,实现了对器乐音频中多尺度、多维情感信息的精准捕捉,为复杂音乐环境下的情感建模提供了有效方法。
研究人员采用了几项关键技术方法:首先构建了CNN-BiGRU-Attention混合架构,其中CNN负责提取局部时频特征,BiGRU建模时序上下文依赖关系,注意力机制动态聚焦关键情感片段;其次提出了多尺度情感表达策略,通过加权融合方式整合低层音频特征(Mel频谱图、MFCC)与高层语义特征;使用Russell的环状情感模型将情感映射到Valence、Arousal、Dominance三维连续空间;在IRMAS、MedleyDB和DEAM三个器乐数据集上进行验证,采用70%/15%/15%的数据划分方案,并引入数据增强技术提升模型鲁棒性。
模型结构与特征建模方法
研究构建的器乐情感识别模型采用多层次处理流程。原始器乐音频段首先经过谱门限噪声抑制和零均值单位方差归一化预处理,随后通过傅里叶变换和Mel滤波器组生成二维Mel频谱图作为模型输入。
CNN模块采用三层卷积结构,每层包含批量归一化、ReLU激活函数和最大池化操作,卷积核尺寸统一为3×3,滤波器数量依次为32→64→128。该设计能有效提取音频的局部时空特征,捕获情感相关的纹理信息。批量归一化操作加速训练收敛,抑制内部协变量偏移,其数学表达式为:BN(F(k)) = γ(k)·(F(k)(k))/√((σ(k))2+ε)+β(k)
BiGRU模块通过双向门控机制分析器乐音频的前后段语义关系,捕捉音乐特征中蕴含的情感信息。与基本RNN相比,GRU引入门控机制解决梯度消失或爆炸问题,而双向结构能同时捕获序列数据的正向和反向依赖关系。
注意力机制通过计算每个时间步隐藏状态的重要性权重,使模型聚焦于旋律轮廓、节奏模式和谐波结构等对情感表达起决定性作用的关键片段。具体通过et= vTtanh(Whht+bh)计算得分,再经Softmax归一化得到注意力权重αt,最终加权求和生成上下文向量c = ∑t=1Tαtht作为新的情感特征表示。
多尺度情感表达策略
针对器乐情感表达的多层次特性,研究提出了融合低层音频特征和高层语义特征的多尺度策略。选择Mel频谱图和MFCC作为主要低层音频特征,因其能更好地模拟人耳听觉感知特性。特征融合采用加权求和方式:Ffusion= α·F?low+ β·F?high,其中权重系数α、β∈[0,1]且满足α+β=1,在训练过程中通过梯度优化自动学习。
这种早期融合策略既保留了低层特征的局部情感信息,又整合了高层语义特征的全局上下文信息,增强了特征表示的多样性和结构性,为后续情感识别提供了更全面的支持。通过整合不同层次的特征,模型能够构建更高维度的音乐情感认知空间,有效提升了识别的稳定性和鲁棒性。
实验设计与性能评估
研究采用三个音乐情感数据集进行验证:IRMAS数据集提供立体声音频数据,聚焦原声吉他、电吉他、小号和提琴四类乐器;MedleyDB数据集包含122首多轨音乐作品,涵盖多种音乐风格和乐器;DEAM数据集包含1802个音乐片段,提供连续标注的Valence和Arousal维度。为确保实验公平性,所有数据集按70%/15%/15%划分训练集、验证集和测试集。
在参数设置方面,通过网格搜索结合五折交叉验证确定最优超参数:学习率0.001、批大小32、训练轮数50、优化器Adam、卷积层滤波器数量64、BiGRU隐藏单元128。注意力机制参数最大化关注关键情感片段。
模型性能评估涵盖MSE(均方误差)、MAE(平均绝对误差)、Pearson相关系数(r)、决定系数(R2)、准确率和F1分数等多个指标。实验结果显示,预处理后的音频质量显著提升,噪声抑制和归一化使Valence、Arousal和Dominance三个维度的MSE分别降低约15.4%、19.1%和15.1%,Pearson相关系数提升约3.6%、2.9%和2.9%。
学习曲线分析表明,模型在训练过程中表现稳定,训练准确率与验证准确率差距较小,无明显过拟合现象,验证了模型的良好泛化能力。
消融实验验证了各模块的贡献。移除CNN模块导致Valence和Arousal预测精度显著下降,表明CNN在捕获低层音频特征中的关键作用;移除BiGRU削弱了模型对时序上下文的理解能力,尤其在Dominance维度表现明显;移除注意力机制虽能保持基本性能,但对快速情感波动或音乐高潮片段的识别敏感性和准确性下降。
不同低层特征的对比实验显示,Mel频谱图和MFCC在三个情感维度上的MSE值均显著低于Chroma、Spectral Contrast和Tonnetz等特征,证明其在音乐情感表达捕获方面的优势。
与基线模型的比较进一步验证了所提模型的优越性。在MSE指标上,CNN-BiGRU-Attention模型在Valence、Arousal和Dominance上分别达到0.0187、0.0208和0.0243,显著低于传统SVR(0.0321、0.0365、0.0410)、单一CNN(0.0269、0.0312、0.0341)和Transformer模型(0.0228、0.0265、0.0293)。与最新文献[38]相比,Valence的MSE降低约14.6%,Arousal降低约19.1%。
在MAE指标上,所提模型在三个维度上分别达到0.082、0.095和0.107,相比文献[38]在Valence和Arousal维度上分别降低约11%和9%。
Pearson相关系数方面,所提模型在Valence、Arousal和Dominance上分别达到0.871、0.832和0.784,显著高于其他对比模型。
决定系数(R2)方面,所提模型在三个维度上分别达到0.742、0.665和0.583,表明模型对情感变量具有更强的解释力。
统计检验结果显示,所提模型与最新参考模型相比,在三个情感维度上均达到显著改善(p<0.01),95%置信区间波动较小,表明模型结果具有高稳定性和可重现性。
在准确率、F1分数和AURoC指标上,所提模型在Valence、Arousal和Dominance三个维度上分别达到0.88/0.85/0.83、0.82/0.79/0.76和0.85/0.82/0.80,全面优于对比模型,特别是在Dominance维度上相比文献[39]准确率提升约7%,证明模型在识别复杂微妙情感变化方面的强大性能。
研究结论与讨论
本研究针对器乐情感识别的复杂性,提出了一种融合多种人工智能技术的新型情感识别模型。通过构建融合CNN局部特征提取、BiGRU时序上下文依赖建模和注意力机制关键情感片段聚焦的多层架构,结合低层音频信号与高层语义特征的特征融合策略,实现了对音乐情感的多维理解。
实验结果表明,使用Russell情感环状模型作为连续情感空间框架,有效契合了器乐情感表达的流动性和微妙性,不仅提升了情感识别的精确度和准确性,也为未来复杂动态音乐情感建模研究奠定了理论基础。该模型在三个连续情感维度上均优于传统方法,特别是在捕捉旋律发展、节奏动态和谐波变化等复杂情感表达方面表现突出。
然而,本研究仍存在一定局限性。所用数据集在音乐风格和情感类型覆盖上相对有限,未能充分反映器乐在不同文化、风格和表达方式下的情感差异,这在一定程度上限制了模型的泛化能力和跨场景应用效果。面对乐器组合复杂、音色交织的音乐片段时,模型对微妙情感变化的识别精度仍有提升空间。
未来研究可引入更多多维度和跨文化的音乐情感数据集,结合无监督或半监督学习策略降低对高质量情感标注的依赖;同时探索多模态融合路径,如将歌词和乐谱结构信息引入模型,进一步提升对复杂音乐情感的理解和表达能力。此外,还可利用自监督学习和迁移学习技术,增强模型在多领域音乐数据中的适应性和鲁棒性。
该研究的创新之处在于构建并优化了融合CNN、BiGRU和注意力机制的混合架构,通过多尺度特征融合机制实现时空谱情感特征的自适应加权,提升了模型的特征表达能力;引入情感特征重构模块,在潜在空间中对情感特征进行重新分布和增强,提高了模型对复杂音乐情感可区分性的识别精度。这些创新为音乐情感识别技术的发展提供了新的技术途径,推动了该领域向更高水平迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号