VQ-MAE-AV 模型:开启视听语音情感识别新征程

【字体: 时间:2025年05月07日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  在情感识别中,获取带标签数据集困难重重。研究人员开展了基于 VQ-MAE-AV 模型的视听语音情感识别研究。结果显示,该模型在多个数据集上优于现有方法。这为情感识别领域开辟了新路径,推动了相关技术发展。

  在日常生活中,我们常常通过语气、表情等非言语线索来感知他人的情绪。随着视听接口的日益普及,能够准确从视听语音信号中识别情感的系统需求大增。然而,传统的监督学习依赖带标签的数据集,获取这些数据集不仅耗费大量资源,而且在实际标注过程中,由于情感标注的主观性,标注者之间很难达成一致,这极大地限制了情感识别技术的发展。
为了解决这些问题,来自未知研究机构的研究人员开展了一项极具创新性的研究。他们提出了 VQ-MAE-AV 模型(向量量化掩码自动编码器用于视听语音情感识别模型),旨在利用未标记的训练数据学习视听语音的表示,进而实现更高效的情感识别。该研究成果发表在《Computer Vision and Image Understanding》上,为情感识别领域带来了新的突破。

研究人员在这项研究中主要运用了以下关键技术方法:

  1. 向量量化变分自编码器(VQ-VAEs):通过训练两个独立的 VQ-VAE,分别对音频和视觉数据进行压缩和量化,将原始数据转换为离散的潜在表示,保留数据的关键结构信息。
  2. 掩码自动编码器(MAE):基于 MAE 的架构,对离散的视听语音令牌进行掩码操作,训练模型从部分可见的输入中重建原始令牌,学习视听语音的特征表示。
  3. 对比学习:引入对比学习策略,增强模型对视听语音对的对齐能力,通过最小化对比损失,使模型更好地捕捉不同模态之间的关系。
  4. 多模态融合策略:提出了自我注意力融合和交叉注意力融合两种策略,用于融合音频和视觉数据,以不同方式整合两种模态的信息,提高模型性能。

下面来看看具体的研究结果:

  1. 视听语音重建质量:研究人员评估了 VQ-MAE-AV 模型在掩码视听语音数据上的重建质量。通过与单模态版本的 VQ-MAE-A 和 VQ-MAE-V 比较,发现 VQ-MAE-AV 在较高掩码比例下表现更优。在视觉重建方面,当掩码比例大于 50% 时,VQ-MAE-AV 性能超过 VQ-MAE-V;在音频重建方面,掩码比例大于 40% 时,VQ-MAE-AV 优于 VQ-MAE-A。这表明利用多模态能有效提升重建质量。
  2. 视听情感识别:研究人员在 4 个不同数据集上评估了 VQ-MAE-AV 模型的情感识别性能,并与 15 种最先进的方法进行比较。在受控条件下的 RAVDESS 和 CREMA-D 数据集上,VQ-MAE-AV 模型的准确率和 F1 分数均高于其他方法;在野外数据集 DFEW 和 Aff-Wild2 上,同样表现出色。这证明该模型在不同环境下都能有效识别情感。
  3. 消融研究
    • 预训练和微调的影响:自我监督预训练和微调对模型性能至关重要。预训练使模型准确率从 29.6% 提升到 81.5%,微调编码器能避免 11% 的准确率下降。
    • 编码器深度的影响:增加编码器中注意力块的数量,在一定范围内能提高情感识别性能,当数量达到 16 时效果最佳,超过这个数量性能会下降。
    • 生成和对比损失函数的影响:同时使用生成损失和对比损失函数进行预训练,能使模型达到最佳性能,单独使用对比损失或生成损失会导致准确率下降。
    • 模态融合策略的影响:在编码器和解码器中,交叉注意力融合策略(CAF-CAF)的性能最高,相比自我注意力融合策略(SAF-SAF)有 1.5% 的准确率提升,但参数数量也更多。
    • 情感识别模型的影响:Query2Emo 情感识别模型表现最佳,相比朴素的平均池化策略,准确率提高了 2.8%。
    • 模态的影响:利用音频和视觉两种模态,比单独使用一种模态的性能有显著提升,准确率分别提高了 5.6%(与仅使用视觉模态相比)和 8.3%(与仅使用音频模态相比)。
    • 音频和视觉离散令牌大小的影响:选择合适的离散令牌大小对模型性能很重要,推荐设置为 (h = w = 4, d = 4)。


研究结论和讨论部分指出,VQ-MAE-AV 模型有效结合了音频和视觉模态,在视听语音情感识别(SER)任务中表现出色,超越了多个最先进的方法。虽然该模型在自我监督预训练后需要在情感数据集上进行微调,这是一个局限性,但也为其应用于其他任务提供了可能,如视听语音识别、说话人识别或跨模态生成任务等。此外,该模型采用的掩码建模方法,使得跨模态集成更加高效,为未来多模态人类行为分析,尤其是情感识别领域的研究开辟了新方向。这项研究成果为情感识别技术的发展提供了重要的理论支持和实践指导,有望推动该领域在实际应用中的进一步发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号