基于层次瓶颈特征融合与模态约束的多模态语音情感识别研究

【字体: 时间:2025年07月21日 来源:Speech Communication 2.4

编辑推荐:

  推荐:针对多模态语音情感识别(SER)中模态冲突与特征融合难题,研究人员提出层次瓶颈特征(HBF)融合框架,结合模态表征约束(MRC)和模态协商(MB)策略,显著提升CREMA-D/IEMOCAP/MELD数据集性能,为人机交互情感计算提供新范式。

  

在人工智能与人机交互蓬勃发展的今天,准确识别人类情感已成为提升智能服务体验的核心挑战。尽管语音情感识别(SER)技术通过分析声学特征(如Mel频率倒谱系数MFCC、梅尔频谱图Mel-spectrogram)取得进展,但单一模态易受噪声干扰且难以捕捉语义深层情绪。更棘手的是,当研究者尝试融合语音、文本等多模态数据时,常遭遇模态竞争、特征不对齐等"1+1<2"的困境——这正是重庆大学(Chongqing University)王颖团队在《Speech Communication》发表的研究要破解的科学难题。

研究团队创新性提出三层次解决方案:首先设计层次瓶颈特征(HBF)融合模块,通过分阶段聚合不同网络深度的模态特征,避免传统跨模态注意力机制的特征扭曲;其次开发模态表征约束(MRC)方法,利用对比学习约束不同模态编码器的优化路径,缓解模态收敛速度差异;最后引入模态协商(MB)策略,通过动态平衡各模态贡献度防止局部最优。关键技术涉及IEMOCAP、CREMA-D等多模态数据集建模,以及基于Mel-filterbanks的声学特征提取。

方法部分显示,HBF模块通过独立分支网络逐层融合瓶颈特征,相比传统特征拼接方法在CREMA-D数据集上提升识别率4.2%。实验部分证实MRC使模态间特征分布相似度提高31.5%,而MB策略将模态内特征完备性指标提升至0.87。可视化分析表明,该方法在"愤怒"等高强度情绪识别中F1值达0.91,显著优于基线模型。

这项研究的意义在于:其一,HBF-MRC-MB框架为多模态SER建立了可扩展的通用架构;其二,提出的模态协商机制为解决机器学习中的模态竞争问题提供新思路;其三,在医疗辅助诊断、智能客服等场景具有应用潜力。正如研究者王颖所述,该工作"首次实现模态间冲突量化控制与自适应特征对齐",为多模态学习开辟了新路径。未来研究可探索该框架在肢体语言等多模态场景的迁移能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号