基于层次瓶颈特征融合与模态约束的多模态语音情感识别研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月21日 来源：Speech Communication 2.4

编辑推荐：

　　推荐：针对多模态语音情感识别(SER)中模态冲突与特征融合难题，研究人员提出层次瓶颈特征(HBF)融合框架，结合模态表征约束(MRC)和模态协商(MB)策略，显著提升CREMA-D/IEMOCAP/MELD数据集性能，为人机交互情感计算提供新范式。

在人工智能与人机交互蓬勃发展的今天，准确识别人类情感已成为提升智能服务体验的核心挑战。尽管语音情感识别(SER)技术通过分析声学特征（如Mel频率倒谱系数MFCC、梅尔频谱图Mel-spectrogram）取得进展，但单一模态易受噪声干扰且难以捕捉语义深层情绪。更棘手的是，当研究者尝试融合语音、文本等多模态数据时，常遭遇模态竞争、特征不对齐等"1+1<2"的困境——这正是重庆大学（Chongqing University）王颖团队在《Speech Communication》发表的研究要破解的科学难题。

研究团队创新性提出三层次解决方案：首先设计层次瓶颈特征(HBF)融合模块，通过分阶段聚合不同网络深度的模态特征，避免传统跨模态注意力机制的特征扭曲；其次开发模态表征约束(MRC)方法，利用对比学习约束不同模态编码器的优化路径，缓解模态收敛速度差异；最后引入模态协商(MB)策略，通过动态平衡各模态贡献度防止局部最优。关键技术涉及IEMOCAP、CREMA-D等多模态数据集建模，以及基于Mel-filterbanks的声学特征提取。

方法部分显示，HBF模块通过独立分支网络逐层融合瓶颈特征，相比传统特征拼接方法在CREMA-D数据集上提升识别率4.2%。实验部分证实MRC使模态间特征分布相似度提高31.5%，而MB策略将模态内特征完备性指标提升至0.87。可视化分析表明，该方法在"愤怒"等高强度情绪识别中F1值达0.91，显著优于基线模型。

这项研究的意义在于：其一，HBF-MRC-MB框架为多模态SER建立了可扩展的通用架构；其二，提出的模态协商机制为解决机器学习中的模态竞争问题提供新思路；其三，在医疗辅助诊断、智能客服等场景具有应用潜力。正如研究者王颖所述，该工作"首次实现模态间冲突量化控制与自适应特征对齐"，为多模态学习开辟了新路径。未来研究可探索该框架在肢体语言等多模态场景的迁移能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号