
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于层次瓶颈特征融合与模态约束的多模态语音情感识别研究
【字体: 大 中 小 】 时间:2025年07月21日 来源:Speech Communication 2.4
编辑推荐:
推荐:针对多模态语音情感识别(SER)中模态冲突与特征融合难题,研究人员提出层次瓶颈特征(HBF)融合框架,结合模态表征约束(MRC)和模态协商(MB)策略,显著提升CREMA-D/IEMOCAP/MELD数据集性能,为人机交互情感计算提供新范式。
在人工智能与人机交互蓬勃发展的今天,准确识别人类情感已成为提升智能服务体验的核心挑战。尽管语音情感识别(SER)技术通过分析声学特征(如Mel频率倒谱系数MFCC、梅尔频谱图Mel-spectrogram)取得进展,但单一模态易受噪声干扰且难以捕捉语义深层情绪。更棘手的是,当研究者尝试融合语音、文本等多模态数据时,常遭遇模态竞争、特征不对齐等"1+1<2"的困境——这正是重庆大学(Chongqing University)王颖团队在《Speech Communication》发表的研究要破解的科学难题。
研究团队创新性提出三层次解决方案:首先设计层次瓶颈特征(HBF)融合模块,通过分阶段聚合不同网络深度的模态特征,避免传统跨模态注意力机制的特征扭曲;其次开发模态表征约束(MRC)方法,利用对比学习约束不同模态编码器的优化路径,缓解模态收敛速度差异;最后引入模态协商(MB)策略,通过动态平衡各模态贡献度防止局部最优。关键技术涉及IEMOCAP、CREMA-D等多模态数据集建模,以及基于Mel-filterbanks的声学特征提取。
方法部分显示,HBF模块通过独立分支网络逐层融合瓶颈特征,相比传统特征拼接方法在CREMA-D数据集上提升识别率4.2%。实验部分证实MRC使模态间特征分布相似度提高31.5%,而MB策略将模态内特征完备性指标提升至0.87。可视化分析表明,该方法在"愤怒"等高强度情绪识别中F1值达0.91,显著优于基线模型。
这项研究的意义在于:其一,HBF-MRC-MB框架为多模态SER建立了可扩展的通用架构;其二,提出的模态协商机制为解决机器学习中的模态竞争问题提供新思路;其三,在医疗辅助诊断、智能客服等场景具有应用潜力。正如研究者王颖所述,该工作"首次实现模态间冲突量化控制与自适应特征对齐",为多模态学习开辟了新路径。未来研究可探索该框架在肢体语言等多模态场景的迁移能力。
生物通微信公众号
知名企业招聘