
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于上下文增强跨模态注意力模型的语音情感识别研究
【字体: 大 中 小 】 时间:2025年07月28日 来源:Speech Communication 2.4
编辑推荐:
为解决语音情感识别(SER)中多模态数据异步对齐困难、上下文动态建模不足的问题,研究人员提出了一种融合特征级与模型级混合策略的上下文增强跨模态注意力模型(CECMA)。该模型通过优化多模态信号异步对齐和特征映射权重,在IEMOCAP和MSP-IMPROV数据集上取得81.64%加权准确率(WA)的突破性成果,为智能人机交互提供了更精准的情感感知方案。
在人工智能与人机交互蓬勃发展的今天,语音情感识别(Speech Emotion Recognition, SER)技术正成为提升计算机情感理解能力的关键。然而,现有技术面临两大瓶颈:一是传统基于梅尔频率倒谱系数(MFCC)等手工特征的方法难以捕捉复杂情感状态;二是多模态数据(如语音与文本)的异步性导致关键情感线索丢失。更棘手的是,长对话中的情绪累积与转换(如愤怒的逐步升级)往往被现有模型忽视。这些问题严重制约了智能客服、心理辅助等场景的应用效果。
针对这些挑战,辽宁师范大学的研究团队在《Speech Communication》发表了一项创新研究。他们开发的上下文增强跨模态注意力模型(Context-Enhanced Cross-Modal Attention, CECMA),通过独创的"双阶段融合"策略——早期融合保证模态间特征交互,晚期融合优化全局决策——成功实现了多模态信号的精准对齐。该模型在行业标准测试集IEMOCAP上创下82.50%的非加权准确率(UA),较传统方法提升显著。
研究团队采用三大核心技术:首先利用Wav2vec2.0预训练模型提取深度语音特征,克服了传统MFCC的局限性;其次设计跨模态注意力权重优化模块,通过动态调整语音-文本特征映射解决异步问题;最后引入对话上下文编码器,捕捉长时程情感演变规律。实验特别采用演员即兴对话数据集MSP-IMPROV验证模型鲁棒性,并模拟实际场景加入自动语音识别(ASR)生成文本的测试。
关键研究发现包括:1)在"声学特征提取"部分,证实结合基频和谐波特征能更有效识别愤怒等强情绪状态;2)"模型架构"测试显示,异步对齐机制使关键情感片段的注意力权重提升37%;3)"实验结果"表明,上下文增强策略对抑郁情绪的识别准确率提高21.8%。值得注意的是,即便使用ASR生成的低质量文本,模型仍保持66.35%的UA,证实其实际应用价值。
这项研究的突破性在于:首次将语音信号的时序动态性与文本语义的上下文关联进行协同建模,为复杂场景下的情感计算提供了新范式。团队特别指出,该技术可扩展应用于心理健康筛查(如通过语音特征早期识别抑郁症),相关成果已获得辽宁省科技厅等多项基金支持。未来研究将探索融入视觉模态的第三代多模态融合框架,进一步推动情感智能的发展。
生物通微信公众号
知名企业招聘