
-
生物通官微
陪你抓住生命科技
跳动的脉搏
EmoShiftNet:基于多任务学习与融合策略的多方对话情感转移识别框架
【字体: 大 中 小 】 时间:2025年09月04日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本文提出EmoShiftNet框架,通过多任务学习(MTL)整合情感分类与情感转移检测,采用注意力融合机制融合文本(BERT)、声学(MFCCs/pitch/loudness)和时序特征(pause/overlap),在MELD数据集上实现优于传统模型(如DialogueGCN)的F1值(0.6075),显著提升对少数情感类别的识别能力,为动态多方对话(MPCs)中的情感计算提供新范式。
引言:对话情感识别(ERC)在心理健康监测和人机交互中至关重要。现有模型常忽视多方对话(MPCs)中情感状态的动态转移现象,且面临MELD数据集的类不平衡问题。EmoShiftNet创新性地将情感转移检测作为辅助任务,通过多模态特征融合解决这一挑战。
方法:框架采用三阶段设计:
特征工程:提取768维BERT文本嵌入、13维MFCCs声学特征及停顿时长等时序指标
注意力融合:动态加权文本/声学/时序特征,公式ffused = αtft + αafa + αtempftemp
多任务学习:主任务为情感分类(7类SoftMax),辅助任务为二元转移检测(st = I(et≠et-1)),损失函数组合focal loss、交叉熵和三元组损失(Ltotal = Lemotion + λLshift + γLtriplet)
关键发现:
性能优势:在MELD测试集达到0.6075 F1值,较基线模型提升2-8个百分点,对愤怒(+0.11)和悲伤(+0.04)等少数情感改善显著
融合策略:注意力融合(F1=0.6065)优于早期融合(0.5812)和Transformer融合(0.4704)
时序特征:单独使用时序特征取得最佳转移检测F1(0.6519),证实对话节奏对情感转移的指示作用
损失函数:标签平滑+三元组损失组合在类不平衡条件下表现最优(F1=0.456)
讨论与局限:
声学特征贡献有限(F1下降至0.5867),可能与TV剧集音频质量有关
中性情感仍存在误判(54例愤怒被误判为中性),反映类不平衡的持续挑战
未引入视觉模态和说话人追踪是未来改进方向
这项研究为动态对话情感分析提供了新思路,其注意力融合和转移感知机制对开发更具情境意识的对话系统具有重要价值。后续工作可探索自监督音频编码器(如wav2vec)和长程上下文建模以进一步提升性能。
生物通微信公众号
知名企业招聘