基于双流协作网络的多模态情感分析:模态不变与模态特异性表征学习的协同优化

【字体: 时间:2025年07月25日 来源:Neurocomputing 5.5

编辑推荐:

  推荐:针对多模态情感分析(MSA)中文本主导导致模态协同不足的问题,研究人员提出双流协作网络(DSCN),通过自模态绑定通道(SBC)和跨模态绑定通道(CBC)实现三模态协同交互,结合强度-极性任务分解框架缓解标签偏移问题。在CMU-MOSI/MOSEI数据集上ACC-2达86.75%/86.69%,超越基线0.65%/0.83%,为智能人机交互提供新范式。

  

在智能人机交互时代,准确识别人类情感是机器理解用户需求的关键。传统情感分析主要依赖文本,但现实中人们通过语言、语调、表情等多渠道传递情绪——例如"真不错"配合翻白眼的表情和讽刺语气,实际表达的是负面情绪。这种多模态表达的特性使得单一模态分析常产生误判,而现有融合方法又过度依赖文本模态,将语音和视觉作为辅助,导致三模态协同不足。更棘手的是,模态间异步性(如表情变化滞后于语音)、信噪比差异(如模糊视频画面)和语义冲突(如字面意思与副语言信息矛盾)会引入噪声,而多任务框架中的标签偏移问题进一步加剧了情感歧义。

针对这些挑战,成都理工大学的研究团队在《Neurocomputing》发表研究,提出双流协作网络(DSCN)。该网络通过双通道协作Transformer(DCCT)实现三模态对等交互:自模态绑定通道(SBC)强化模态内一致性,跨模态绑定通道(CBC)捕捉细粒度互补特征;同时将情感分析分解为强度和极性子任务,通过三模态标签生成器(TMLG)的共享-私有线性层结构实现任务自适应。研究采用CMU-MOSI/MOSEI数据集,通过特征分解、双通道注意力机制和多任务联合优化等技术,首次实现了三模态的协同推理与标签去噪。

特征提取与绑定策略
通过共性-特异性编码器将文本、视觉、音频特征分解为共有和独有成分,时序对齐后分别输入SBC和CBC通道。实验显示该策略使特征空间聚类清晰度提升23%。

双通道协作Transformer
SBC通道采用多头自注意力增强模态内表征,CBC通道通过跨模态注意力实现特征互补。消融实验表明双通道结构使跨模态冲突减少37%。

三模态标签生成器
强度任务聚焦声学韵律和面部肌肉运动特征,极性任务侧重文本语义。共享层捕获两者关联,私有层保留任务特异性,使中性样本误判率降低15%。

数据集验证
在CMU-MOSI上ACC-2达86.75%,F1-score提升1.2%;在更大规模的CMU-MOSEI上保持86.69%准确率,证实模型泛化性。对比实验显示DCCT模块使跨模态交互效率提升40%。

该研究突破性地实现了三模态对等协作,其创新性体现在三方面:首先,DCCT通过双通道结构平衡模态内一致性与跨模态互补性,使融合特征具有更优的线性可分性;其次,强度-极性任务分解有效缓解标签偏移,TMLG的共享-私有机制为多任务学习提供新思路;最后,实验证明即便在未对齐数据上,DSCN仍能保持稳定性能,这对实际场景中异步多模态数据处理具有重要价值。未来工作可探索模态动态权重分配机制,进一步提升对模态缺失场景的鲁棒性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号