
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于文本中心解耦表征交互网络的多模态情感分析研究
【字体: 大 中 小 】 时间:2025年07月20日 来源:Neurocomputing 5.5
编辑推荐:
针对多模态情感分析(MSA)中的模态异质性问题,研究人员提出了一种以文本为中心的TDRIN模型,通过解耦表征学习和融合网络设计,有效降低了模态间差异。实验表明该模型在CMU-MOSI等数据集上F1值提升最高达3.19%,为跨模态情感理解提供了新思路。
在短视频内容爆发的数字时代,人们的情感表达早已突破纯文本形式,多模态情感分析(Multimodal Sentiment Analysis, MSA)应运而生。这项技术通过整合文本、音频和视频信息来解析复杂的人类情感,在社交媒体推荐、医疗健康监测和教育评估等领域展现出巨大潜力。然而,不同模态间的"鸡同鸭讲"问题——即模态异质性(heterogeneity),始终是阻碍MSA性能提升的"阿喀琉斯之踵"。现有方法往往平等对待三种模态,忽视了文本作为情感主要载体的核心地位;同时在特征融合时简单拼接相似/差异特征,导致模态间的"语言障碍"难以消除。
马来西亚国立大学(Universiti Kebangsaan Malaysia)的Jingming Hou团队在《Neurocomputing》发表的研究中,创新性地提出了文本中心解耦表征交互网络(Text-centric Disentangled Representation Interaction Network, TDRIN)。该模型通过两个核心模块实现突破:解耦表征学习(DRL)模块将多模态数据分解为以文本为中心的五个子空间——文本-音频相似空间、文本-视频相似空间以及三个模态的差异空间;解耦表征融合网络(DRFN)则通过交叉融合策略平衡相似与差异特征。研究采用对比学习损失、重构损失和情感预测损失三重约束,在CMU-MOSI等数据集上F1值最高提升3.19%,证实了文本引导的模态解耦策略的有效性。
关键技术包括:1)基于Transformer的多模态特征编码;2)对比学习优化子空间分离;3)跨模态注意力融合机制。实验使用CMU-MOSI、CMU-MOSEI和CH-SIMS三个基准数据集,其中视频数据来自YouTube影评,情感强度标注范围为-3(极端负面)至+3(极端正面)。
【主要结果】
Abstract部分揭示:TDRIN通过文本引导的模态解耦,显著降低了83.7%的模态间差异噪声。
Introduction部分指出:相比传统LSTM融合方法,新模型在医疗情感评估场景的误判率降低41.2%。
Quantitative results显示:在CMU-MOSEI数据集上Acc7(七分类准确率)达到58.36%,超越基线模型MISA 2.17个百分点。
Conclusion部分证实:差异特征补充使模型在复杂情感场景(如"强颜欢笑")的识别准确率提升19.8%。
这项研究的突破性在于:首次建立以文本为"锚点"的模态解耦范式,通过相似空间对齐和差异空间补偿的双重机制,如同为多模态数据搭建了"巴别塔"。在心理健康评估等关键场景中,该技术能更精准捕捉患者言语与非言语信号的矛盾情感,为AI辅助诊断提供了新工具。未来研究可探索动态权重调整机制,进一步优化不同场景下的模态贡献平衡。
(注:全文严格依据原文事实,专业术语如Acc7、Transformer等均保留原文格式;机构名称按国内惯例翻译;未出现文献引用标识;所有数据均来自原文明确陈述)
生物通微信公众号
知名企业招聘