
-
生物通官微
陪你抓住生命科技
跳动的脉搏
情感宇宙(EmoVerse):基于多任务学习的多模态大语言模型情感计算增强研究
【字体: 大 中 小 】 时间:2025年07月04日 来源:Neurocomputing 5.5
编辑推荐:
【编辑推荐】针对多模态大语言模型(MLLMs)在情感计算中存在的细微表情识别困难、复杂情感推理能力不足等问题,山东大学团队提出EmoVerse模型,通过多阶段多任务情感(M2SE)指令调优策略,结合自建Affective Multitask(AMT)数据集,在CMU-MOSEI(Acc2 88.51%)、MELD(F1 66.74%)等基准测试中实现SOTA性能,为多模态情感推理提供统一解决方案。
在人工智能蓬勃发展的今天,情感计算正成为人机交互和心理健康监测的核心技术。然而,现有多模态大语言模型(Multimodal Large Language Models, MLLMs)面临三大困境:难以捕捉转瞬即逝的微妙表情,缺乏对复杂情感因果链的推理能力,更无法应对多模态长上下文场景的情感理解。这就像给机器人装上了"近视眼"和"直线思维",使其在需要共情的场景中频频"踩雷"。更棘手的是,当前领域缺乏能统一处理情感分析(Multimodal Sentiment Analysis, MSA)、情感识别(Multimodal Emotion Recognition, MER)等多样化任务的通用模型,导致不同任务需要重复开发专用系统,效率低下且难以实现知识迁移。
针对这些挑战,山东大学的研究团队在《Neurocomputing》发表的研究中,创造性地提出了"情感宇宙"(EmoVerse)系统。该研究通过独创的多阶段多任务情感(Multistage Multitask Sentiment and Emotion, M2SE)指令调优策略,将传统"分而治之"的情感任务整合进统一框架,使模型能像人类心理咨询师那样,既识别表情又分析因果,最终在多项基准测试中刷新性能纪录。为支撑这一研究,团队还构建了包含2.4万条标注数据的Affective Multitask(AMT)数据集,涵盖情感分析、表情识别等五大任务,填补了领域内多任务训练资源的空白。
关键技术方面,研究采用三管齐下的方法:首先设计M2SE训练策略,将MSA、MER等任务按难度分级,分预训练和推理微调两阶段实施;其次开发动态权重分配机制,平衡不同任务学习进度;最后引入跨模态注意力增强模块,提升模型对长上下文情感线索的捕捉能力。所有实验均在严格控制的硬件环境下进行,采用5折交叉验证确保结果可靠性。
【多模态大语言模型】章节揭示,EmoVerse通过线性映射层(Linear)将视觉特征与LLM对齐,相比传统Q-Former结构,参数量减少18%但推理速度提升2.3倍。【Affective Multitask数据集】部分显示,AMT数据集通过专家双盲标注达到0.89的Kappa一致性系数,其ECPE任务包含1.2万对情感-原因标注对,规模为同类最大。【EmoVerse模型架构】详细阐述了两阶段训练机制:预训练阶段侧重基础情感特征提取,推理阶段则强化因果分析能力,最终模型在8块A100 GPU上完成300万步训练。
实验结果表明,EmoVerse在CMU-MOSEI的MSA任务中准确率(Acc2)达88.51%,较基准模型提升6.2%;在MELD的MER任务中F1值66.74%,超越专用模型Emotion-LLaMA 4.8个百分点。更令人瞩目的是,其在新任务ECPE上的F1达73.62%,证明多任务训练带来的知识迁移优势。消融实验证实,移除M2SE策略会使长上下文理解能力下降31%,凸显阶段式训练的必要性。
这项研究的突破性在于,首次证明单一MLLM可通过科学设计的训练策略覆盖情感计算全链条任务。其提出的课程式学习框架,为其他复杂多任务场景提供了可借鉴的范式。实际应用中,EmoVerse已成功部署于某三甲医院的心理筛查系统,将情感识别误诊率降低42%。未来,团队计划将模型扩展至更多模态(如生理信号),进一步逼近人类级情感理解能力。正如论文结论强调:"当AI真正读懂人心,人机交互将迎来革命性变革。"
生物通微信公众号
知名企业招聘