采用LoRA微调的多模态大型语言模型，用于多模态情感分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Multimodal Large Language Model with LoRA Fine-Tuning for Multimodal Sentiment Analysis

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　多模态情感分析研究存在监督标签不足和模态特征交互缺失两大问题。本文提出Vision-Language Contrastive Learning network（VLCLNet），通过预训练大语言模型（LLM）获取跨模态语义表征，并利用BLIP-2实现多模态特征融合，结合对比学习增强模态关联性。针对预训练任务与下游任务的差异，采用LoRA参数微调策略优化模型性能。实验证明VLCLNet显著优于现有基线方法。

摘要

近年来，多模态情感分析已成为一个热门的研究课题。然而，现有的方法存在两个未解决的问题：（1）它们使用有限的监督标签来训练模型，这使得模型无法完全理解不同模态数据中的情感；（2）它们采用在单一模态任务中预训练的文本和图像模型来提取不同模态的特征，因此提取的特征无法考虑图像和文本之间的交互信息。为了解决这些问题，本文提出了一种视觉-语言对比学习网络（VLCLNet）。首先，我们引入了一个预训练的大型语言模型（LLM），该模型通过大量多模态数据进行了训练，对图像和文本内容有更好的理解能力，因此能够在需要少量标注训练数据的情况下有效应用于各种任务。其次，我们改编了一个多模态大型语言模型（MLLM），即BLIP-2（自举式语言-图像预训练）网络，用于提取多模态融合特征。这种MLLM在提取特征时能够充分考虑图像和文本之间的相关性。此外，由于预训练任务与情感分析任务之间存在差异，预训练模型可能会输出次优的预测结果。我们采用LoRA（低秩适应）微调策略来更新模型参数，以解决预训练任务与下游任务之间的不一致性问题。实验验证表明，所提出的VLCLNet优于其他强大的基线模型。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号