DiViCo:一种用于高效大型视觉-语言模型的解耦视觉令牌压缩方法
《IEEE Transactions on Circuits and Systems for Video Technology》:DiViCo: Disentangled Visual Token Compression for Efficient Large Vision-Language Model
【字体:
大
中
小
】
时间:2026年02月21日
来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
大型视觉语言模型存在推理阶段计算开销大、现有压缩方法导致信息损失的问题。本文提出DiViCo模块,通过分层选择视觉token并建模信息损失,在压缩67.7% FLOPs的同时保持95.6%准确率。
摘要:
大型视觉语言模型(Large Vision-Language Models)受到了广泛关注,并在复杂的多模态任务中变得越来越实用,例如视觉问答、视频信息匹配等。然而,在推理阶段,由于大量视觉标记带来的计算开销,这些模型仍然存在效率低下的问题。现有的方法要么利用注意力得分(或视觉-文本相关性)来过滤掉不太重要的视觉标记,要么插入可学习的投影层来直接压缩这些标记,但这忽略了视觉信号中的信息细节,从而导致模型对测试数据的泛化能力较差。为了解决这些问题,本文提出了一种新颖的解耦视觉标记压缩模块(Disentangled Visual Token Compression,简称DiViCo),该模块能够有效地压缩视觉标记同时保持良好的性能。具体来说,我们首先根据视觉标记的平均注意力得分选出排名前%的视觉标记,然后通过一种解耦和变分的方法预测这些选定标记与原始信息之间的差异。具体而言,我们对差异的均值和方差进行建模,并从高斯先验中采样预测的差异。此外,我们通过KL散度来保持压缩后视觉标记的信息量,从而确保模型的泛化能力。广泛的实验表明,与几种现有的最佳方法相比,我们提出的DiViCo模块在各种真实世界数据集上具有优势。最值得注意的是,配备了DiViCo的LLaVA-v1.5-7b模型能够在保持95.6%准确率的情况下,将FLOPs降低67.7%,并节省51.7%的时间。
引言
基于大型语言模型(Large Language Model,简称LLM)[1]、[2]、[3]、[4]、[5],以及大型视觉语言模型(Large Vision-Language Model,简称LVLM)[6]、[7]、[8]、[9]、[10]、[11]、[12]的发展,通过将视觉和文本模态相结合,利用LLM强大的文本理解能力取得了革命性的进展。现有的方法主要采用序列化的视觉表示[10]、[12],即首先将图像或视频等视觉信号分割成多个小块,然后将其编码成一系列标记,并将这些标记投影到文本领域。通过视觉指令调优[11]等技术,LVLM能够完成复杂的多模态任务,包括图像字幕生成、视觉问答和视频信息匹配等。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号