
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视觉令牌序列优化策略(RFI):提升图像描述生成效率与性能的协同方法
【字体: 大 中 小 】 时间:2025年06月27日 来源:Neural Networks 6.0
编辑推荐:
针对图像描述生成(IC)任务中视觉编码计算冗余导致的效率瓶颈,研究者提出基于知识注入的视觉令牌序列优化策略RFI(Reduction-Fusion-Insertion)。通过动态筛选高价值令牌、融合丢弃令牌语义及插入全局表征,在COCO等数据集上实现34.3%令牌保留率下零性能损失,推理速度提升超50%,为多模态模型轻量化提供新范式。
在人工智能蓬勃发展的今天,让计算机"看懂"图片并生成自然语言描述(Image Captioning, IC)已成为连接视觉与语言的关键桥梁。然而,随着Transformer架构在IC任务中的广泛应用,一个令人头疼的矛盾日益凸显:虽然基于ViT(Vision Transformer)的模型性能节节攀升,但其庞大的计算开销却让实际应用举步维艰。更令人沮丧的是,现有研究发现视觉编码阶段竟消耗了整个系统70%以上的算力!这就像给一辆跑车装上了航天发动机——性能虽强,油耗却让人望而却步。
问题的根源在于视觉令牌的"铺张浪费"。当前方法简单粗暴地将图像分割成142或162个令牌,却忽视了人类描述图像时的选择性注意特性——我们只会关注图片中真正重要的部分。更讽刺的是,最终生成的描述通常仅需10-20个单词,与数百个视觉令牌形成鲜明对比。这种"大炮打蚊子"式的设计,让研究者开始思考:能否像人类一样,只保留那些真正有价值的视觉信息?
来自广东某重点实验室的研究团队在《Neural Networks》发表的研究给出了创新解决方案。他们发现现有图像分类任务的令牌压缩方法直接移植到IC会导致严重性能损失——因为生成描述需要更精细的视觉语义。为此,团队提出名为RFI的视觉令牌序列优化策略,通过知识注入的令牌筛选(Reduction)、语义融合(Fusion)和全局补偿(Insertion)三重机制,在COCO等数据集上实现仅保留34.3%令牌却保持性能,推理速度提升超50%的突破。
研究采用三大关键技术:1)基于弱监督预训练的令牌重要性评分网络,从注意力机制中提取先验知识;2)动态融合模块将丢弃令牌语义浓缩为补偿向量;3)可学习的插入令牌通过Transformer编码块捕获层级化全局特征。实验设计涵盖MSCOCO、Flickr30k等标准数据集,采用CIDEr等自动化指标与人工评估结合的方式验证效果。
【研究结果】
研究结论指出,RFI策略成功实现了视觉语义的"去芜存菁"。其创新性体现在:1)首次将知识注入机制引入令牌压缩,使评分网络具备语义感知能力;2)融合-插入的补偿设计突破性地将丢弃信息利用率提升至83%;3)模块化设计可灵活适配不同ViT架构。这项工作不仅为IC任务提供实用加速方案,更启示多模态任务应建立符合认知规律的视觉信息处理范式——就像人类画家创作时,既不会遗漏关键笔触,也懂得留白的艺术。
值得注意的是,研究还揭示了视觉-语言关联的阈值效应:当令牌保留率低于20%时,即使采用RFI补偿,性能仍会急剧下降。这一发现为后续研究划定了效率优化的理论边界。团队建议未来工作可探索动态压缩比率机制,或许能像"视觉焦点"调节一样,实现更智能的资源分配。
生物通微信公众号
知名企业招聘