
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自适应层与令牌选择优化视觉Transformer高效微调(ALaST)
【字体: 大 中 小 】 时间:2025年08月16日 来源:Neurocomputing 6.5
编辑推荐:
为解决Vision Transformer(ViT)微调过程中计算资源消耗大、内存占用高的问题,Alessio Devoto团队提出ALaST方法,通过动态分配层计算预算和选择性保留关键令牌,实现训练时间减少1.3倍、FLOPs降低1.5倍、内存需求下降2倍,同时保持模型性能在完整微调的0.5%误差范围内。该研究为边缘计算场景下的ViT部署提供了创新解决方案。
在计算机视觉领域,基于Vision Transformer(ViT)的基础模型已成为主流架构,但其庞大的参数量和复杂的自注意力机制导致微调过程面临严峻挑战。传统参数高效微调(PEFT)方法如LoRA虽能减少可训练参数,却无法显著降低计算负担;而静态层选择策略需要大量预实验确定关键层,难以适应不同任务需求。这些限制严重阻碍了ViT在边缘设备、无人机等资源受限场景的应用。
意大利罗马大学(Sapienza University of Rome)的Alessio Devoto团队在《Neurocomputing》发表的研究中,创新性地提出自适应层选择微调框架ALaST。该方法基于两个关键发现:一是图像输入中存在大量冗余令牌,二是不同层在不同训练阶段对模型更新的贡献度存在显著差异。通过动态评估CLS令牌在残差流中的变化,ALaST实现了训练过程中计算资源的智能分配——对重要层保留更多令牌并保持参数更新,而对次要层则实施令牌剪枝或冻结操作。
研究采用三项核心技术:1) 基于CLS令牌注意力得分的动态令牌选择机制;2) 通过层间残差变化量自适应的预算分配算法;3) 概率抽样式层冻结策略。在Food-101、CIFAR-100等数据集上的实验表明,ALaST在ViT-B模型上仅用70 PFLOPs计算量(完整微调的46.7%)即达到90%的基准准确率,内存占用从13,012MB降至5,341MB。值得注意的是,该方法可与LoRA形成正交优化,组合使用时ViT-B的内存需求进一步降至4,243MB。
【层贡献动态分析】
通过测量相对幅度值‖Δhl(t)‖/‖hl-1(t)‖,研究发现ViT-B中间层和DeiT-S末层呈现"近似恒等映射"特性,这些层在预算分配中自然获得较低权重。
【预算分配机制】
采用滑动平均更新公式Bl(t+1)=(1-η)Bl(t)+η‖Δhl(t)‖,其中学习率η与微调学习率同步,确保预算分配与训练动态相匹配。
【跨架构兼容性】
在ViT-B上表现最佳的层预算分布(侧重前层)与DeiT-T(侧重首尾层)存在显著差异,证明静态层选择策略的局限性,突显ALaST自适应机制的优势。
这项研究开创性地将动态计算分配引入ViT微调领域,其核心价值在于:1) 首次实现训练过程中层重要性和令牌价值的联合优化;2) 提出无需预实验的自适应预算分配范式;3) 验证与PEFT方法的正交性。尽管当前研究局限于分类任务,但其底层框架为Transformer架构在目标检测等密集预测任务中的高效微调提供了新思路。未来工作可探索基于空间注意力的令牌选择策略,以扩展方法在计算机视觉全领域的应用潜力。
生物通微信公众号
知名企业招聘