
-
生物通官微
陪你抓住生命科技
跳动的脉搏
K-特征融合令牌合并算法:提升视觉Transformer效率与精度的创新方法
【字体: 大 中 小 】 时间:2025年05月19日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决Vision Transformer(ViT)在计算效率和特征保留上的矛盾,研究人员提出K-feature fusion token merging算法。该研究通过融合键值(K)与中间特征提升相似性度量精度,并设计相似性加权合并策略减少特征偏移。实验表明,在ViT-B/ImageNet上可减少49.58%令牌且仅损失0.44%准确率,吞吐量提升30%,为无训练模型压缩提供新思路。
视觉Transformer(ViT)近年来在图像识别等领域展现出超越传统卷积神经网络(CNN)的性能,但其庞大的计算开销成为部署瓶颈。尤其当处理高分辨率图像时,ViT需要将输入分割为大量图像块(token),导致自注意力机制(self-attention)的计算复杂度呈平方级增长。现有token pruning(令牌剪枝)方法虽能减少计算量,但直接丢弃冗余token会造成信息丢失;而相似性合并方法如ToMe(Token Merging)又面临特征偏移和度量误差的挑战——当两个仅有部分相似的token被简单平均合并时,关键特征信息可能被稀释。
针对这一难题,中国研究人员提出K-feature fusion token merging(KFF)算法。该研究首次揭示:传统基于键值(K)的相似性度量会因忽略中间层细节特征而产生显著误差,而直接平均合并策略会引发特征空间偏移。通过融合键值向量(总结全局信息)和中间特征(保留局部细节),新算法将相似性计算误差降低46.7%。更创新的是,团队设计相似性加权合并策略,对非完全匹配的token施加动态权重惩罚,使ViT-B模型在ImageNet-1k数据集上实现49.58%的token压缩率时,准确率仅下降0.44%,推理速度提升30%。这项发表于《Expert Systems with Applications》的工作,为无训练模型压缩提供了兼具精度与效率的解决方案。
关键技术包括:1)K-feature fusion相似性计算,结合键值向量和中间特征;2)相似性加权平均合并策略;3)在ViT-B/DeiT等模型上开展ImageNet-1k分类实验验证;4)通过特征空间可视化分析偏移程度。
Efficient Transformer
研究指出现有方法通过稀疏注意力或线性化降低计算量,但会损失远程依赖关系。相比之下,token merging通过合并而非丢弃冗余token保留更多信息。
Proposed Method
通过数学推导证明传统平均合并属于"不等价合并",提出特征融合相似性计算(误差降低46.7%)和加权合并策略(特征偏移减少38.2%)。
Experiments
在ViT-B上实现30%吞吐量提升,DeiT-S精度超越ToMe 1.2%。消融实验显示K-feature融合使相似性误差从12.3%降至6.6%。
Conclusion
该研究突破性地将键值向量与中间特征结合,首次量化了合并过程中的特征偏移效应。相似性加权策略可泛化至视频、医学影像等多模态场景,为边缘设备部署轻量级ViT奠定基础。团队指出,未来可探索动态特征融合权重与自适应合并率策略的联合优化。
生物通微信公众号
知名企业招聘