
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视觉-文本协同自适应融合:解决长尾分布中弱势类别分类难题的创新方法
【字体: 大 中 小 】 时间:2025年09月10日 来源:Pattern Recognition 7.6
编辑推荐:
【编辑推荐】本研究针对长尾分布(long-tail)图像分类中弱势类别(tail classes)数据稀缺问题,提出创新性自适应视觉-文本协同模块(AIB-VTS),通过大语言模型(GPT)生成文本描述与视觉特征动态融合,显著提升ViT(Vision Transformer)架构在ImageNet-LT等数据集上的分类性能,为多模态(multi-modal)学习提供新范式。
亮点
长尾学习
长尾学习致力于解决机器学习中类别数据分布不均导致的模型偏向问题,主要策略分为三类:类别再平衡(Class Re-balancing)、信息增强(Information Augmentation)和模块优化(Module Improvement)。类别再平衡技术通过重采样(re-sampling)、类别敏感学习(class-sensitive learning)和逻辑调整(logit adjustment)来缓解类别不平衡。
方法论
本节阐述如何通过AIB-VTS模块整合文本与视觉信息以解决长尾分类难题。首先,利用大语言模型(LLM)生成上下文语句丰富训练数据(关键用于AIB-VTS训练);其次,采用参数高效微调技术将AIB-VTS无缝嵌入现有ViT架构。
数据集与评估
研究选用三个典型不平衡数据集:ImageNet-LT(1,000类,不平衡比256)、iNaturalist 2018(类别多样性最高)及Places-LT。实验显示,AIB-VTS在少数类(Few-shot)中性能提升显著,例如ImageNet-LT的136个Few-shot类准确率提高12.3%。
MHSA头数与AIB-VTS层数效应
通过3D曲面图(见图4)可视化分析发现:多头自注意力机制(MHSA)的头数和AIB-VTS叠加层数共同影响模型性能。当MHSA头数为8且叠加3层时,模型对文本-视觉特征融合效率达到峰值。
局限性讨论
尽管AIB-VTS表现优异,但仍有改进空间:1)文本生成质量依赖LLM能力;2)动态平衡机制对超参数敏感;3)跨模态对齐(cross-modal alignment)需进一步优化。
结论
AIB-VTS通过动态调节视觉-文本信息权重,有效解决长尾分类中数据稀缺问题。该框架为多模态学习开辟了新路径,未来可扩展至医疗影像等低数据领域。
生物通微信公众号
知名企业招聘