交互式三重注意力机制在少样本细粒度图像分类中的应用与优化

《Neurocomputing》:Interactive triplet attention for few-shot fine-grained image classification

【字体: 时间:2025年08月28日 来源:Neurocomputing 6.5

编辑推荐:

  本文针对少样本细粒度图像分类中样本稀缺和类间语义相似性高的双重挑战,提出了一种创新的交互式三重注意力模块(ITAM)。该研究通过改进经典三重注意力模块(TAM),引入三维交互机制,显著提升了特征判别力。实验表明,ITAM在CUB-200-2011等四个基准数据集上实现了SOTA性能,且无需增加参数,可作为即插即用模块集成到各类度量学习方法中。这项工作为生物医学图像分析等数据稀缺领域提供了新思路。

  

在生物多样性研究和医学影像分析等领域,研究者常常面临样本稀缺的困境——新发现的物种可能只有几张标本照片,罕见病例的医学图像更是屈指可数。这种"少样本"场景下的细粒度分类任务尤为棘手,因为不同鸟类亚种间的羽毛纹理差异、不同型号医疗器械的细微差别,往往只在局部区域显现。现有方法如特征重构网络(FRN)虽然取得了一定进展,但在捕捉跨维度特征交互方面仍存在局限,导致模型难以从有限样本中提取足够的判别性特征。

针对这一挑战,来自兰州理工大学的研究团队在《Neurocomputing》发表论文,创新性地将三重注意力模块(TAM)引入少样本细粒度分类领域,并提出了革命性的改进方案。传统TAM通过三个并行分支分别处理高度-通道(H-C)、宽度-通道(C-W)和高度-宽度(H-W)的二维交互,但无法建模三维特征间的复杂关系。研究团队通过引入分支间交互机制,使ITAM能够捕捉高达三阶的特征交互,从而更全面地融合空间和通道注意力信息。

研究采用了两大关键技术路线:首先构建了包含旋转操作和残差变换的三分支架构,分别处理不同维度的特征交互;其次创新性地通过特征图逐对相乘实现跨分支信息融合。实验设计上,团队在ResNet-12和ResNet-18两种骨干网络上验证了方法的普适性,采用5-way 1/5-shot协议在CUB-200-2011等四个标准数据集上进行评估,通过10,000次随机任务测试确保统计可靠性。

研究结果部分展示了ITAM的卓越性能:

  1. 1.

    在跨架构对比中,ITAM在ResNet-12上取得CUB数据集83.72%(1-shot)和93.34%(5-shot)的准确率,较基线FRN提升0.56%和0.75%;在更具挑战的Flowers数据集上提升幅度达2.45%(1-shot)和1.84%(5-shot)。

  2. 2.

    消融实验证实三维交互的必要性——仅保留(H,W)分支时准确率为82.31%,而完整ITAM达到83.52%,证明多维度协同优于单一空间注意力。

  3. 3.

    可视化分析显示,ITAM生成的特征热图更加聚焦关键区域,如精准定位狗的鼻部纹理;t-SNE图谱显示类内距离从0.82降至0.69,类间距离从1.26增至1.32。

讨论部分指出,这项工作的突破性在于首次实现了特征张量三维空间的全面交互建模,且不引入额外参数。该方法在医疗影像分析等领域具有重要应用前景,例如在罕见病理切片分类中,ITAM可帮助识别关键诊断区域。研究也存在局限性,如未探索跨模态场景下的特征交互,这将成为未来研究方向。

这项研究的意义不仅在于创造了新的性能标杆,更开辟了注意力机制研究的新方向——通过高阶特征交互增强模型在数据稀缺场景下的判别能力。正如论文所示,在Stanford Dogs数据集上,ITAM仅用1个样本就能达到76.73%的准确率,接近人类专家的细粒度识别水平,为少样本学习在专业领域的应用铺平了道路。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号