结构特征增强Transformer在细粒度图像识别中的创新应用

【字体: 时间:2025年06月16日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决细粒度图像识别(FGIR)中因忽略物体整体结构信息与关键部位间结构关系导致的性能瓶颈,中国研究人员提出结构特征增强Transformer(SFETrans)。该模型通过视觉Transformer(ViT)主干网络结合结构建模(SM)分支和振幅成分交换(ACE)模块,主动学习物体结构特征与相位谱信息。实验表明SFETrans在四个基准数据集上实现计算效率与分类精度的双重突破,为弱监督FGIR提供新范式。

  

在自然界中,区分红头啄木鸟与红腹啄木鸟这样的近缘物种,对人类而言已非易事,对人工智能系统更是巨大挑战。这正是细粒度图像识别(Fine-Grained Image Recognition, FGIR)领域的核心难题——面对同属一个粗粒度大类(如鸟类)的数百个子类,模型必须捕捉喙部形状、脚趾结构等细微差异。传统方法过度依赖高层语义特征,却忽视了物体关键部位间的空间结构关系,如同忽略了"啄木鸟三趾与四趾的拓扑分布"这类决定性特征。

针对这一瓶颈,中国的研究团队在《Pattern Recognition》发表论文,提出结构特征增强Transformer(SFETrans)。该研究创新性地将物体结构信息显式建模引入视觉Transformer框架,通过双模块协同机制,在CUB-200-2011等四个标准数据集上实现分类精度与计算效率的同步提升。

关键技术包含:1) 基于极坐标系的结构建模(SM)分支,通过特征相关性优化对象结构图的节点邻接关系;2) 振幅成分交换(ACE)数据增强模块,利用傅里叶变换相位谱保留结构信息的特性,迫使模型学习更鲁棒的结构特征;3) 采用ViT主干网络提取全局特征,仅在最深层激活SM分支以平衡性能与效率。

【Related works】
研究指出现有方法如SIM-Trans虽尝试用Transformer建模对象结构,但其基于注意力乘积的节点链接权重计算方式,导致结构图关系表征力不足。相比之下,SFETrans的SM分支通过极坐标定位与特征相关性分析,构建出可解释性更强的结构关系模型。

【Approach】
SM分支创新设计体现在三方面:首先将图像块转换为极坐标系下的结构单元,其次通过特征相似性计算建立显式节点连接,最后引入动态权重机制强化关键部位关系。ACE模块则通过批次内样本振幅谱水平成分交换,构造出振幅特征扰动而结构信息保留的新样本,迫使模型从相位谱中挖掘结构线索。

【Datasets】
在包含200种鸟类的CUB-200-2011、120种犬类的Stanford Dogs等数据集测试中,SFETrans平均分类精度较基线模型提升2.3%-4.7%。特别在细粒度差异显著的喙部、羽毛等部位识别任务中,结构信息的引入使错误率降低达19.6%。

【Training efficiency optimization】
针对ACE模块带来的计算开销,研究提出优化策略:每批次仅交换30%-50%样本的振幅成分,配合单次前向传播机制,使训练耗时减少41%的同时保持98.2%的原始性能。

【Conclusions】
该研究证实物体结构信息与高层语义特征的协同学习能显著提升FGIR性能。SM分支通过数学建模将生物形态学特征(如鸟类趾骨拓扑)转化为可计算参数,ACE模块则从频域角度揭示了相位谱对结构编码的重要性。这种"空间-频域"双维度特征增强范式,为医疗影像分析(如病变组织微结构识别)等领域提供了新思路。

值得注意的是,SFETrans的弱监督特性使其仅需图像级标签即可达到接近全监督方法的性能,这对医学图像标注成本高昂的应用场景具有特殊价值。作者Ying Yu团队在致谢部分透露,该技术已应用于铁路基础设施状态监测的细粒度缺陷识别,验证了其工程实用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号