
-
生物通官微
陪你抓住生命科技
跳动的脉搏
结构特征增强Transformer在细粒度图像识别中的创新应用
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition 7.5
编辑推荐:
为解决细粒度图像识别(FGIR)中因忽略物体整体结构信息与关键部位间结构关系导致的性能瓶颈,中国研究人员提出结构特征增强Transformer(SFETrans)。该模型通过视觉Transformer(ViT)主干网络结合结构建模(SM)分支和振幅成分交换(ACE)模块,主动学习物体结构特征与相位谱信息。实验表明SFETrans在四个基准数据集上实现计算效率与分类精度的双重突破,为弱监督FGIR提供新范式。
在自然界中,区分红头啄木鸟与红腹啄木鸟这样的近缘物种,对人类而言已非易事,对人工智能系统更是巨大挑战。这正是细粒度图像识别(Fine-Grained Image Recognition, FGIR)领域的核心难题——面对同属一个粗粒度大类(如鸟类)的数百个子类,模型必须捕捉喙部形状、脚趾结构等细微差异。传统方法过度依赖高层语义特征,却忽视了物体关键部位间的空间结构关系,如同忽略了"啄木鸟三趾与四趾的拓扑分布"这类决定性特征。
针对这一瓶颈,中国的研究团队在《Pattern Recognition》发表论文,提出结构特征增强Transformer(SFETrans)。该研究创新性地将物体结构信息显式建模引入视觉Transformer框架,通过双模块协同机制,在CUB-200-2011等四个标准数据集上实现分类精度与计算效率的同步提升。
关键技术包含:1) 基于极坐标系的结构建模(SM)分支,通过特征相关性优化对象结构图的节点邻接关系;2) 振幅成分交换(ACE)数据增强模块,利用傅里叶变换相位谱保留结构信息的特性,迫使模型学习更鲁棒的结构特征;3) 采用ViT主干网络提取全局特征,仅在最深层激活SM分支以平衡性能与效率。
【Related works】
研究指出现有方法如SIM-Trans虽尝试用Transformer建模对象结构,但其基于注意力乘积的节点链接权重计算方式,导致结构图关系表征力不足。相比之下,SFETrans的SM分支通过极坐标定位与特征相关性分析,构建出可解释性更强的结构关系模型。
【Approach】
SM分支创新设计体现在三方面:首先将图像块转换为极坐标系下的结构单元,其次通过特征相似性计算建立显式节点连接,最后引入动态权重机制强化关键部位关系。ACE模块则通过批次内样本振幅谱水平成分交换,构造出振幅特征扰动而结构信息保留的新样本,迫使模型从相位谱中挖掘结构线索。
【Datasets】
在包含200种鸟类的CUB-200-2011、120种犬类的Stanford Dogs等数据集测试中,SFETrans平均分类精度较基线模型提升2.3%-4.7%。特别在细粒度差异显著的喙部、羽毛等部位识别任务中,结构信息的引入使错误率降低达19.6%。
【Training efficiency optimization】
针对ACE模块带来的计算开销,研究提出优化策略:每批次仅交换30%-50%样本的振幅成分,配合单次前向传播机制,使训练耗时减少41%的同时保持98.2%的原始性能。
【Conclusions】
该研究证实物体结构信息与高层语义特征的协同学习能显著提升FGIR性能。SM分支通过数学建模将生物形态学特征(如鸟类趾骨拓扑)转化为可计算参数,ACE模块则从频域角度揭示了相位谱对结构编码的重要性。这种"空间-频域"双维度特征增强范式,为医疗影像分析(如病变组织微结构识别)等领域提供了新思路。
值得注意的是,SFETrans的弱监督特性使其仅需图像级标签即可达到接近全监督方法的性能,这对医学图像标注成本高昂的应用场景具有特殊价值。作者Ying Yu团队在致谢部分透露,该技术已应用于铁路基础设施状态监测的细粒度缺陷识别,验证了其工程实用性。
生物通微信公众号
知名企业招聘