DECF-FGVC:一种用于细粒度鸟类视觉分类的判别增强与互补融合方法
《Image and Vision Computing》:DECF-FGVC: A discriminative enhancement and complementary fusion approach for fine-grained bird visual classification
【字体:
大
中
小
】
时间:2025年09月27日
来源:Image and Vision Computing 4.2
编辑推荐:
细粒度鸟类图像分类研究提出DECF-FGVC模型,通过Patch Contrast Enhancement抑制背景噪声,Contrast Token Refiner优化关键区域特征,Hierarchical Token Synthesizer融合多层级信息,显著提升CUB-200-2011、NABirds和iNaturalist2017数据集的分类准确率至91.9%、91.4%和77.92%。
邓帅帅|陈天华|乔庆华
北京工商大学计算机与人工智能学院,中国北京市海淀区富城路,100048
摘要
细粒度鸟类图像识别在物种保护中发挥着关键作用。然而,现有方法受到复杂背景干扰、判别特征提取不足以及层次信息整合有限的限制。尽管视觉变换器(ViTs)在细粒度分类任务中的表现优于卷积神经网络(CNNs),但它们仍然容易受到背景噪声的影响,类别标记常常无法捕捉到关键区域——忽略了低级细节与高级语义之间的互补性。本研究提出了DECF-FGVC模型,该模型结合了三个模块:补丁对比度增强(PCE)、对比度标记细化器(CTR)和层次标记合成器(HTS)。这些模块通过注意力加权的图像重建、基于反事实学习的标记细化和层次标记融合,协同抑制背景噪声、突出关键区域并整合多层特征。在CUB-200-2011、NABirds和iNaturalist2017数据集上的广泛实验中,分别实现了91.9%、91.4%和77.92%的分类准确率,始终优于现有最先进方法。
引言
全球气候变化和人类活动的加剧正在加速生物多样性的丧失。作为生态系统健康状况关键指标的鸟类种群正在经历显著下降[1]。这一趋势破坏了生态系统的稳定性,扰乱了食物链平衡,并削弱了生态服务功能,增加了环境压力。准确的鸟类物种分类有助于保护鸟类多样性,在理解和保护自然栖息地方面发挥着至关重要的作用。
细粒度鸟类图像分类旨在通过颜色、纹理、形状和图案的微妙视觉差异来准确区分密切相关的亚种。与一般图像分类不同,这项任务需要识别由于姿态、光照和视角差异而在物种内部显著变化的细粒度视觉特征。相反,不同物种之间的相似性仍然很高,这使得分类变得特别具有挑战性。传统的细粒度分类方法依赖于使用深度卷积神经网络(CNNs)进行局部特征提取[2]、[3]、[4]、[5]、[6],通过识别判别区域来提高性能。尽管取得了进展,但基于CNN的方法在建模全局关系方面存在局限性,阻碍了分类准确性的进一步提高。最近,自注意力机制和视觉变换器(ViTs)的出现激发了它们在细粒度分类任务中的应用。ViTs能够进行全局特征建模[7]、[8]、[9],从而更有效地整合局部细节,并为细粒度识别提供了有前景的替代方案。
标准的ViT通过将图像分割成补丁并建模它们之间的相互作用来提取特征。然而,在细粒度数据集中,复杂的背景和小对象尺度很常见。对无关背景补丁的建模对类别区分贡献甚微,同时引入了冗余和噪声,从而增加了类别间的混淆。本研究提出了一种基于判别信息增强和互补信息融合的细粒度图像分类模型——DECF-FGVC。除了ViT主干网络外,DECF-FGVC还结合了三个主要模块:补丁对比度增强、对比度标记细化和层次标记合成器。通过引入多层次注意力融合机制,该模型可以根据注意力权重定位图像中的关键区域并执行特征增强处理。补丁对比度增强选择信息丰富的区域来形成新图像。层次标记合成器从多个深度编译类别表示,以捕获互补的洞察力。
同时,对比度标记细化器处理受到强烈关注的标记,并生成强调关键区域的新类别表示。所提出的判别信息增强和互补信息融合算法可以提取判别特征并抑制背景噪声。我们的主要贡献总结如下:
(1) 我们提出了一个新颖的细粒度鸟类分类框架,能够捕获更多关于鸟类的局部细粒度信息,并支持端到端训练。
(2) 我们设计了补丁对比度增强(PCE)使用跨层注意力权重重建输入图像,抑制背景噪声干扰,并增强目标区域的判别信息。对比度标记细化器(CTR)通过反事实标记生成策略比较真实特征和噪声特征,优化注意力权重分布,并增强关键区域的表达能力。层次标记合成器(HTS)整合来自不同Transformer层的类别标记信息,结合浅层细节特征和深层语义特征,充分探索多层次的互补信息。
(3) 所提出的模型在广泛使用的CUB-200-2011、NABirds和iNaturalist2017数据集上实现了高分类准确率,分别为91.9%、91.4%和77.92%。
部分摘录
细粒度视觉分类
传统的细粒度视觉分类方法分为基于定位的方法和基于注意力的方法。早期的基于定位的方法大多采用对象检测技术[10]、[11],通过区域提案网络生成候选区域以进行特征提取。例如,Ge等人[12]将弱监督对象检测与实例分割相结合,而Wang等人[13]通过区域相关性选择判别区域。尽管这些
方法
本文提出的基于判别信息增强和互补信息融合(DECF-FGVC)的细粒度图像分类模型的整体框架图如图2所示。该模型采用视觉变换器(ViT)作为其主干网络,并整合了三个核心模块:补丁对比度增强(PCE)、对比度标记细化器(CTR)和层次标记合成器(HTS)。首先,将输入图像分割成小补丁。然后生成一个标记序列
实验
在本节中,我们使用两个广泛采用的鸟类细粒度图像数据集CUB-200-2011 [29]和NaBirds [30]来验证DECF-FGVC模型的有效性。为了进一步评估该模型在鸟类之外的细粒度分类任务上的泛化能力,我们还在iNaturalist2017 [31]数据集上进行了实验。首先,我们详细介绍了实验设置,包括数据集特征和实现细节。接下来,我们将我们的模型与现有最先进方法进行比较
结论
本研究解决了细粒度鸟类图像分类中的关键挑战,包括背景干扰、局部特征提取不足以及层次信息碎片化问题。我们提出了一种改进的基于视觉变换器的模型,名为DECF-FGVC,它整合了三个核心模块:补丁对比度增强(PCE)、对比度标记细化器(CTR)和层次标记合成器(HTS)。这些模块协同工作以抑制背景噪声,突出
CRediT作者贡献声明
邓帅帅:撰写——原始草稿、软件开发、方法论、研究、形式分析、概念化。陈天华:撰写——审稿与编辑、监督、项目管理、方法论、研究。乔庆华:撰写——审稿与编辑、验证、监督、资源协调、概念化。
利益冲突声明
作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号