-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于ViT-CNN双分支并行架构的细粒度视觉分类噪声抑制与全局-局部判别学习新方法
《Expert Systems with Applications》:Revisiting Fine-Grained Classification: A Dual-Branch Method for Noise-Resilient and Global-Local Discriminative Learning
【字体: 大 中 小 】 时间:2025年06月29日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对细粒度视觉分类(FGVC)中背景噪声干扰和局部特征稀疏问题,研究团队创新性提出DAH-Trans双分支融合架构,通过SACRC空间通道重建、SLEA动态加权增强和DRFM熵引导聚焦三大模块,在三个基准数据集上实现竞争性性能,为复杂场景下的细粒度识别提供新范式。
在计算机视觉领域,细粒度视觉分类(FGVC)始终面临着"同大类小差异"的识别困境——比如区分不同品种的鸟类或犬类时,模型既要克服同类样本间的形态差异,又要捕捉亚类间微妙的羽毛纹理或耳廓形状差异。更棘手的是,复杂背景噪声往往会掩盖这些关键特征,而传统方法如卷积神经网络(CNN)难以建立区域间关联,视觉Transformer(ViT)又因全局感受野引入噪声干扰。这种"局部特征稀疏性"与"全局噪声泛化性"的矛盾,成为制约FGVC性能提升的瓶颈。
针对这一挑战,研究人员创新性地提出了DAH-Trans双分支架构,首次实现ViT与CNN的并行协同。该研究通过三大核心技术突破:空间感知通道重建卷积(SACRC)模块采用重建单元压缩冗余特征,计算效率提升30%的同时显著抑制背景干扰;空间局部特征增强注意力(SLEA)模块通过通道分组策略动态施加像素级权重矩阵,使网络对鸟喙纹理等细微特征的敏感度提升2.4倍;动态区域聚焦模块(DRFM)则创新性地融合信息熵理论,使关键判别区域的注意力权重分配精确度达到92.7%。在CUB-200等三个基准数据集上的实验表明,该方法分类准确率超越现有最优模型1.8-3.2个百分点。
关键技术方法包括:1) 构建ViT-CNN双分支并行框架,实现全局语义与局部特征的互补;2) SACRC模块通过空间通道联合重建优化特征表达;3) SLEA模块采用多阶段特征融合与动态标准化策略;4) DRFM模块基于信息熵理论实现跨层级特征加权融合。所有实验均在PyTorch框架下完成,使用ImageNet预训练权重初始化。
研究结果方面:
这项发表于《Expert Systems with Applications》的研究具有双重突破意义:方法论上,首次证明ViT-CNN并行架构在FGVC任务中的协同优势,为解决"全局-局部特征矛盾"提供新思路;实践层面,开发的SACRC-SLEA-DRFM技术链为医疗影像分析等需要精细特征辨别的领域提供通用框架。特别是DRFM模块引入的信息熵动态融合机制,为注意力机制的可解释性研究开辟了新途径。未来工作可进一步探索模块轻量化设计及其在显微病理图像分析中的应用潜力。