用于伪装物体检测的双路径多注意力引导特征交互网络
《Engineering Applications of Artificial Intelligence》:Dual-path multiple attention-guided feature interaction network for Camouflaged Object Detection
【字体:
大
中
小
】
时间:2025年09月27日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
基于双编码器架构的DMAFI-Net通过跨特征交互、多尺度特征增强和双解码器设计提升伪装目标检测性能,在四个基准数据集上优于24种SOTA方法。
在自然界中,伪装是一种普遍的生物进化现象,是许多生物在自然选择环境下生存的关键技能之一。例如,某些蜥蜴和变色龙能够通过改变颜色、纹理和形状,有效地隐藏在环境中,避免被天敌发现。这种自然伪装机制不仅存在于生物界,也广泛应用于人类社会,如穿着迷彩服的士兵、隐藏在背景中的军事设备等。因此,伪装目标检测(Camouflaged Object Detection,COD)成为了一项重要的技术,旨在识别和分割那些与周围环境高度融合的自然或人工伪装对象。COD在农业、工业、医疗等多个领域具有广阔的应用前景,例如农业害虫检测、工业表面缺陷识别以及医学图像分析中的息肉分割等。
随着深度学习技术的快速发展,COD的研究也取得了显著进展。早在2019年,ANet网络的提出标志着深度学习在COD领域的首次应用,而同年发布的CAMO数据集则是专门用于COD任务的首个基准数据集。自此,COD方法不断涌现,许多研究者致力于探索更高效的检测策略。特别是,Fan等人在2020年提出的SINet网络和COD10K数据集,极大地推动了该领域的发展,使其成为计算机视觉研究的热点之一。这些研究不仅验证了深度学习方法在COD任务中的有效性,也促使了更多先进模型的诞生。
尽管深度学习技术在COD任务中取得了重要突破,但当前的模型仍然面临一些挑战。首先,大多数COD方法依赖于单一编码器结构的预训练主干网络,这使得初始提取的特征偏向于全局或局部偏好,从而影响后续的特征建模和整体检测效果。其次,虽然一些研究引入了模块化或辅助流结构来平衡特征偏好,但这些方法往往只关注不同层级特征之间的交互或信息流,忽略了在聚合特征中可能存在的冗余或噪声问题。最后,现有模型通常采用单一解码器结构,这在一些简单场景中可以准确预测目标,但在复杂场景中则容易出现定位不准确、误检或漏检等问题,限制了COD在对检测精度要求较高的应用中的发展。
为了解决上述问题,我们提出了一种新型的双路径多注意力引导的特征交互网络(Dual-Path Multiple Attention-Guided Feature Interaction Network,DMAFI-Net),用于提升COD的检测性能。DMAFI-Net基于CNN和ViT的双编码器结构,通过融合两种编码器的优势,实现更全面的特征提取和建模。该网络由四个主要模块组成:全局与局部特征交互模块(Global and Local Features Interaction Module,GLFI)、特征内部交互(Intra-Feature Interaction Module,IFI)、多尺度特征增强模块(Multi-Scale Feature Enhancement Module,MFE)以及两个解码器,包括基于邻接连接的特征聚合解码器(Neighbor Connection Decoder-based Feature Aggregation Module,NFA)和细化解码器(Refine Decoder)。这些模块共同作用,使得DMAFI-Net能够更准确地识别和分割伪装目标。
GLFI模块的核心功能在于实现全局与局部特征之间的交互与融合。通过引入注意力机制,该模块能够充分挖掘两种编码器之间互补的特征信息,从而生成更全面的特征表示。IFIM模块则专注于特征内部的一致性建模,通过抑制与目标无关的特征信息,增强与目标相关的特征表示,从而提升网络对关键信息的捕捉能力。MFE模块进一步扩展了聚合特征的接收视野,使其能够适应不同尺度的伪装目标。该模块结合了现有的高分辨率增强模块(High-Resolution Feature Enhancement Module,HFEM),通过改进其结构和功能,使得特征增强更加高效和准确。
在特征解码阶段,NFA模块采用邻接连接解码器(Neighbor Connection Decoder,NCD)进行特征聚合,初步定位伪装目标。而细化解码器则通过引入空间和通道双注意力机制,进一步优化解码后的特征表示,提高预测的精度。细化解码器利用聚合后的特征信息作为辅助线索,逐步细化多层级特征,生成更精确的伪装预测结果。这种双路径解码机制不仅提高了特征解码的准确性,还增强了网络对复杂场景的适应能力。
通过在多个COD基准数据集上的实验,DMAFI-Net在五项广泛使用的评估指标中均表现出优越的性能,显著优于24种当前最先进的方法。此外,我们还进行了详细的消融实验,验证了各个模块在提升COD性能中的关键作用。实验结果表明,DMAFI-Net在特征交互、特征建模和特征解码三个关键环节中均实现了显著的性能提升,从而有效解决了现有方法中存在的问题。
在实际应用中,COD技术的准确性对于许多领域至关重要。例如,在农业害虫检测中,准确识别隐藏在作物中的害虫可以有效提高防治效率;在工业缺陷检测中,准确检测隐藏在表面的缺陷可以提升产品质量和安全性;在医学图像分析中,准确分割隐藏在组织中的息肉有助于早期诊断和治疗。因此,DMAFI-Net的提出不仅在技术层面具有重要意义,也对实际应用提供了有力的支持。
在模型设计过程中,我们特别关注了特征交互和特征建模的平衡。通过引入双编码器结构,DMAFI-Net能够同时捕捉全局和局部特征,避免单一编码器结构带来的特征偏差问题。此外,我们设计了多注意力引导的特征交互机制,使得不同层级的特征能够更有效地融合,提高特征表示的丰富性和准确性。这种机制不仅适用于静态图像,还能够适应动态场景中的伪装目标检测需求。
在特征解码阶段,我们采用了双路径解码机制,通过两个解码器的协同作用,实现从粗略定位到精细分割的完整过程。NFA模块负责初步定位,而细化解码器则通过多注意力机制进一步优化预测结果,提高检测精度。这种双路径解码机制不仅提高了网络的鲁棒性,还增强了其在复杂场景中的适应能力。
通过在多个COD数据集上的实验,DMAFI-Net在五项评估指标中均取得了优异的成绩。这些数据集包括CAMO、COD10K、COD10K-13和COD10K-19,涵盖了不同的场景和对象类型。实验结果表明,DMAFI-Net在检测精度、召回率、交并比(IoU)等多个指标上均优于其他方法,验证了其在COD任务中的有效性。此外,消融实验进一步验证了各个模块在提升模型性能中的关键作用,表明DMAFI-Net的结构设计具有较高的可解释性和可扩展性。
在实际应用中,DMAFI-Net的性能提升不仅有助于提高检测效率,还能够降低误检和漏检的概率,从而提高整体系统的可靠性。例如,在农业害虫检测中,DMAFI-Net能够更准确地识别隐藏在作物中的害虫,提高防治效率;在工业缺陷检测中,DMAFI-Net能够更有效地检测隐藏在表面的缺陷,提高产品质量和安全性;在医学图像分析中,DMAFI-Net能够更准确地分割隐藏在组织中的息肉,有助于早期诊断和治疗。
此外,DMAFI-Net的双路径解码机制还能够适应不同应用场景的需求。例如,在需要快速检测的场景中,NFA模块可以提供初步的定位信息,而细化解码器则能够进一步优化预测结果,提高检测精度。这种机制不仅提高了模型的灵活性,还增强了其在复杂场景中的适应能力。
在模型的优化过程中,我们还特别关注了特征内部建模的效率。通过引入多尺度特征增强模块(MFE),DMAFI-Net能够更有效地扩展特征的接收视野,使其能够适应不同尺度的伪装目标。这种机制不仅提高了特征表示的丰富性,还增强了网络对多尺度目标的识别能力。
综上所述,DMAFI-Net的提出为COD任务提供了一种新的解决方案,通过双编码器结构和双路径解码机制,实现了更全面的特征提取和建模。实验结果表明,DMAFI-Net在多个评估指标上均优于当前最先进的方法,验证了其在COD任务中的有效性。此外,该模型的结构设计具有较高的可解释性和可扩展性,能够适应不同应用场景的需求。因此,DMAFI-Net不仅在学术研究中具有重要意义,也对实际应用提供了有力的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号