
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合尺度感知与大核注意力的三元编码网络在伪装目标检测中的创新应用
【字体: 大 中 小 】 时间:2025年04月25日 来源:Scientific Reports 3.8
编辑推荐:
针对现有伪装目标检测(COD)方法在复杂场景下存在的结构信息丢失和目标遮挡问题,西南科技大学的研究团队提出了一种融合尺度感知与增强大核注意力(SALK-Net)的新型网络。该研究通过三元图像输入挖掘多尺度信息,采用动态大核注意力(DLKA)引导特征融合,结合混合尺度解码器和动态加权损失函数,在4个公开数据集上超越12种先进方法,其中结构相似性度量(Sm)和增强对齐度量(Em)分别达到0.861-0.927,为军事伪装识别、生物保护等应用提供了更鲁棒的解决方案。
在自然界和军事领域,生物和人工伪装通过模拟环境特征实现视觉隐匿,这种高度相似的纹理、颜色和形状特性使得伪装目标检测(COD)成为计算机视觉领域的重大挑战。传统方法依赖手工设计特征,难以应对遮挡、光照变化和尺度差异;而现有深度学习模型如SINet和PFNet等,仍存在全局语义捕捉不足、边界模糊等问题。西南科技大学的研究团队在《Scientific Reports》发表的这项研究,创新性地模拟人类"缩放观察"行为,构建了融合多尺度感知与大核注意力的三元编码网络SALK-Net。
研究采用动态大核注意力(DLKA)分解技术降低计算复杂度,通过共享特征编码器(SFE)提取0.5×/1.0×/1.5×多尺度特征,结合增强空洞空间金字塔(EASPP)扩大感受野。特征聚合阶段引入尺度特征聚合模块(SFAM)进行跨尺度权重分配,解码器采用交叉渐进式结构(CID)与通道交互增强模块(CIEM)强化特征传递。损失函数创新性地融合动态加权交叉熵(DWBCEL)、交并比(DWIOUL)和先验辅助损失(APL),在COD10K等4个数据集上进行了系统验证。
共享特征编码器
通过ResNet50骨干网络提取多尺度特征,通道压缩单元(CCU)对齐特征维度。实验表明,三尺度输入比单尺度在Sm指标上提升2.1-6.5%,验证了多尺度互补优势。
动态大核注意力机制
将传统LKA的二维卷积分解为深度可分离卷积与空洞卷积级联,参数量减少41%的同时,在COD10K数据集上使Fωβ提升4.1%。三分支结构(全局语义/局部细节/动态权重)显著提升边界识别能力。
混合尺度解码器
CID结构通过相邻层特征渐进融合,相比传统PDC解码器减少29%的噪声干扰。CIEM模块采用通道门控策略,使NC4K数据集的Em达到0.926,较基线提升3.2%。
动态加权损失函数
多尺度池化生成的5种差异图(核尺寸21-61)加权关键区域,配合先验知识对模糊像素(预测值≈0.5)加强惩罚,最终在CAMO数据集上M值降低至0.055,边界连续性显著改善。
该研究在保持27.689 FPS实时性的前提下,模型参数量(34.882M)仅为Transformer方法UGTR的7.2%,而Fωβ指标反超5.6%。创新性地解决了三个核心问题:通过多尺度三元输入克服数据固有模糊性;利用DLKA实现局部-全局特征平衡;动态损失函数优化挑战性像素预测。未来方向包括轻量化设计、多模态数据融合等,为医疗影像分析、濒危物种保护等场景提供新范式。
生物通微信公众号
知名企业招聘