
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多级动态交互的全局-细节协同显著目标检测方法研究
【字体: 大 中 小 】 时间:2025年07月05日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决复杂背景下显著目标检测(SOD)中全局特征与局部细节难以平衡的问题,研究人员提出CSMDI模型,集成多尺度池化自注意力模块(MPSA)、自适应通道增强块(ACEB)和多级扩散协同块(MDSB),在6个数据集上实现WHR指标最高提升7.2%,显著提升边界细节识别精度。该研究为计算机视觉下游任务提供新范式。
在自动驾驶和智能监控等领域,如何让机器像人类一样快速锁定图像中最引人注目的目标,一直是计算机视觉领域的核心挑战。传统卷积神经网络(CNN)因局部感受野限制,容易将背景误判为前景;而视觉Transformer(ViT)虽能建模长程依赖,却会丢失细微边界特征。这种"顾此失彼"的困境,使得现有方法在复杂场景中表现不佳,就像近视者摘下眼镜看世界——要么看不清整体轮廓,要么辨不明细节纹理。
河南理工大学的研究团队在《Engineering Applications of Artificial Intelligence》发表的研究中,创新性地提出CSMDI模型。该模型通过四个关键技术突破:1) MPSA模块结合多尺度最大池化与自注意力机制捕获全局特征;2) ACEB模块采用通道注意力增强局部细节;3) MDSB模块通过跨注意力机制实现深浅特征交互;4) DFAM模块融合全局自注意力与局部增强单元。实验采用Swin Transformer作为主干网络,在六个公开数据集上验证性能。
框架概述
如图2所示,模型以Swin Transformer提取多尺度特征,经MPSA重构后,通过ACEB增强通道维度特征,MDSB实现跨层特征扩散,最终由DFAM平衡全局与局部特征。这种"由粗到细"的处理流程,犹如画家先勾勒轮廓再细化笔触。
多尺度池化自注意力模块
MPSA创新性地将空间维度多尺度最大池化特征与原始特征拼接,通过多头自注意力计算,使模型能同时关注不同粒度的显著区域。这相当于给系统装配了"可变焦镜头",既能捕捉远处物体的整体形态,又能聚焦近处纹理。
自适应通道增强块
ACEB通过可学习参数动态调整通道权重,其核心在于构建通道重要性评分矩阵。实验显示该模块使模型对关键特征的响应强度提升23%,有效抑制背景噪声干扰,如同在嘈杂环境中精准锁定特定声源。
多级扩散协同块
MDSB引入固定扩散比率与自适应扩散矩阵的双重调控机制。深层特征通过跨注意力指导浅层特征定位目标区域,而动态扩散机制确保特征传递过程中细节不丢失。这种设计类似经验丰富的导师指导学生——既传授宏观思路,又保留个性发挥空间。
双域融合注意力模块
DFAM的创新在于并行处理全局自注意力与局部卷积特征。定量分析表明,该模块使边界定位精度(F-measure)提升4.8%,成功解决了单纯依赖深层语义引导导致的边缘模糊问题。
研究结论指出,CSMDI通过多模块协同实现了显著目标检测的突破:MPSA提供"望远镜"般的全局视野,ACEB赋予"显微镜"式的细节解析力,MDSB构建跨层"信息高速公路",DFAM则如同"交响乐指挥"协调各方。在DUTS-TE数据集上,模型以87.3%的F-measure刷新纪录,尤其对复杂纹理目标的检测误差降低34%。这项研究不仅为SOD任务建立新基准,其动态交互机制更为多模态融合、医学图像分割等领域提供普适性框架。未来工作将探索该模型在视频显著性检测与三维点云处理中的应用潜力。
生物通微信公众号
知名企业招聘