基于边缘感知的自适应融合网络用于视频中显著物体的检测

《Pattern Recognition Letters》:Edge aware adaptive fusion network for video salient object detection

【字体: 时间:2025年10月11日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  EFNet提出多尺度特征增强模块(MFEM)、边缘感知模块(EAM)和自适应融合机制(AFM),有效融合空间与时间特征,保留物体边缘,实验表明在四个数据集上优于现有模型。

  视频显著目标检测(Video Salient Object Detection, VSOD)是计算机视觉领域的一个重要研究方向,旨在模拟人类视觉注意力机制,从视频序列中识别并分割出显著目标。与传统的图像显著目标检测相比,VSOD需要同时处理空间和时间信息,以捕捉视频中动态变化的显著区域。近年来,随着深度学习技术的快速发展,VSOD方法在精度和效率方面取得了显著进展,但仍面临诸多挑战,尤其是在多尺度特征的利用和显著目标边缘的保持方面。本文提出了一种名为Edge Aware Adaptive Fusion Network(EFNet)的新型网络架构,旨在解决这些问题并提升显著目标检测的整体性能。

VSOD的应用场景广泛,涵盖物体跟踪、人物重识别和视频摘要等多个领域。物体跟踪依赖于准确识别视频中移动的显著目标,以提高跟踪的鲁棒性和实时性;人物重识别则需要在不同视频片段中匹配相同个体,显著目标的检测对于这一任务至关重要;视频摘要则通过识别视频中的关键场景或目标,实现内容的高效压缩和总结。因此,提升VSOD的检测能力不仅有助于优化这些应用场景,也为视频内容分析提供了更坚实的基础。

在现有的VSOD方法中,主要可以分为基于ConvLSTM、3D卷积和光流的方法。基于ConvLSTM的方法通过卷积神经网络(CNN)提取空间特征,利用长短期记忆网络(LSTM)处理时间信息,这种方法虽然能够处理动态变化,但其在联合提取空间和时间特征方面存在局限,导致检测精度难以进一步提升。基于3D卷积的方法则通过引入时间维度,直接从视频中提取三维特征,这种方法在捕捉时间信息方面表现出色,但其计算成本较高,参数量也相应增加,使得模型在部署时面临较大的挑战。基于光流的方法则利用光流信息来捕捉视频帧之间的运动变化,通过双流架构分别提取空间和时间特征,再通过融合策略整合信息,以完成显著目标检测任务。虽然这类方法在检测精度上表现优异,但仍然存在一些问题,如对多尺度信息的利用不足、缺乏有效的边缘信息提取,以及融合机制较为简单,无法灵活适应不同场景下的特征变化。

针对上述问题,本文提出了一种创新的多尺度特征增强模块(Multi-scale Feature Enhancement Module, MFEM)。该模块通过结合多尺度特征,不仅能够有效融合不同层次的特征信息,还能保持各层特征的语义区分性。在实际应用中,深层特征通常关注语义内容,而浅层特征则保留了更丰富的纹理细节。传统方法往往在特征融合时未能有效平衡这两者,导致信息冗余或特征模糊。MFEM通过引入拼接和残差连接的方式,将不同尺度的特征进行整合,从而在提升检测精度的同时,保持细节的清晰度。这种设计使得模型能够更好地适应不同场景下的显著目标,提高检测的鲁棒性。

此外,本文还设计了一种边缘感知模块(Edge Aware Module, EAM)。该模块通过引入低级边缘信息,对高级显著目标边缘进行优化,从而提升边缘检测的精度。在传统的VSOD方法中,边缘信息往往被忽视,导致预测的显著图边缘不够清晰或存在模糊现象。EAM通过跨模态和并行的方式,将边缘信息与多尺度空间时间特征进行整合,从而在提升显著目标边缘质量的同时,增强整体检测效果。这种方法不仅能够提升显著目标的边界清晰度,还能在复杂场景下保持较高的检测准确性。

为了进一步提升特征融合的灵活性和适应性,本文还提出了一种自适应融合机制(Adaptive Fusion Mechanism, AFM)。该机制通过自动学习和评估空间与时间显著分支的可靠性,动态调整融合权重,从而缓解空间与时间信息之间的差距。传统方法在融合空间和时间特征时,往往采用简单的拼接或相加方式,这些方法虽然能够整合信息,但缺乏灵活性,无法有效适应不同场景下的特征变化。AFM通过引入通道级融合和差异阈值法(Difference Thresholding Method, DTM),使得模型能够根据实际需求动态调整融合策略,从而在提升检测性能的同时,减少信息冗余和特征模糊的问题。

本文提出的EFNet由三个核心模块组成:MFEM、EAM和AFM。其中,MFEM负责多尺度特征的融合,EAM专注于显著目标边缘的提取与优化,而AFM则通过自适应融合机制,实现空间和时间特征的动态整合。这种设计使得EFNet能够同时处理空间和时间信息,提升显著目标检测的精度和效率。实验结果表明,EFNet在四个广泛使用的数据集上均优于当前最先进的VSOD模型,包括DUTS-TR、DAVIS、DAVSOD和FBMS。这些数据集涵盖了多种视频场景,包括自然场景、街景和监控视频等,具有较高的挑战性和多样性。通过在这些数据集上的测试,EFNet的性能得到了充分验证。

在实验设置方面,本文采用多种公开数据集进行训练和测试。其中,DUTS-TR用于预训练,以提高模型的泛化能力;DAVIS、DAVSOD和FBMS则作为主要测试数据集,以评估模型在不同场景下的检测效果。为了确保实验的可靠性,本文还采用了SegTrackV2作为额外的测试数据集,以进一步验证模型的性能。在训练过程中,模型使用了随机梯度下降(SGD)算法,初始学习率为1e?4,批量大小为8。为了提高模型的鲁棒性和泛化能力,本文还引入了数据增强技术,如随机裁剪、翻转和旋转等,以模拟不同的视频拍摄条件和视角变化。

通过实验分析,本文发现EFNet在多个方面均优于现有方法。首先,MFEM通过有效融合多尺度特征,提高了显著目标的检测精度,同时保持了细节的清晰度。其次,EAM通过引入低级边缘信息,优化了显著目标的边缘质量,使得预测的显著图更加准确和清晰。最后,AFM通过自适应融合机制,实现了空间和时间特征的动态整合,缓解了信息缺失和冗余的问题,从而提升了整体检测性能。这些改进使得EFNet在检测精度、边缘清晰度和运行速度等方面均表现出色,成为当前最先进的VSOD方法之一。

在方法论方面,EFNet采用了一种对称的双分支结构,分别用于提取空间特征和时间特征。其中,空间特征提取分支使用ResNet34作为主干网络,并在最后一层引入了Atrous Spatial Pyramid Pooling(ASPP)模块,以增强模型对多尺度特征的处理能力。时间特征提取分支则基于光流信息,通过双流架构分别提取空间和时间特征,再通过融合策略整合信息。为了提高模型的灵活性和适应性,本文还引入了自适应融合机制,使得模型能够根据实际需求动态调整融合策略,从而提升检测性能。

在实际应用中,EFNet的检测能力不仅体现在准确率上,还体现在运行速度和资源消耗方面。由于EFNet采用了高效的特征融合策略和优化的网络结构,使得模型在保持高精度的同时,运行速度也得到了显著提升。这种设计使得EFNet能够适应不同规模的视频数据,满足实时检测的需求。此外,EFNet还具备较强的鲁棒性,能够在复杂场景和噪声干扰下保持较高的检测效果。

本文的实验结果表明,EFNet在多个方面均优于现有方法。首先,MFEM通过有效融合多尺度特征,提高了显著目标的检测精度,同时保持了细节的清晰度。其次,EAM通过引入低级边缘信息,优化了显著目标的边缘质量,使得预测的显著图更加准确和清晰。最后,AFM通过自适应融合机制,实现了空间和时间特征的动态整合,缓解了信息缺失和冗余的问题,从而提升了整体检测性能。这些改进使得EFNet在检测精度、边缘清晰度和运行速度等方面均表现出色,成为当前最先进的VSOD方法之一。

在实际应用中,EFNet的检测能力不仅体现在准确率上,还体现在运行速度和资源消耗方面。由于EFNet采用了高效的特征融合策略和优化的网络结构,使得模型在保持高精度的同时,运行速度也得到了显著提升。这种设计使得EFNet能够适应不同规模的视频数据,满足实时检测的需求。此外,EFNet还具备较强的鲁棒性,能够在复杂场景和噪声干扰下保持较高的检测效果。

本文的贡献主要体现在三个方面:首先,创新性地设计了多尺度特征增强模块(MFEM),通过拼接和残差连接的方式,有效融合多尺度特征,提升了显著目标的检测精度。其次,提出了边缘感知模块(EAM),通过引入低级边缘信息,优化了显著目标的边缘质量,使得预测的显著图更加准确和清晰。最后,设计了自适应融合机制(AFM),通过自动学习和评估空间与时间显著分支的可靠性,动态调整融合权重,从而缓解空间与时间信息之间的差距,提升了整体检测性能。

在未来的研究方向中,本文提出将进一步探索轻量级的VSOD算法,以提高模型的实时性和部署效率。同时,本文还计划引入更多先进的特征提取和融合策略,以提升模型在复杂场景下的检测能力。此外,本文还希望进一步优化模型的训练和评估流程,以提高模型的泛化能力和鲁棒性。通过这些研究,本文希望能够为VSOD领域的发展做出更多贡献,推动其在实际应用中的广泛应用。

综上所述,本文提出的EFNet在视频显著目标检测方面具有重要的应用价值。通过引入多尺度特征增强模块、边缘感知模块和自适应融合机制,EFNet能够有效解决现有方法在多尺度特征利用、边缘保持和特征融合方面的不足,从而提升检测精度和效率。实验结果表明,EFNet在多个数据集上均优于当前最先进的VSOD方法,验证了其有效性。本文的研究不仅为VSOD领域提供了新的思路,也为相关应用提供了更可靠的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号