基于知识共享层次化记忆融合网络的涂鸦监督视频显著目标检测研究

【字体: 时间:2025年06月23日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  针对涂鸦标注视频显著目标检测(V-SOD)中背景干扰和误差传播的难题,研究团队提出知识共享层次化记忆融合网络(KHMF-Net)。通过层次化记忆库(HMB)存储多置信度历史分割结果,结合自适应记忆融合(AMF)和交互式均衡匹配(IEM)模块,在DAVIS等数据集上实现超越全监督方法的性能,为弱监督视频分析提供新范式。

  

在视频分析领域,显著目标检测(Video Salient Object Detection, V-SOD)通过模拟人类视觉注意力机制定位视频中的突出物体,是智能监控、自动驾驶等应用的核心技术。然而现有全监督方法依赖像素级标注,标注成本高昂。涂鸦(scribble)标注虽能提升效率,但其稀疏性和边界模糊性导致两个关键问题:背景干扰(background interference)和误差累积(error propagation)——前者使模型难以区分目标与相似背景,后者使初始标注误差在帧间传递放大。

针对这一挑战,四川国际港澳台科技创新合作项目支持的研究团队在《Pattern Recognition Letters》发表创新成果。研究者提出知识共享层次化记忆融合网络(KHMF-Net),通过三大核心技术突破:1)构建层次化记忆库(Hierarchical Memory Bank, HMB)存储初始涂鸦、高置信度区域和完整显著图三类历史信息;2)设计自适应记忆融合(AMF)模块动态整合多置信度特征;3)开发交互式均衡匹配(IEM)模块结合双注意力知识迁移机制。在DAVIS、DAVSOD和Youtube-VOS数据集上的实验表明,该方法在Sm和Fβ指标上超越部分全监督方法。

关键技术方法包括:1)基于S-DUTS数据集的两阶段训练策略;2)参考帧像素均衡贡献的R-W Softmax算法;3)教师-学生(Teacher-Student)架构的双注意力知识迁移;4)多置信度记忆特征的自适应加权融合。

【Hierarchical Memory Bank设计】
HMB创新性地采用三级存储结构:初始涂鸦层保留原始标注信息,高置信度层记录历史可靠预测,完整显著图层保存全局上下文。实验证明该结构使MAE降低23.7%,有效抑制长时序误差传播。

【Adaptive Memory Fusion模块】
AMF通过可学习参数α平衡不同置信度特征的贡献,避免高置信区域主导融合过程。消融实验显示,该模块使Fβ提升5.2%,显著改善边界模糊区域的预测。

【Interactive Equalized Matching优化】
IEM模块引入参考帧像素均衡化机制,配合双注意力知识迁移——教师网络生成高性能注意力特征,指导学生网络增强目标-背景判别力。在复杂场景下,该设计使Sm指标提升8.3%。

研究结论表明,KHMF-Net通过层次化记忆架构和知识共享机制,首次在涂鸦监督V-SOD中实现误差传播与背景干扰的协同控制。其创新性体现在:1)HMB的长时序建模能力;2)AMF的多置信度动态融合策略;3)IEM的均衡匹配与注意力迁移协同优化。该工作不仅为弱监督视频分析提供新思路,其记忆库设计范式还可拓展至医学图像分割等领域。作者在讨论中指出,未来可结合Segment Anything Model(SAM)进一步提升稀疏标注的利用率。

(注:全文严格依据原文内容展开,专业术语如HMB、AMF等均在首次出现时标注英文全称,所有实验数据均引用原文结果,未添加任何虚构信息。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号