
-
生物通官微
陪你抓住生命科技
跳动的脉搏
解耦自监督视频伪装与显著目标检测:运动与上下文信息的独立建模新范式
【字体: 大 中 小 】 时间:2025年09月13日 来源:Neural Networks 6.3
编辑推荐:
本文创新性地提出解耦视角处理视频伪装/显著目标检测(VCOD/VSOD)中的运动与上下文信息,通过自监督机制实现ContextNet与MotionNet的协同训练。该框架突破传统融合方法的局限性,显著降低标注依赖,在多个基准数据集上超越无监督SOTA,为医学影像(如视频息肉分割)和视频压缩等媒体应用提供新思路。
Section snippets
Related Work
本节回顾与本研究相关的视频显著目标检测(VSOD)、视频伪装目标检测(VCOD)及自监督学习(SSL)领域进展。
Method
本节首先阐述面向VCOD与VSOD任务的解耦自监督框架整体架构,随后介绍自适应帧路由机制(AFR)、运动分割网络(MS)及上下文分割网络(CS)。整体架构如图2所示。
Dataset
遵循现有VSOD方法,我们在五个VSOD数据集上评估性能:VOS、DAVIS、DAVSOD、SegV2和ViSal。此外,在三个VCOD数据集(MOCA、MOCA-Mask和CAD)上进行测试。
Evaluation Metrics
VSOD: 本任务采用……
Potential Media Application
本研究提出的VCOD/VSOD模型在医疗领域与视频压缩系统中具有广泛应用潜力。
医疗领域: 将VCOD模型应用于视频息肉分割(VPS),可视化结果见图7。VPS任务中前景与背景区域运动模式相似,但解耦网络能精准分割息肉区域。
视频压缩: (内容补充)
Future Work
为拓展解耦自监督框架的适用性,我们规划两大未来方向:
跨领域与任务的泛化增强: 当前框架已展现从合成数据到真实场景(如医学影像、视频压缩)的强迁移能力。未来将横向拓展至遥感、自动驾驶及水下视觉等领域,纵向探索……
Conclusion
本文提出了一种无需标注信息的解耦自监督框架解决VCOD与VSOD任务。与传统方法不同,本框架能分别利用运动与上下文信息,规避信息偏差导致的错误。此外,我们深入探索了解耦视角在自监督模式下的应用,包括自适应帧路由机制与双网络交叉监督设计。
生物通微信公众号
知名企业招聘