
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视频语义分割中静态-动态类级感知一致性框架的创新研究
【字体: 大 中 小 】 时间:2025年08月10日 来源:Neural Networks 6.3
编辑推荐:
本文提出静态-动态类级感知一致性(SD-CPC)框架,通过多元类原型对比学习(MCP-CL)和跨帧选择性聚合模块(DSSA),以类别级语义简化时空关联建模,显著提升视频语义分割(VSS)性能。实验表明,该方法在VSPW数据集达51.1 mIoU①,超越现有SOTA方法,为动态场景理解提供高效新思路。
亮点
• 从类级感知一致性视角提出新型VSS框架,实现性能与效率的平衡。
• 设计静态-动态语义对齐模块,基于静态感知差异选择性整合动态语义,通过类级一致性建模时空关系。
• 提出基于对比学习的多元类原型(MCP-CL),通过多变量联合建模增强类别表征能力。
• 实验证明该方法在VSPW、Cityscapes等数据集上显著优于当前最优方法。
方法论
框架包含两大核心组件:
多元类原型对比学习:动态计算正确预测像素的类原型,通过对比损失约束类间分离性和类内多样性。
静态-动态语义对齐模块:
静态语义高效聚合(SSEA):通过多尺度卷积捕获帧内空间关联。
动态语义选择性聚合(DSSA):基于窗口化注意力(Hadamard积优化计算)实现两阶段跨帧特征融合,仅聚合差异显著区域以降低计算开销。
讨论
尽管类级一致性简化了时空建模,但在自动驾驶等实时场景需进一步权衡速度与精度。注意力点数量与推理速度呈负相关,未来可探索动态稀疏注意力机制。
结论
SD-CPC框架通过类级语义简化与对比学习约束,为VSS提供高效解决方案。其核心创新在于将像素级关联升维至类别级感知一致性,显著提升分割鲁棒性。
(注:① mIoU:均交并比,语义分割常用评估指标)
生物通微信公众号
知名企业招聘