
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于动态双教师机制的目标检测测试时自适应方法(DDT):融合视觉语言模型以应对领域偏移
【字体: 大 中 小 】 时间:2025年09月24日 来源:Image and Vision Computing 4.2
编辑推荐:
本文提出一种创新的测试时自适应(TTA)方法——动态双教师机制(DDT),通过整合源训练模型与视觉语言模型(VLM)的双重监督,有效缓解目标检测中的领域偏移问题。该方法采用动态标签融合策略(DFLR)与双重预测一致性正则化(DPCR),在多个领域自适应基准测试中实现了最先进性能,为自动驾驶等实时应用提供了鲁棒性保障。
Highlight
我们提出了一种名为动态双教师(DDT)的新型测试时自适应方法,通过双教师机制引导目标检测模型适应未知领域。该方法创新性地引入视觉语言模型(VLM)作为语言驱动的指导者,利用其语言对齐训练带来的领域鲁棒性,与源训练教师模型协同工作。
Introduction
近年来,深度学习模型在计算机视觉领域取得显著进展[1]-[4],但其性能严重依赖训练与测试数据同分布的假设。实际应用中,领域偏移(如自然环境变化或传感设备差异)会导致模型性能下降[7]。虽然无监督领域自适应(UDA)和源自由域自适应(SFDA)尝试解决该问题,但它们多采用离线设定,难以应对实时环境变化。测试时自适应(TTA)通过在线调整模型应对目标数据流,但现有方法依赖源模型自训练,易受伪标签噪声影响。近期视觉语言模型(如CLIP[22])展现出强大的泛化能力,其语言对齐特性和世界先验知识为领域偏移提供了新解决方案。
Section Snippets
Unsupervised domain adaptation
无监督领域自适应(UDA)致力于在无目标域标签情况下将知识从源域迁移至目标域。现有目标检测UDA方法可分为三类:对抗特征学习方法[7]-[10]、图像到图像转换方法[26]-[27]以及自训练方法[11],[29]-[30]。对抗特征学习方法通过域判别器实现特征对齐。
Problem formulation
在TTA设定中,给定源训练模型Θ和未标注目标数据流T = {xi}i=1N。模型Θ(i-1)需逐样本适应xi,更新后的模型Θ(i)用于处理后续样本xi+1,最终提升目标域检测性能。
Overview
图2展示了DDT框架概览。该框架基于均值教师[25]架构,包含双教师模块:源训练检测器(提供专业但领域敏感的知识)和预训练VLM(充当语言驱动的领域鲁棒指导者)。通过集成语言提示获取VLM的领域无关预测,并设计动态标签融合策略(DFLR)整合双教师输出,同时采用双重预测一致性正则化(DPCR)增强领域不变性学习。
Datasets
我们在四类领域偏移场景评估DDT:恶劣天气适应(Cityscapes[51] → Foggy Cityscapes[52])、合成到真实适应(SIM10K[53] → Cityscapes[51])、跨相机适应(KITTI[54] → Cityscapes[51])以及真实到艺术风格适应(Pascal VOC[55] → Watercolor[56]/Clipart[56])。实验涉及Cityscapes、Foggy Cityscapes等七个公共数据集。
Conclusion
本文提出了一种创新的动态双教师测试时自适应框架,通过结合领域特定模型信息与富含世界先验知识的CLIP模型,有效缓解源域与部署域之间的领域偏移。集成提示引导的语言驱动教师产生领域鲁棒预测,动态融合策略确保伪标签质量,双重一致性正则化进一步提升模型稳定性。
生物通微信公众号
知名企业招聘