基于语言引导对齐与蒸馏的无源域自适应方法研究

【字体: 时间:2025年06月17日 来源:Neurocomputing 5.5

编辑推荐:

  针对无源域自适应(SFDA)中视觉-语言模型(VLMs)未充分利用细粒度文本知识的问题,研究人员提出语言引导对齐与蒸馏(LAD)框架,通过类别感知模态对齐(CMA)和语言引导知识蒸馏(LKD)实现跨模态特征融合,在Office-Home和UCF-HMDB数据集上分别提升2.1%和4.3%,为多模态SFDA研究开辟新路径。

  

在人工智能领域,深度神经网络(DNNs)的卓越性能往往依赖于海量标注数据,但现实场景中标注成本高昂且存在领域偏移(domain shift)问题。传统无监督域适应(UDA)需访问源域数据,而新兴的无源域自适应(Source-Free Domain Adaptation, SFDA)仅利用预训练模型进行目标域适配,虽解决了数据隐私问题,却受限于单模态(视觉)信息利用不足。尽管CLIP等视觉-语言模型(VLMs)通过"猫的照片"等粗粒度提示(prompts)提升性能,但细粒度文本描述的潜力尚未挖掘——这正是中山大学研究人员在《Neurocomputing》发表论文的核心突破点。

研究团队提出语言引导对齐与蒸馏(Language-guided Alignment and Distillation, LAD)框架,创新性地整合预训练描述模型生成的细粒度文本。关键技术包括:1)基于门控函数的类别感知模态对齐(CMA),通过对比学习过滤高置信度同类样本;2)语言引导知识蒸馏(LKD),采用自适应模态融合和视觉-文本双模态驱动的双重蒸馏机制。实验覆盖Office-Home等5个图像/视频识别基准数据集。

类别感知模态对齐(CMA)
通过设计跨模态对比学习策略,CMA模块利用文本描述增强视觉特征表示。关键创新是引入类别感知门控函数,该函数能自动筛除特征空间中的高置信度同类负样本,从而有效保持类内相似性。实验表明该设计使模型在目标域的分类边界更清晰。

语言引导知识蒸馏(LKD)
构建视觉-文本双模态"教师"模型,其预测概率通过置信度加权机制动态融合。学生模型则通过特征级和logits级双重蒸馏接收跨模态知识。在UCF-HMDB视频数据集上,该模块使准确率提升4.3%,证明文本模态对时序特征学习的增强作用。

多基准验证
在Office-Home、VisDA等数据集上的系统实验显示:1)细粒度文本描述使CLIP的零样本(zero-shot)能力得到充分释放;2)CMA和LKD的协同作用显著优于现有SFDA方法(DIFO/DALL-V等);3)方法在图像与视频域均具通用性,验证了多模态框架的扩展优势。

该研究首次系统论证了细粒度语言知识对SFDA的增强效应:通过CMA实现跨模态表征对齐,借助LKD完成知识迁移,形成"描述-对齐-蒸馏"的完整技术链条。其重要意义在于:1)为数据隐私敏感场景提供新解决方案;2)开创性地将视觉-文本模态互补性理论应用于域适应领域;3)代码开源促进多模态学习社区发展。未来可探索更多模态(如音频)的融合机制,进一步拓展无监督学习的疆界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号