
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语言引导对齐与蒸馏的无源域自适应方法研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neurocomputing 5.5
编辑推荐:
针对无源域自适应(SFDA)中视觉-语言模型(VLMs)未充分利用细粒度文本知识的问题,研究人员提出语言引导对齐与蒸馏(LAD)框架,通过类别感知模态对齐(CMA)和语言引导知识蒸馏(LKD)实现跨模态特征融合,在Office-Home和UCF-HMDB数据集上分别提升2.1%和4.3%,为多模态SFDA研究开辟新路径。
在人工智能领域,深度神经网络(DNNs)的卓越性能往往依赖于海量标注数据,但现实场景中标注成本高昂且存在领域偏移(domain shift)问题。传统无监督域适应(UDA)需访问源域数据,而新兴的无源域自适应(Source-Free Domain Adaptation, SFDA)仅利用预训练模型进行目标域适配,虽解决了数据隐私问题,却受限于单模态(视觉)信息利用不足。尽管CLIP等视觉-语言模型(VLMs)通过"猫的照片"等粗粒度提示(prompts)提升性能,但细粒度文本描述的潜力尚未挖掘——这正是中山大学研究人员在《Neurocomputing》发表论文的核心突破点。
研究团队提出语言引导对齐与蒸馏(Language-guided Alignment and Distillation, LAD)框架,创新性地整合预训练描述模型生成的细粒度文本。关键技术包括:1)基于门控函数的类别感知模态对齐(CMA),通过对比学习过滤高置信度同类样本;2)语言引导知识蒸馏(LKD),采用自适应模态融合和视觉-文本双模态驱动的双重蒸馏机制。实验覆盖Office-Home等5个图像/视频识别基准数据集。
类别感知模态对齐(CMA)
通过设计跨模态对比学习策略,CMA模块利用文本描述增强视觉特征表示。关键创新是引入类别感知门控函数,该函数能自动筛除特征空间中的高置信度同类负样本,从而有效保持类内相似性。实验表明该设计使模型在目标域的分类边界更清晰。
语言引导知识蒸馏(LKD)
构建视觉-文本双模态"教师"模型,其预测概率通过置信度加权机制动态融合。学生模型则通过特征级和logits级双重蒸馏接收跨模态知识。在UCF-HMDB视频数据集上,该模块使准确率提升4.3%,证明文本模态对时序特征学习的增强作用。
多基准验证
在Office-Home、VisDA等数据集上的系统实验显示:1)细粒度文本描述使CLIP的零样本(zero-shot)能力得到充分释放;2)CMA和LKD的协同作用显著优于现有SFDA方法(DIFO/DALL-V等);3)方法在图像与视频域均具通用性,验证了多模态框架的扩展优势。
该研究首次系统论证了细粒度语言知识对SFDA的增强效应:通过CMA实现跨模态表征对齐,借助LKD完成知识迁移,形成"描述-对齐-蒸馏"的完整技术链条。其重要意义在于:1)为数据隐私敏感场景提供新解决方案;2)开创性地将视觉-文本模态互补性理论应用于域适应领域;3)代码开源促进多模态学习社区发展。未来可探索更多模态(如音频)的融合机制,进一步拓展无监督学习的疆界。
生物通微信公众号
知名企业招聘