基于语言引导对齐与蒸馏的无源域自适应方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月17日 来源：Neurocomputing 5.5

编辑推荐：

　　针对无源域自适应(SFDA)中视觉-语言模型(VLMs)未充分利用细粒度文本知识的问题，研究人员提出语言引导对齐与蒸馏(LAD)框架，通过类别感知模态对齐(CMA)和语言引导知识蒸馏(LKD)实现跨模态特征融合，在Office-Home和UCF-HMDB数据集上分别提升2.1%和4.3%，为多模态SFDA研究开辟新路径。

在人工智能领域，深度神经网络(DNNs)的卓越性能往往依赖于海量标注数据，但现实场景中标注成本高昂且存在领域偏移(domain shift)问题。传统无监督域适应(UDA)需访问源域数据，而新兴的无源域自适应(Source-Free Domain Adaptation, SFDA)仅利用预训练模型进行目标域适配，虽解决了数据隐私问题，却受限于单模态(视觉)信息利用不足。尽管CLIP等视觉-语言模型(VLMs)通过"猫的照片"等粗粒度提示(prompts)提升性能，但细粒度文本描述的潜力尚未挖掘——这正是中山大学研究人员在《Neurocomputing》发表论文的核心突破点。

研究团队提出语言引导对齐与蒸馏(Language-guided Alignment and Distillation, LAD)框架，创新性地整合预训练描述模型生成的细粒度文本。关键技术包括：1)基于门控函数的类别感知模态对齐(CMA)，通过对比学习过滤高置信度同类样本；2)语言引导知识蒸馏(LKD)，采用自适应模态融合和视觉-文本双模态驱动的双重蒸馏机制。实验覆盖Office-Home等5个图像/视频识别基准数据集。

类别感知模态对齐(CMA)
通过设计跨模态对比学习策略，CMA模块利用文本描述增强视觉特征表示。关键创新是引入类别感知门控函数，该函数能自动筛除特征空间中的高置信度同类负样本，从而有效保持类内相似性。实验表明该设计使模型在目标域的分类边界更清晰。

语言引导知识蒸馏(LKD)
构建视觉-文本双模态"教师"模型，其预测概率通过置信度加权机制动态融合。学生模型则通过特征级和logits级双重蒸馏接收跨模态知识。在UCF-HMDB视频数据集上，该模块使准确率提升4.3%，证明文本模态对时序特征学习的增强作用。

多基准验证
在Office-Home、VisDA等数据集上的系统实验显示：1)细粒度文本描述使CLIP的零样本(zero-shot)能力得到充分释放；2)CMA和LKD的协同作用显著优于现有SFDA方法(DIFO/DALL-V等)；3)方法在图像与视频域均具通用性，验证了多模态框架的扩展优势。

该研究首次系统论证了细粒度语言知识对SFDA的增强效应：通过CMA实现跨模态表征对齐，借助LKD完成知识迁移，形成"描述-对齐-蒸馏"的完整技术链条。其重要意义在于：1)为数据隐私敏感场景提供新解决方案；2)开创性地将视觉-文本模态互补性理论应用于域适应领域；3)代码开源促进多模态学习社区发展。未来可探索更多模态(如音频)的融合机制，进一步拓展无监督学习的疆界。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号