DUAL3D-Fed:基于视觉语言模型双蒸馏的3D持续联邦学习框架

《IEEE Access》:DUAL3D-Fed: Dual Distillation for 3D Continual Federated Learning with Vision-Language Models

【字体: 时间:2025年11月28日 来源:IEEE Access 3.6

编辑推荐:

  本文针对3D点云分类在持续联邦学习(CFL)场景下面临的几何复杂性高、特征空间不一致等挑战,提出了一种创新的双蒸馏框架DUAL3D-Fed。研究通过嵌入空间蒸馏(采用Sinkhorn divergence对齐特征分布)和logit空间蒸馏(结合KL散度与样本回放)的双重约束,有效缓解了客户端漂移和灾难性遗忘问题。实验在ModelNet10/40、ScanObjectNN和ShapeNet55等基准上验证了该方法的优越性,在非独立同分布(non-IID)数据环境下显著提升了分类精度和特征鲁棒性,为分布式3D感知系统的持续学习提供了新思路。

  
在人工智能赋能机器人的浪潮中,让机器能够持续识别并适应复杂多变的3D环境已成为迫切需求。然而,传统集中式学习范式在面对数据天然分散于各设备、物体类别随时间演变、且隐私限制禁止原始数据共享的实际情况时显得力不从心。持续联邦学习(Continual Federated Learning, CFL)作为联邦学习(Federated Learning, FL)与持续学习(Continual Learning, CL)的交叉领域,旨在使共享的全局模型能够在分布式客户端上协同进化,同时不共享原始数据。尽管CFL在2D视觉任务中取得了显著进展,但其在3D点云分类中的应用却鲜有探索,而3D感知在自动驾驶、机器人等现实系统中的重要性日益凸显。
与结构化的2D图像不同,3D点云是无序、稀疏且非均匀采样的,对旋转、平移和遮挡等几何变换高度敏感。这些特性导致即使观察同一类别的物体,不同客户端之间的局部特征表示也存在显著差异。在持续学习背景下,这种表征不一致性会加剧灾难性遗忘(Catastrophic Forgetting)的风险。当与CFL特有的非独立同分布(non-IID)数据、异构客户端架构以及演化的任务序列等挑战相结合时,这些问题会共同阻碍全局模型的收敛,显著加剧遗忘并导致模型性能随时间大幅下降。具体而言,CFL中的灾难性遗忘表现为两种主要形式:任务内遗忘(Intra-task forgetting),即由于其他客户端的冲突性更新,全局模型在客户端当前任务上的性能下降;任务间遗忘(Inter-task forgetting),即学习新类别覆盖了先前获得的知识。现有的CFL方法往往缺乏维持紧凑、语义对齐的嵌入空间的机制,而这对于缓解上述两种遗忘至关重要。
为了解决3D物体分类中的CFL挑战,来自CSIRO Data61、莫纳什大学和昆士兰科技大学的研究团队在《IEEE Access》上发表了题为“DUAL3D-Fed: Dual Distillation for 3D Continual Federated Learning with Vision-Language Models”的论文,提出了一种双蒸馏框架,通过在局部模型和全局模型之间强制执行嵌入空间和logit空间的一致性,促进有效的知识保留和持续适应。
为开展研究,研究人员主要应用了以下几项关键技术方法:首先,构建了基于Dirichlet分布的non-IID客户端数据划分模拟真实数据异构性;其次,采用PointNet作为3D点云分类的基础网络架构;第三,设计了双蒸馏核心算法,包括基于Sinkhorn散度的嵌入空间对齐和基于KL散度的logit空间对齐;第四,引入预训练的视觉语言模型(如CLIP)进行语义 grounding;最后,在ModelNet10/40、ScanObjectNN和ShapeNet55等多个3D基准数据集上进行了广泛的实验评估,设置了5任务、10任务、11任务等不同持续学习场景。
嵌入空间蒸馏与语义 grounding
研究首先在局部嵌入空间采用Sinkhorn散度(Sinkhorn Divergence)这一正则化的最优传输度量,来对齐每个客户端局部模型与全局模型的特征分布。该对齐确保了客户端间连贯的表征学习,支持适应新类别的同时保留先前学习任务的几何结构。具体而言,损失函数包含对齐当前全局模型嵌入和前一任务全局模型嵌入两部分,其组合有助于在时间上保持稳定和连贯的嵌入空间。
此外,为了增强嵌入空间的语义结构,研究者引入了基于预训练视觉语言模型(Vision-Language Models, VLMs)的语义 grounding。他们利用CLIP模型从固定的类别描述提示词(如“一个{CATEGORY}物体”)中提取语言嵌入,将点云特征空间锚定到丰富的语义先验上。
通过对比损失函数,促使点云样本嵌入与其对应的语言描述嵌入在空间上靠近,而远离语义不相似的描述。语言监督与Sinkhorn-based嵌入对齐相结合,共同确保了嵌入流形在几何平滑性和语义一致性上的约束。
Logit空间蒸馏
在logit空间,研究采用了一种混合蒸馏策略,使用Kullback-Leibler (KL)散度来对齐局部模型和全局模型的预测logit分布。对于任务t中新引入的类别,局部模型被训练以匹配当前全局模型的预测;对于已见过的历史类别,则利用存储的样本缓冲(buffer)对齐前一任务(t-1)全局模型的预测。这种双重对齐确保了跨任务和客户端的概率分布的稳定性。
实验结果验证
实验结果表明,DUAL3D-Fed在四个基准数据集上均 consistently 优于基线方法(如FedAvg、FedProx、MOON、FedNova等与经验回放(Exemplar Replay, ER)和学习而不遗忘(Learning without Forgetting, LwF)的组合)。在合成数据集(如ModelNet10、ModelNet40)上,其性能提升约2-3%。在更具挑战性的真实世界数据集(如ScanObjectNN、ShapeNet55)上,优势更为明显,尤其在更长的任务序列(如ShapeNet55上的11任务设置)和更严重的非IID条件(β=0.5)下,性能提升可达10%以上。t-SNE可视化显示,DUAL3D-Fed产生的特征嵌入具有更紧凑的类内聚集和更清晰的类间分离。
中心核对齐(Centered Kernel Alignment, CKA)分析进一步表明,该方法在连续任务间保持了最高的表征相似性,证明了其缓解灾难性遗忘的有效性。
消融研究证实了双蒸馏各个组件(特征蒸馏FD、logit蒸馏LD、文本嵌入对齐TA)的贡献,其中三者结合效果最佳。Sinkhorn散度的引入被证明能有效减少语义漂移并提升测试精度。
语言监督的作用至关重要,用随机向量替代CLIP嵌入会导致性能急剧下降。可扩展性实验表明,随着客户端数量增加,DUAL3D-Fed相比FedAvg表现出更强的鲁棒性。
结论与意义
该研究提出的DUAL3D-Fed框架是首个专门为3D点云数据设计的持续联邦学习解决方案。其核心贡献在于通过双空间(嵌入空间和logit空间)蒸馏与视觉语言模型语义引导的协同作用,有效应对了分布式3D持续学习中的特征漂移和灾难性遗忘挑战。该方法不仅在多个标准基准上取得了领先的性能,而且展现了对客户端异构性和长任务序列的良好适应性。这项工作为在隐私敏感、资源受限且环境持续演变的实际场景(如分布式机器人群体)中部署鲁棒的3D感知系统奠定了重要基础,为未来探索开放集识别、异步联邦学习等更复杂设置指明了方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号