视觉空间和文本空间都很重要：利用CLIP技术实现非独立同分布（Non-IID）联邦医疗图像分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Visual and Textual Spaces Both Matter: Taming CLIP for Non-IID Federated Medical Image Classification

【字体：大中小】 时间：2026年02月11日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　提出基于预训练CLIP模型的联邦学习框架PMRFed，解决非独立同分布医疗图像分类中的跨模态对齐与知识共享问题，通过低秩适应和自适应提示优化实现高效个性化模型训练，并在真实数据集上验证有效性。

冯露露|陈胜超

西安电子科技大学计算机科学与技术学院，中国陕西省西安市710126

摘要

基于联邦学习的医学图像分析系统可以通过访问公共和私有医疗数据，为增强隐私保护的计算机辅助诊断（CAD）提供重要的见解。将预训练的视觉-语言基础模型（如CLIP）适配到基于联邦学习的医学图像分析中，可以提供跨模态的洞察力，从而提高决策支持能力，相比单一模态的视觉模型更为有效。然而，有效的跨域联邦适应需要密集的微调和知识共享，在资源有限的医疗实践中这具有挑战性，因为预训练的自然图像知识与医学图像之间存在差异。此外，医学数据的显著统计异质性（非独立同分布，即非IID）加剧了这些挑战。为了解决这些问题，本文提出了一种并行多模态强化框架（PMRFed），用于适应非IID联邦医学图像分类。PMRFed通过强化学习开发特定于客户的个性化模型，并限制局部跨模态对齐，使模型能够整合特定于客户和全局共有的知识。这种方法不仅解决了非IID问题，还优化了性能与效率之间的权衡。在真实世界的医学图像分类数据集上的广泛实验证明了我们提出的PMRFed的有效性和优越性。

引言

基于深度学习（DL）的医学图像分类（MIC）利用计算机视觉技术自动化分析大型医学图像数据集[1]。与传统方法不同，这些方法依赖医学专家进行多次患者评估，这项技术通过提高诊断的准确性和效率，显著增强了疾病预防、诊断、治疗计划和患者管理[2]。深度医学图像分类模型的进步在很大程度上依赖于大量的训练数据[1]。然而，这些数据的可用性往往有限，而且由于隐私和伦理法规（如通用数据保护条例（GDPR）[3]和健康保险可移植性和责任法案（HIPAA）[4]）的约束，医疗机构不愿共享信息。这些法规认识到医学数据的高度敏感性，使得集中式训练策略不切实际。此外，各机构内部的数据访问限制也限制了从他们专有数据集中获取更广泛知识的能力。联邦学习（FL）[5]作为一种有前景的学习范式应运而生，它使多个组织能够协作训练模型，同时确保数据隐私并打破数据孤岛。

医疗数据中的统计异质性（非独立同分布，即非IID数据）削弱了标准FL算法（如FedAvg）的有效性，这些算法难以生成具有全局通用性的模型[6]。个性化FL（PFL）通过开发特定于客户的模型来缓解这一问题，这些模型将独特的客户洞察与全球共享的知识相结合，从而提高模型性能[7]。具体来说，PFL方法通过动态异质性约束[8]、敏感参数的本地化[6]、[9]、[10]以及知识蒸馏[11]、[12]来减轻非IID数据对性能的负面影响。然而，数据分布的不平衡可能导致这些模型过于关注主导的简单模式，而忽视复杂的少数数据，从而增加局部偏见并降低泛化能力。此外，医疗资源的限制往往限制了参与者的计算能力，阻碍了从零开始训练强大、参数较多的模型，并增加了与大量参数相关的通信负担。

适配先进的预训练模型可以消除从头开始进行资源密集型训练和依赖大规模数据集的需求[13]。然而，当前最先进的预训练视觉模型通常使用大规模自然图像数据集开发，由于医学图像和自然图像之间存在显著的语义差异，在有效传递知识方面存在局限性。尽管一些大规模微调技术可以缓解这些挑战，但它们仍然需要大量的计算资源。最近的进展表明，像对比语言-图像预训练（CLIP）[14]这样的视觉-语言模型，在用于联邦医学图像分析时，不仅提供了更深入的洞察力，还相比单一模态模型降低了计算成本[13]、[15]、[16]。然而，实证分析表明，CLIP在医学图像分类中的表现不佳[17]，主要是因为其在自然图像上的预训练，而自然图像与医学图像存在显著差异，导致跨域适应效果不佳。虽然大规模微调可以解决这个问题，但它需要大量资源。此外，非IID数据进一步复杂化了在FL环境中的有效适应。这就提出了一个有趣的研究问题：在数据异质性的情况下，我们能否在性能和效率之间实现良好的权衡，同时将预训练的CLIP适配到联邦医学图像分析中？

为了解决这些挑战，本文提出了一种并行多模态强化（称为PMRFed）框架，用于适应非IID联邦医学图像分类。PMRFed通过轻量级操作增强了CLIP的编码过程，改善了跨模态对齐，并确保了高效的适应。为了对抗非IID数据带来的学习偏差，PMRFed对每个客户的编码过程施加了特定的学习约束。此外，客户仅上传部分参数以减少通信开销。最终，PMRFed促进了高度个性化模型的开发，有效减轻了非IID数据的影响。我们的贡献总结如下：

我们提出了PMRFed，这是一种个性化的FL框架，它将CLIP适应到非IID联邦医学图像分类中，解决了医疗实践中存在的显著非IID数据问题，同时保持了效率。
我们引入了一种低秩适应技术以实现高效的图像编码，并开发了自适应提示生成器和提示学习器用于文本编码，以增强手工制作的提示的上下文感知能力，从而提高局部跨模态对齐。
我们提出了一个异构知识对齐优化目标，通过规范局部图像和文本编码过程来应对非IID问题，从而减少每个客户的学习偏差。
在四个真实世界的医学成像分类数据集上的广泛实验证明了我们提出的PMRFed框架的有效性和优越性。

部分摘录

基于深度学习的医学图像分类

深度学习（DL）在各种应用中大幅降低了自动化成本[18]、[19]、[20]、[21]。在医学图像分类中，DL技术为临床分析支持提供了更可靠且成本效益更高的解决方案，消除了对大量劳动力的需求。然而，医学图像分类与自然图像分析相比具有独特的挑战，特别是在捕捉解剖学、纹理和形态学特征等复杂表示方面。

方法论

在本节中，我们介绍了CLIP和个性化FL的初步内容（第3.1节），问题设置和公式化（第3.2节），框架概述（第3.3节），算法（第3.4节和第3.5节）以及优化目标（第3.6节）。此外，我们还描述了服务器端和客户端上的算法实现（第3.7节）。

实验和结果

本节概述了实验设置，并展示了非IID环境下的结果，包括主要实验、消融研究和超参数敏感性分析。

结论和未来工作

本文提出了PMRFed框架，它将预训练的CLIP适应到非IID联邦医学图像分类中。PMRFed通过引入低秩适应、任务特定的增强提示和上下文感知提示来增强每个客户的局部编码过程，以实现跨域适应。此外，它还结合了异构知识对齐优化目标，以减轻模型学习偏差并应对非IID数据挑战。广泛的实验证明了

CRediT作者贡献声明

冯露露：可视化、资源管理、数据整理、验证、方法论、概念化、写作——原始草稿、软件开发、调查。陈胜超：写作——原始草稿、监督、方法论、数据整理、可视化、软件开发、调查、概念化、写作——审阅与编辑、验证、资源管理、形式分析。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系，这些利益或关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号