
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于核密度估计的隐私保护持续学习策略在白细胞分类中的跨域应用研究
【字体: 大 中 小 】 时间:2025年07月16日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对白细胞(WBC)分类中因样本来源和成像条件差异导致的域偏移问题,提出了一种基于核密度估计(KDE)的生成回放持续学习(CL)策略。研究人员通过轻量级生成器模拟历史数据分布,结合KL散度知识蒸馏机制,有效解决了基础模型(FMs)在动态临床环境中的灾难性遗忘问题。实验证明该方法在四种数据集和四种骨干网络(ResNet50/RetCCL/CTransPath/UNI)上均能保持稳定的跨域分类性能,为临床血液学诊断提供了可靠的隐私保护解决方案。
在临床血液学诊断中,白细胞分类是检测感染、免疫紊乱和白血病等疾病的关键环节。然而现实场景中存在两大挑战:不同医院采集的血液或骨髓样本存在显著域偏移,而传统深度学习模型在这种动态环境中会出现灾难性遗忘;同时,存储原始医疗图像进行模型训练又面临隐私泄露风险。更棘手的是,即便使用强大的基础模型(FMs),当推理数据分布与训练数据不一致时,其性能也会明显下降。这些问题严重制约了人工智能在临床血液学中的长期应用。
针对这些挑战,德国雷根斯堡大学(University of Regensburg)的研究团队在《Scientific Reports》发表了一项创新研究。他们开发了一种隐私保护的持续学习框架,通过核密度估计(KDE)生成历史数据的潜在表示,结合知识蒸馏技术,成功实现了白细胞分类模型在跨域场景下的稳定性能。该研究首次系统探讨了白细胞分类在域增量场景下的表现,为医疗AI在动态临床环境中的部署提供了新思路。
研究方法主要包含三个关键技术:1)使用KDE构建非参数潜在生成器,通过聚类中心捕捉历史数据分布特征;2)采用混合训练策略,每个批次包含50%新任务数据和50%生成的历史数据;3)引入KL散度正则化项平衡新旧知识的学习。实验涉及四个不同来源的WBC数据集(PBC/LMU/MLL/UKA),涵盖血液涂片和骨髓样本,通过四种任务序列评估模型性能。
非参数潜在生成器
研究团队设计了一种轻量级的KDE生成器替代传统的原始图像存储。该方法首先用K-means聚类提取当前任务数据的潜在特征中心点,再通过Silverman规则自动确定带宽参数,构建能够模拟历史数据分布的生成器。与需要预设高斯成分数的GMM相比,这种非参数方法能更灵活地适应临床数据复杂的真实分布。
遗忘控制机制
为防止模型更新时丢失已有知识,研究采用双管齐下的策略:生成潜在回放(GLR)使用KDE生成器合成历史数据,通过教师模型标注伪标签;知识蒸馏(DST)则通过KL散度约束学生模型与教师模型的输出分布。实验表明,当正则化系数α=0.2时,该方法在ResNet50和RetCCL骨干上达到最佳平衡,而更强大的CTransPath和UNI模型仅需α=0.1即可有效抑制遗忘。
实验结果分析
在四种任务序列的测试中,传统微调方法(naive)的平均准确率(ACC)仅为60.18%,而提出的CL方法将性能提升至77.91%。特别值得注意的是,在UNI骨干网络上的表现最为突出,平均ACC达到90.49%,增量学习指标(ILM)高达91.09%。相比之下,存储原始数据的回放方法(如ER)虽然性能接近,但存在隐私泄露风险。

骨干网络比较
研究对比了四种骨干网络的持续学习表现:基于自然图像的ResNet50、病理专用的RetCCL、以及两个基础模型CTransPath和UNI。结果显示,医学预训练模型显著优于通用模型,其中UNI表现最佳,其ILM值比ResNet50高出25.18个百分点。这表明领域适配的预训练与持续学习策略具有协同效应。
这项研究为临床血液学中的AI应用提供了重要启示:首先,验证了基础模型在域偏移下的性能衰减问题,证明持续学习策略的必要性;其次,提出的KDE生成回放方法既保护了患者隐私,又优于需要存储原始数据的方法;最后,通过系统评估不同骨干网络,为临床环境中的模型选型提供了实证依据。该成果尤其适用于需要定期更新模型而又不能保留历史数据的医疗场景,为智慧医疗的发展提供了可靠的技术路径。
生物通微信公众号
知名企业招聘