问题 1 FedWeight:通过患者重加权缓解电子健康记录数据联邦学习中的协变量偏移

【字体: 时间:2025年05月18日 来源:npj Digital Medicine 12.4

编辑推荐:

  问题 2 在联邦学习(FL)应用于电子健康记录数据时,协变量偏移会降低模型泛化能力。为此,研究人员提出 FedWeight 框架,结合密度估计重加权患者数据。实验表明,其在预测 ICU 相关指标上优于基线,还开发了 FedWeight-ETM,为 FL 在医疗领域应用提供新方向。

  

问题 5


在医疗数据领域,电子健康记录(EHR)因隐私和法规限制难以集中处理,联邦学习(FL)虽能实现分布式建模,却面临协变量偏移难题。不同医疗机构间患者人口统计、临床实践和数据收集的差异,会导致模型在目标场景泛化能力不足,影响预测准确性和临床决策可靠性,如专科医院模型难以在社区医院精准预测患者预后,因此亟需有效缓解协变量偏移的方法。

加拿大麦吉尔大学(McGill University)等机构的研究人员开展了相关研究,提出 FedWeight 这一新型联邦学习框架,通过对源站点患者数据重加权,使训练模型与目标站点数据分布对齐。研究成果发表在《npj Digital Medicine》。

研究主要采用以下关键技术方法:一是利用掩码自动编码器(MADE)、变分自动编码器(VAE)、向量量化变分自动编码器(VQ-VAE)等密度估计模型,计算源数据与目标数据的分布差异权重;二是构建对称 FedWeight 机制,实现多医院间数据分布的双向适配;三是开发联邦嵌入主题模型(FedWeight-ETM),用于无监督场景下临床特征的潜在模式挖掘;四是使用 Shapley 加性解释(SHAP)分析模型的特征重要性,评估模型对临床相关特征的捕捉能力。研究数据来自 eICU 协作研究数据库(含 208 家医院)和 MIMIC-III 数据集,涉及药物管理、患者人口统计数据等。

研究结果


临床数据中的协变量偏移识别


在 eICU 数据中,不同医院间药物编码差异显著,如通用名与商品名混用、剂量信息记录不一致,导致患者聚类呈现明显医院特异性。药物数据预处理(包括基于 HICL 码的缺失值填补和药物名称标准化)使未记录药物比例从 40% 降至 20%,公共药物数量增加至 90% 以上,患者聚类混合度提升。此外,各医院患者在年龄、性别、BMI、种族等人口统计特征分布上存在显著差异,如 148 医院年轻患者比例较高,458 医院非裔患者较多。基于 MADE、VAE、VQ-VAE 的密度估计显示,各医院模型对本院数据的似然值显著高于其他医院数据,证实了协变量偏移的存在。

通过样本重加权解决协变量偏移


FedWeight 框架中,目标医院向源医院共享密度估计器,源医院据此计算患者重加权比例,对与目标分布更相似的患者赋予更高权重。对称 FedWeight 进一步实现两医院间的双向适配。在 eICU 跨医院和 eICU 与 MIMIC-III 跨数据集的联邦学习中,FedWeight 在预测 ICU 死亡率、呼吸机使用、脓毒症诊断和住院时间等任务上,均显著优于联邦平均(FedAvg)和 FedProx 等基线方法,且性能接近集中式模型。不同密度估计器(MADE、VAE、VQ-VAE)生成的重加权值高度相关,其收敛质量影响下游任务性能,过拟合或欠拟合均导致性能下降。

跨数据集联邦学习


在 eICU 训练、MIMIC-III 测试的跨数据集场景中,FedWeight 在呼吸机使用和 ICU 住院时间预测上显著优于 FedAvg,在死亡率和脓毒症预测上也表现更优,且性能稳定性更高。尽管跨数据集性能因分布差异有所下降,但 FedWeight 仍展现出更强的鲁棒性,表明其在处理不同机构间数据分布差异时的有效性。

FedWeight+SHAP 分析检测临床特征


通过 SHAP 分析发现,FedWeight 在捕捉与临床结果相关的特征方面优于 FedAvg。在 eICU 数据中,FedWeight 模型的 SHAP 值与集中式模型的相关性更高,尤其在呼吸机使用预测中表现显著。跨数据集分析显示,FedWeight 在预测死亡率、脓毒症和 ICU 住院时间时,特征重要性相关性更高。例如,死亡率预测中, glycopyrrolate、vasopressin 等药物及血尿素氮(BUN)、乳酸等实验室指标具有高 SHAP 值,验证了其与重症患者预后的关联。

FedWeight-ETM 捕捉与死亡率相关的潜在主题


在无监督场景下,FedWeight-ETM 通过整合重加权机制,有效捕捉与患者死亡率相关的潜在疾病主题。在 eICU 数据中,识别出慢性肾衰竭(ICD-585)、心律失常(ICD-427)等与死亡率显著相关的主题;在 MIMIC-III 数据中,败血症(ICD-38)、血液检查异常(ICD-790)等主题与死亡率密切相关。这些主题对应的国际疾病分类(ICD)代码经统计检验验证,表明 FedWeight-ETM 能够挖掘具有临床意义的潜在模式。

研究结论与讨论


FedWeight 通过患者数据重加权有效缓解了联邦学习中的协变量偏移问题,显著提升了模型在跨机构临床数据中的泛化能力。其在监督任务(如 ICU 结局预测)和无监督任务(如主题建模)中的表现均证明了该框架的有效性和鲁棒性。与现有方法相比,FedWeight 在保护数据隐私的前提下,无需共享原始数据或增加过多通信成本,且计算开销较低,具有实际部署的可行性。研究还通过 SHAP 分析和主题建模,揭示了与临床结果相关的关键药物和实验室指标,为疾病诊断和治疗提供了新的视角。

未来研究方向包括进一步优化密度估计器在小数据集和时间序列数据中的表现,探索 FedWeight 在高度异质化新站点的泛化能力,结合差分隐私等技术增强隐私保护,并将其整合到现有联邦学习开源工具中,推动在真实医疗机构中的应用。FedWeight 的提出为解决医疗数据联邦学习中的核心挑战提供了新范式,有望促进跨机构医疗协作,提升人工智能在医疗领域的公平性和可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号