基于联邦学习的生存分析预测模型构建及其在霍奇金淋巴瘤中的应用研究

【字体: 时间:2025年05月27日 来源:BMC Medical Research Methodology 3.9

编辑推荐:

  为解决多源医疗数据集中存储面临的隐私保护难题,研究人员开展基于联邦学习(FL)的生存分析模型构建研究。通过模拟实验与霍奇金淋巴瘤(HL)真实数据验证,发现 FL 模型预测性能与集中式模型相近,为跨机构医疗数据合作提供新方法。

  在医疗研究领域,精准预测患者的生存时间对于疾病预后评估和治疗方案制定至关重要。传统的生存分析模型如 Cox 比例风险模型(Cox proportional hazards model)依赖集中式数据训练,但多机构数据共享面临患者隐私泄露风险和复杂的数据协调流程,尤其对于罕见病或需要多中心协作的研究,数据集中存储和处理的局限性更为突出。如何在保护数据隐私的前提下,有效利用分布式医疗数据构建高性能的生存预测模型,成为亟待解决的关键问题。
为应对这一挑战,来自丹麦奥尔堡大学医院(Aalborg University Hospital)、奥尔堡大学(Aalborg University)等机构的研究人员开展了基于联邦学习(Federated Learning, FL)的生存分析模型构建研究。相关成果发表在《BMC Medical Research Methodology》,为跨机构医疗数据的隐私保护与联合建模提供了新的解决方案。

研究人员主要采用了两种关键技术方法:一是基于联邦学习的 Cox 比例风险模型(FL-Cox),通过引入核平滑器(kernel smoother)处理基线风险(baseline hazard),避免直接共享个体事件时间;二是基于参数模型的联邦学习方法(FL-Poisson),利用离散时间分箱和样条函数建模基线风险。研究使用了四个模拟实验场景(涵盖不同样本量、随访时间和数据异质性)和一个霍奇金淋巴瘤(Hodgkin Lymphoma, HL)真实数据集(包含 707 例晚期患者,分为 8 个模拟站点),对比了联邦学习模型与集中式模型的预测性能。

模拟实验结果


在四个模拟实验中,联邦学习模型(FL-Cox 和 FL-Poisson)与集中式模型(Cox-Pool、Poisson-Pool)的一致性指数(Concordance-index, C-index)、集成布里尔分数(Integrated Brier Score, IBS)和平均集成绝对差(Mean Integrated Absolute Difference, MIAD)表现接近。例如,在模拟实验 4 中,FL-Poisson 与 Poisson-Pool 的 C-index 均为 0.701,MIAD 分别为 12.46 和 10.87,差异极小。结果表明,联邦学习模型在不同数据分布和样本量条件下,均能保持与集中式模型相当的预测准确性,且对数据异质性具有鲁棒性。

真实数据验证


在晚期霍奇金淋巴瘤患者数据中,FL-Cox 和 FL-Poisson 模型的 C-index 分别为 0.768 和 0.755,与集中式模型(0.754 和 0.755)基本一致,IBS 值均约为 0.082,显示出良好的预测一致性。尽管 FL-Cox 与 Cox-Pool 的 MIAD 为 34.28,但整体性能差异仍在可接受范围内,验证了联邦学习模型在真实世界场景中的适用性。

研究结论与意义


本研究成功开发了基于联邦学习的生存分析框架,无需直接共享个体级数据和事件时间即可构建高性能预测模型。通过核平滑和参数建模方法,有效解决了传统联邦学习在生存分析中面临的隐私泄露问题。模拟和真实数据实验均表明,联邦学习模型在预测准确性、风险分层能力和隐私保护方面表现优异,为跨机构合作的临床预测模型开发提供了可靠的技术路径。该方法尤其适用于罕见病研究、多中心临床试验等需要数据隐私保护的场景,有望推动医疗领域数据共享与人工智能技术的深度融合,提升个性化医疗的可及性和精准性。研究结果为联邦学习在医疗大数据中的应用奠定了重要基础,为解决数据隐私与模型性能之间的矛盾提供了创新性解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号