编辑推荐:
医疗数据隐私保护与模型协作面临挑战,研究人员开展分布式交叉学习构建公平联邦模型(DCLEF)研究。结果显示 DCLEF 性能与集中式学习相当,优于孤立学习,虽同步时间增加,但为医疗系统协作提供新途径。
在当今数字化时代,医疗领域积累了海量数据,这些数据犹如一座巨大的宝藏,若能合理利用,将为医学研究和临床实践带来重大突破。然而,这座宝藏却被一道道 “枷锁” 束缚着。一方面,医疗数据包含患者大量敏感信息,如个人身份、健康状况等,隐私安全至关重要;另一方面,不同医疗机构的数据往往处于分散状态,“各自为政”,难以整合利用。例如,许多机构都收集了 COVID-19 数据,但由于数据量有限且不平衡,难以进行深入有效的分析。此外,传统的数据共享和模型构建方法,如集中式学习,虽然能整合数据提升模型性能,但却将患者数据集中存储,存在严重的隐私泄露风险;而联邦学习虽在一定程度上保护了隐私,但仍依赖中央服务器,存在单点故障等问题。因此,如何打破这些 “枷锁”,在保护患者隐私的前提下,实现多机构医疗数据的有效整合与利用,成为了亟待解决的难题。
为了攻克这一难题,来自耶鲁大学医学院生物医学信息学与数据科学系、加州大学圣地亚哥分校等机构的研究人员开展了一项具有开创性的研究。他们提出了分布式交叉学习构建公平联邦模型(Distributed Cross-Learning for Equitable Federated models,DCLEF),旨在探索一种全新的医疗数据利用和模型构建模式。研究结果令人振奋,DCLEF 在保护患者隐私的同时,其预测性能与集中式学习相当,且优于孤立学习,这一成果为医疗领域的数据协作带来了新的曙光,相关论文发表在《Nature Communications》上。
在研究方法上,研究人员主要运用了以下关键技术:一是采用基于数学证明的联邦学习算法,如水平学习场景下的网格二元逻辑回归(Grid binary LOgistic Regression,GLORE)算法和垂直学习场景下的 VERTIGO 算法,分别用于处理水平和垂直分区数据;二是引入区块链分布式账本技术,利用其分布式、不可篡改、透明等特性,记录模型训练过程,确保模型的可追溯性和透明度;三是使用分布式文件系统,如星际文件系统(InterPlanetary File System,IPFS),高效存储和共享模型内容,提升模型存储的可扩展性。研究数据来源于加州大学 5 个医疗中心的 COVID-19 患者数据、加州大学圣地亚哥分校的手术数据以及英国爱丁堡的心脏病数据。
下面来看具体的研究结果:
- D-CLEF 用于预测 COVID-19 死亡率:研究人员选取了 15297 名被诊断为 COVID-19 的患者数据,涵盖多个加州大学医疗中心。在水平场景下,D-CLEF 的表现与集中式逻辑回归(LR)学习相似,且优于所有孤立 LR 模型;在垂直场景下,D-CLEF 与集中式 LR 模型结果相当,且 AUC 得分高于孤立 LR 模型。综合来看,垂直 D-CLEF 和集中式模型在统计上表现更优,但实际 AUC 得分差异较小。此外,D-CLEF 的运行时间比联邦学习长约 10%123。
- D-CLEF 用于识别大手术后的长期住院情况:以 960 名接受全髋关节置换术(THA)的患者为研究对象,预测其住院时间是否延长。在水平场景中,D-CLEF 的预测能力与集中式 LR 学习相似,优于孤立 LR 模型;垂直场景下,D-CLEF 略优于集中式 LR 模型。整体而言,垂直 D-CLEF 在统计上优于集中式和水平 D-CLEF,且 AUC 得分相近,同时 D-CLEF 集成模型性能相似。运行时间方面,D-CLEF 每次迭代比联邦学习多约 10%456。
- D-CLEF 用于预测心肌梗死:使用英国爱丁堡收集的 1253 名患者数据进行分析。在水平和垂直场景下,D-CLEF 的性能均与集中式 LR 模型相似,且优于孤立 LR 模型。统计显示,水平和垂直 D-CLEF 与集中式方法预测水平相近,AUC 得分差异较小,D-CLEF 集成模型结果相似,其运行时间同样比联邦学习多 10% 左右789。
在研究结论与讨论部分,DCLEF 展现出诸多优势。它通过结合公平计算的联邦学习、去中心化的区块链和分布式文件系统技术,在保护患者数据隐私的同时,实现了模型的可信度、透明度和可扩展性,以及系统的可持续性和可审计性。DCLEF 在水平和垂直场景下的预测性能与集中式解决方案相似,优于孤立模型,并且能融入不同机器学习算法提升预测能力,这为解决多机构医疗数据协作问题提供了有效途径,在大流行相关研究、手术结果预测和内科疾病预测等多领域具有广泛应用潜力。
不过,DCLEF 也存在一些局限。在实际部署中,需要进一步强化算法和基础设施的隐私安全,如采用差分隐私技术和可信执行环境;在数据和模型拓展方面,还需探索如何纳入更多数据模态和复杂模型,以及进行全面的可扩展性评估和超参数优化。此外,利用 DCLEF 进行医学语言模型训练以及验证因果关系等,也是未来研究的重要方向。
尽管 DCLEF 还有待完善,但它无疑为医疗领域的数据协作和模型构建开辟了新方向。随着技术的不断发展和研究的深入,DCLEF 有望在未来医疗实践中发挥更大作用,为提升医疗服务水平、保障患者健康贡献力量。