高效无损的单次通信GLMM算法:解锁真实世界多中心协作研究的效率与隐私保护

【字体: 时间:2025年07月20日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决分布式研究网络(DRNs)中多中心分析面临的数据隐私和通信效率问题,Jiayi Tong等研究人员开发了首个兼具无损(lossless)和单次通信(one-shot)特性的协作式广义线性混合模型算法(COLA-GLMM)。该研究通过仅交换汇总统计量实现单轮通信,在八国COVID-19死亡风险因素分析中验证了其与集中式分析等效的准确性(差异仅7.8×10-6%-3.0%),并引入同态加密(HE)增强版本保障半信任环境下的数据安全。

  

在医疗大数据时代,电子健康记录(EHR)的广泛应用催生了众多分布式研究网络(DRNs),但跨机构数据共享仍面临巨大挑战。传统多中心研究需要反复交换患者级数据,既耗时耗力又存在隐私泄露风险。虽然现有联邦学习算法如DLMM能处理线性混合模型,但针对广义线性混合模型(GLMM)的解决方案仍需要多次通信迭代,无法满足临床研究对效率和准确性的双重需求。

美国宾夕法尼亚大学Perelman医学院生物统计与流行病学系的Jiayi Tong团队在《npj Digital Medicine》发表突破性研究,开发出首个同时满足无损(lossless)和单次通信(one-shot)特性的协作式广义线性混合模型算法——COLA-GLMM。该算法通过创新性地重构似然函数,仅需交换三类汇总统计量:组合计数向量Ck、结局求和向量Sk和协变量-结局乘积矩阵Uk,即可在单轮通信内获得与集中式分析完全等效的结果。研究还引入同态加密(CKKS算法)增强版本,使协调中心仅能处理加密数据,进一步降低半信任环境下的隐私风险。

关键技术包括:(1)基于惩罚拟似然(PQL)的分布式GLMM拟合框架;(2)针对分类变量的组合统计量压缩技术;(3)支持细胞计数抑制策略(阈值设为5或11)的鲁棒性设计;(4)基于OHDSI网络的八国真实世界数据验证平台。研究使用PDA-OTA在线门户实现跨机构协作,各站点通过R包"pda"本地生成统计量。

模拟研究结果
通过Bland-Altman分析验证,COLA-GLMM在不同细胞抑制阈值(无抑制/5/11)下与集中式分析的参数估计差异极小(最大仅3%)。图中两个被标记的协变量估计值几乎完全重合,证实了算法的无损特性。

COVID-19死亡风险因素分析
联合美国Optum EHR、荷兰IPCI、西班牙PSMAR等八个数据库,研究发现:

  • 年龄≥80岁患者的死亡风险最高(OR持续显著)
  • Charlson合并症指数(CCI)与死亡率呈正相关(Delta时期最显著)
  • 女性性别具有保护性效应(OR<1)
  • 肥胖、糖尿病和慢性阻塞性肺病(COPD)在特定流行期显现风险

研究创新性地采用时间分层分析,揭示风险因素在pre-Delta、Delta和Omicron三个时期的动态变化,为精准防控提供依据。

这项研究标志着多中心协作分析方法的重大进步。COLA-GLMM不仅解决了GLMM模型在联邦学习中的技术瓶颈,其单次通信特性更使跨国研究效率提升5倍以上(相比需5轮通信的dPQL方法)。实际应用中,算法对八进制变量(p=8)的加密处理仅需AMD Ryzen 9处理器数秒完成,证明其工程可行性。未来可扩展至心血管疾病、癌症等领域,为隐私保护下的全球健康研究建立新范式。正如作者强调,该方法特别适合罕见病研究和需要外部数据补充的集中式网络,其开源实现(pda R包)将加速临床证据的生成与转化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号