机器学习驱动的交互效应建模显著提升UK Biobank疾病风险预测效能

【字体: 时间:2025年07月19日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对传统Cox比例风险模型无法有效捕捉预测变量间交互作用的局限,开发了基于低秩分解的生存分析新方法survivalFM。通过整合UK Biobank中9种疾病的临床与组学数据,证明该方法在30.6%场景中显著提升判别性能(C-index),41.7%案例增加解释方差(R2),94.4%情境改善风险重分类(NRI),特别在心血管疾病风险预测中突破现有QRISK3模型仅考虑年龄交互的局限,为精准预防医学提供新工具。

  

在现代医学实践中,准确预测疾病风险是实现精准预防的关键。然而,传统统计模型如Cox比例风险模型(Cox proportional hazards model)存在明显局限——它们假设风险因素以线性方式独立作用,忽视了生物系统中普遍存在的协同或拮抗效应。这种简化导致模型可能错过重要的生物学机制,也限制了风险预测的准确性。以心血管疾病为例,虽然QRISK3等临床预测工具通过预设年龄交互项取得进展,但面对数百个潜在风险因素时,全面检测所有两两交互在计算和统计上都不可行。

针对这一挑战,赫尔辛基大学(University of Helsinki)的研究团队开发了创新性机器学习方法survivalFM。该方法突破性地将推荐系统中成熟的因子分解机(Factorization Machines, FM)概念引入生存分析领域,通过低秩近似高效估计所有可能的成对交互效应。相关研究成果发表在《Nature Communications》上,为复杂疾病风险建模开辟了新途径。

研究采用三项核心技术:1)基于因子分解的交互效应参数化(βi,j≈?pi,pj2)降至O(d×k);2)BFGS拟牛顿算法优化包含42万参与者的UK Biobank数据;3)多模态验证框架,涵盖标准风险因素、临床生化指标、代谢组学和多基因风险评分(PRS)四类预测因子,在9种疾病中系统评估预测性能。

方法学创新与验证

生存FM模型架构:通过扩展Cox模型的危险函数h(t|x)=h0(t)exp(f(x)),其中f(x)包含线性项和因子分解交互项。这种设计既保留传统模型的解释性,又通过k=10的隐向量空间捕捉复杂关联。在苏格兰测试集(占队列7%)的验证显示,模型校准良好,除慢性肾病外均无系统性偏差。

多疾病预测性能提升

判别性能:在36个评估场景中,11个(30.6%)观察到C-index显著提升(平均ΔC-index=0.0054),如标准风险因素预测肝病时C-index从0.79升至0.80。
解释方差:15个案例(41.7%)的R2显著增加(平均ΔR2=1.62%),代谢组学数据预测肝病时解释方差提升3.1%。
风险重分类:34个场景(94.4%)实现NRI改善,其中临床生化预测2型糖尿病时NRI达0.97,34%事件和63%非事件个体获得更准确风险分级。

临床转化应用

QRISK3模型增强:在心血管疾病预测中,survivalFM相比仅含年龄交互的QRISK3模型:

  • 判别提升:ΔC-index=0.0019 vs 0.0000
  • 风险捕获:10年随访中高风险组多识别6.7%事件(844 vs 791例)
  • 关键发现:总胆固醇/HDL比值呈现最强交互网络,与房颤存在负向交互(β=-0.32),提示二者共享心血管风险通路。

生物学机制揭示

肝病模型:代谢组学分析显示乙酸(acetate)与氨基酸的强交互效应,印证酒精代谢与肝脂堆积的分子机制;糖尿病模型:糖化血红蛋白(HbA1c)与葡萄糖呈负交互,反映血糖调控的饱和效应。

这项研究通过算法创新解决了高维交互建模的核心难题,其价值体现在三个维度:方法学上,首次实现生存分析中全交互效应的可扩展估计;临床上,证明综合交互建模可提升现有风险工具的预测效能;科学上,为解析多因素疾病的复杂病因提供新视角。随着生物医学数据规模的持续扩大,survivalFM有望成为连接机器学习与解释性研究的重要桥梁,推动精准预防医学向更深层次发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号