编辑推荐:
为解决心血管疾病(CVD)风险预测准确性不足及生物标志物识别难题,研究人员基于 UK Biobank 数据,利用可解释增强机器(EBM)模型整合 2923 种蛋白质和 55 个临床特征预测 10 年 CVD 风险。结果显示模型性能优于传统评分,为精准防控提供新框架。
心血管疾病(CVD)如同潜伏在人体血管中的 “隐形杀手”,其引发的冠心病、缺血性中风和心肌梗死等,长期占据全球死亡原因前列。随着人口老龄化加剧,如何精准预测个体发病风险、挖掘关键生物标志物成为医学界亟待攻克的难题。传统预测模型依赖血压、胆固醇等临床指标,但准确性有限,难以捕捉复杂的生物学机制,尤其在不同性别、种族和代谢状态人群中存在明显预测偏差。在此背景下,整合新兴组学技术与人工智能算法,成为突破现有瓶颈的关键方向。
诺和诺德牛津研究中心(Novo Nordisk Research Centre Oxford)与微软公司的研究团队,基于英国生物银行(UK Biobank)的大规模蛋白质组学数据,开展了一项具有里程碑意义的研究。他们开发了可解释增强机器(Explainable Boosting Machine,EBM)模型,通过分析 2923 种血浆蛋白水平与 55 个临床特征的关联,实现了对 10 年心血管疾病风险的高精度预测。该研究成果发表在《Communications Medicine》,为心血管疾病的早期预警与个体化干预提供了全新的科学依据。
研究团队采用了以下关键技术方法:首先,从 UK Biobank 的 54,181 名参与者中筛选出 46,009 名无基础心血管疾病的样本,利用邻位延伸分析(Proximity Extension Assay)技术定量血浆蛋白浓度,结合 ICD-9/10 诊断编码定义 CVD 事件终点。其次,通过 10 折交叉验证构建 EBM 模型,并与传统临床评分(如 PCE、PREVENT、QRISK3、SCORE2)、多基因风险评分(PRS)及梯度提升树模型(LightGBM)进行对比。此外,运用通路分析(KEGG)和特征重要性评估,挖掘与动脉粥样硬化相关的关键分子通路和生物标志物。
模型性能超越传统方法,整合多维度数据提升预测精度
研究表明,仅基于蛋白质组学的 EBM 模型(EBM Proteomics)已展现出优于传统临床评分的性能,其受试者工作特征曲线下面积(AUROC)为 0.767,精确率 - 召回曲线下面积(AUPRC)为 0.241。当整合临床特征后(EBM Proteomics & Clinical),AUROC 提升至 0.785,AUPRC 提升至 0.284,显著优于仅使用临床数据的模型(EBM Clinical)及 LightGBM 等机器学习模型。净重新分类改善(NRI)和综合判别改善(IDI)等指标进一步证实,EBM 模型在风险分层准确性上的显著优势。
特征解释揭示关键生物标志物与性别 / 年龄异质性
通过全局和局部特征重要性分析,研究识别出 NT-proBNP、NPPB、PLA2G7(Lp-PLA2)、MMP12 和 GDF15 等已知心血管生物标志物,其中 GDF15 的风险曲线呈现非线性特征,高表达水平时风险趋于平稳。值得注意的是,不同性别、年龄组的模型特征存在显著差异:性别分组模型的特征重要性相关性仅为 0.13,而随机分组模型为 0.67,提示心血管疾病机制在不同人群中的异质性。通路分析显示,PI3K-Akt 信号通路和胆固醇代谢通路是动脉粥样硬化的核心贡献路径。
个体化风险预测与临床转化潜力
EBM 模型的可解释性使其能够为个体生成特异性风险图谱。例如,两名预测风险相近的患者,其关键贡献蛋白可能完全不同,提示需针对个体分子特征制定干预策略。尽管模型在他汀使用者中性能略有下降(AUROC=0.685),但在不同收入、血压和 LDL 水平亚组中保持稳定预测能力,显示出良好的临床适用性。此外,模型对不同 CVD 亚型(如缺血性中风、心肌梗死)均有可靠预测,AUROC 范围为 0.785-0.802。
研究结论与未来展望
这项研究首次将可解释机器学习与大规模蛋白质组学结合,构建了心血管疾病风险预测的新范式。EBM 模型不仅实现了对传统方法的性能超越,更通过特征解析揭示了疾病的动态分子机制,为靶向药物开发提供了新靶点(如 MSR1、PCSK9)。然而,研究局限于 UK Biobank 的欧洲裔人群,未来需在更具多样性的队列中验证模型泛化性,并探索将核心蛋白标志物转化为临床检测 panel 的可行性。随着跨组学技术与 AI 的深度融合,精准心血管医学正从愿景走向现实,有望大幅提升疾病预防的效率与公平性。