UKB-MDRMF:基于英国生物银行数据的多疾病风险与共病评估新框架,开启精准医疗新篇章

《Nature Communications》:

【字体: 时间:2025年04月23日 来源:Nature Communications

编辑推荐:

  为解决当前疾病研究聚焦窄、流程碎片化等问题,研究人员开展 UKB-MDRMF(Multi-Disease Risk and Multimorbidity Framework)研究。整合英国生物银行多模态数据构建框架,其预测精度高,能揭示疾病关联,为健康研究和临床应用提供新视角。

  在生命科学和健康医学领域,随着生物医学队列数据如潮水般迅速积累,本应带来探索疾病机制、风险因素和预后标志物的黄金机遇,然而现实却不尽如人意。当下的研究常常局限于特定疾病或宽泛疾病类别,犹如管中窥豹,难以全面深入地探究风险因素以及疾病之间千丝万缕的联系。不仅如此,研究过程还存在碎片化的问题,缺乏统一的标准化框架来整合多任务,导致数据利用效率低下,资源大量浪费。此外,数据预处理和模型实施所需的时间与成本,也如同沉重的枷锁,阻碍着医疗保健专业人员深入开展全面的疾病分析。在这样的困境下,开展一项能够突破这些障碍的研究迫在眉睫。
来自美国北卡罗来纳大学教堂山分校、宾夕法尼亚大学、中国科学技术大学、阿里巴巴集团等机构的研究人员,肩负着攻克难题的使命,开启了他们的探索之旅。他们整合英国生物银行(UK Biobank)的丰富多模态数据,涵盖基本信息、生活方式、测量数据、环境因素、遗传学和影像学数据等多个方面,精心打造出 UKB-MDRMF 这一全面的多疾病风险与共病评估框架。研究结果显示,UKB-MDRMF 在预测和评估 1560 种疾病的健康风险方面表现卓越,其预测精度远超单一疾病模型,成功揭示了多种风险因素与疾病之间潜在的联系,为理解健康风险因素和共病机制提供了更为广阔的视角。该研究成果发表于《Nature Communications》,为该领域的发展注入了新的活力。

研究人员为开展此项研究,运用了多种关键技术方法。在数据处理阶段,针对复杂多样的数据,进行了细致的数据筛选和清洗,依据数据特点采用不同的编码技术,对缺失数据也进行了合理处理。同时,将多源数据整合,并划分训练、验证和测试集。在模型构建环节,运用多种机器学习算法和深度学习技术,如逻辑回归(Logistic Regression)、随机森林(Random Forest)、XGBoost、LightGBM、全连接神经网络(FCNN)等进行疾病预测,采用 Cox 比例风险模型(CoxPH)、DeepSurv 等进行风险评估,还利用 SHAP(SHapley Additive exPlanations)进行风险因素分析。此外,使用了 All of Us 数据集进行多中心验证。

下面让我们深入了解一下研究的具体成果:

  • 框架构建流程:研究人员为英国生物银行数据量身定制了一套全面标准化的流程,构建 UKB-MDRMF 框架。首先是数据预处理,从 7228 种表型中筛选出 542 种构建预测变量,对数据进行清洗、编码和缺失值处理,将多种来源的疾病数据整合并转化为 1560 种 Phecodes 作为响应变量,最后进行时间对齐。之后进入模型构建阶段,分别开展疾病预测和风险评估,最终基于此框架进行多种应用分析。
  • 模型性能评估:在疾病预测任务中,对比多种模型发现,添加测量数据后 FCNN 模型表现最佳,总体中位数 AUC(受试者工作特征曲线下面积)超 0.7。对于罕见病,CATI 和 FCNN 的 AUC 较高;常见病中,CATI、FCNN 和逻辑回归表现良好。联合预测所有疾病类别的 AUC 与单疾病预测相当。在风险评估方面,DeepSurv 模型表现出色,其 C-index(一致性指数)中位数在 0.7 左右或更高,联合预测的 C-index 值在所有疾病类型中均显著高于单疾病模型。而且,几乎所有疾病类型在逐步添加更多数据类别后,疾病预测和生存模型的性能都有所提升。
  • 多疾病预测和风险评估基线:UKB-MDRMF 为多疾病预测和风险评估提供了可靠的基线。与其他方法相比,UKB-MDRMF 利用多种数据类型,在特定疾病的预测性能上更胜一筹。
  • 重要风险因素分析:借助 SHAP 等可解释工具,研究人员发现不同数据类别中的变量对不同疾病的影响各异。例如,基本信息对妊娠、血管和生殖系统疾病预测作用较大;生活方式变量对妊娠和皮质神经疾病意义重大;测量变量影响生殖系统疾病;环境变量影响上呼吸道疾病等。同时,还明确了年龄、心理健康和肥胖相关变量是多种疾病风险的关键贡献因素。
  • 共病和疾病风险趋势分析:通过挖掘 UKB-MDRMF 的潜力,研究人员分析了疾病共病和风险趋势。利用神经网络模型确定疾病间的相关性,发现多种疾病存在共病模式,如生殖系统疾病、精神疾病等各自聚类。并且,随着年龄增长,消化和循环系统疾病风险增加,生殖系统疾病风险则相对稳定。
  • 多中心验证:利用 All of Us 数据集进行验证,重新训练 FCNN 和 DeepSurv 模型后发现,虽然引入新变量类别提升了预测准确性,但提升幅度较小。不过,联合建模仍能获得较高的预测 AUC 和生存 C-index 值,再次证明了 UKB-MDRMF 的稳健性和适用性。

综合来看,UKB-MDRMF 无疑是该领域的一项重大突破。它不仅实现了更高的预测准确性,还成功揭示了风险因素与疾病、疾病与疾病之间潜在的关联。其简洁易用的特性,使其能够广泛应用于各种研究和临床场景。通过深入分析数据缺失机制,该框架有效提升了模型性能,减少了数据偏差。同时,它还能综合评估多种风险评估模型,为不同医学背景的用户提供了选择合适模型的依据。然而,UKB-MDRMF 也并非十全十美,其主要基于英国生物银行数据,可能存在人群特异性偏差,且模型未考虑基线前疾病和竞争风险。未来,还需进一步提升其泛化能力,整合实时数据,更深入地刻画疾病间的相互作用,并加强多中心合作,从而充分发挥 UKB-MDRMF 在现实医疗环境中的临床价值,为人类健康事业贡献更大的力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号