血浆蛋白质组学模型实现克罗恩病超早期预测:提前16年识别高风险人群

《Nature Communications》:Plasma proteomic profiles identify biomarkers predicting Crohn’s disease up to 16 years before onset

【字体: 时间:2025年12月13日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对克罗恩病(CD)早期预测工具缺乏的临床难题,通过对52,896名UK Biobank参与者进行大规模血浆蛋白质组学分析,开发出基于9个关键蛋白(CD274、CHI3L1等)的机器学习预测模型。该模型在独立验证队列中展现出卓越的长期预测性能(AUC 0.76),可提前16年识别CD高风险个体,为疾病早期筛查和干预提供了创新性策略。

  
在消化系统疾病领域,克罗恩病(Crohn's disease, CD)一直是一个棘手的难题。作为炎症性肠病(Inflammatory Bowel Disease, IBD)的主要类型之一,CD是一种病因不明的慢性、难治性肠道疾病。全球范围内,CD的发病率持续攀升,最高达到每10万人中29.3例,已成为重要的公共卫生挑战。这种疾病主要侵袭青年人,严重损害他们的职业前景和生活质量。
更令人担忧的是,CD在临床前期往往缺乏一致性的体征和症状,导致诊断常常延迟数月甚至数年。而目前,医学界尚未找到CD的根治方法。因此,建立能够预测个体未来是否会发展为CD的方法已成为公共卫生的迫切需求,这对高危人群的早期诊断和及时干预至关重要。然而,可靠的早期识别工具仍然缺乏。
近年来,研究人员逐渐认识到CD发病前存在一个关键的临床前期阶段,这一阶段以肠道免疫系统变化、肠道微生物组组成改变、肠道通透性增加和临床参数变化为特征。理解这一阶段对预测疾病具有重要意义。虽然已有研究尝试利用血浆抗体、肠道微生物组组成或血液学生化参数来预测CD,但基于这些标志物的预测模型表现不佳。
近期,美国的PREDICTS研究采用巢式病例对照设计,发现一组51个蛋白质生物标志物可以在5年内预测CD。尽管准确性较高,但该研究缺乏长期数据,无法评估蛋白质在超过5年前预测CD的能力。同时,该研究样本量小,且研究对象主要为活跃的男性军事人员,限制了其普遍适用性。
在这样的背景下,广东人民医院消化内科陈浩教授团队在《Nature Communications》上发表了一项突破性研究,他们利用大规模前瞻性队列和长达16年的随访数据,建立了基于蛋白质组学的模型,能够非侵入性地预测未来的CD发病,最远可提前16年。
研究方法概述
本研究主要利用了英国生物样本库(UK Biobank, UKB)中52,896名参与者的数据,这些参与者在入组时均未患有CD,中位随访时间达13.6年。研究人员使用Olink Explore 3072邻近延伸分析(Proximity Extension Assay, PEA)技术,检测了2,736种血浆蛋白质的表达水平。研究团队将参与者按招募中心分为训练队列(39,634人)和测试队列(13,262人),并在EPIC-Norfolk研究(2,944人)和中国南方队列(74人)中进行外部验证。
通过Cox比例风险模型评估每种蛋白质与CD发病的关联,然后使用四种机器学习算法(LightGBM、XGBoost、随机森林和Extra Trees)开发预测模型,并采用SHAP(Shapley Additive Explanations)值评估特征重要性。模型性能通过受试者工作特征曲线下面积(Area Under the Curve, AUC)进行评估。
蛋白质与CD发病的关联分析
在分析的2,736种蛋白质中,有44种与CD发病显著相关。经过对年龄、性别、种族等多因素调整后,35种蛋白质的关联仍然显著。其中32种蛋白质(如GDF15、IL6、CHI3L1等)与CD发病风险呈正相关,3种蛋白质(GSN、ITGA11、ITGAV)呈负相关。
值得注意的是,GDF15(风险比HR 2.16)和IL6(HR 1.51)与CD的关联最为显著。通路富集分析显示,这些重要的CD相关蛋白质富集在免疫和炎症反应、细胞外空间、细胞因子-细胞因子受体相互作用和TNF信号通路等生物学过程中。
蛋白质重要性排序和模型构建
研究人员进一步根据蛋白质在预测CD中的重要性进行排序,发现CD274、CHI3L1和REG1B在蛋白质重要性排序中位列前三。通过顺序前向选择策略,最终选定了9种关键蛋白质(CD274、CHI3L1、REG1B、ITGAV、PRSS8、ITGA11、GDF15、DEFA1_DEFA1B和IL6)用于CD预测。
SHAP摘要图直观展示了这些选定蛋白质对CD风险预测的影响。例如,CD274水平升高(红色)的参与者发展为CD的可能性更高,而ITGA11和ITGAV则呈现相反趋势,较低的值与较高的预测风险相关。
预测模型的性能验证
基于9种蛋白质面板的预测模型在所有四种机器学习算法中均表现出相当的预测性能。在地理分布独立的UKB测试集中,AUC值介于0.71至0.73之间(75/25分割)和0.71至0.77之间(80/20分割)。在EPIC-Norfolk研究中的外部验证显示AUC值介于0.70至0.76之间。在中国南方横断面队列中,AUC值介于0.76至0.79之间,表明该模型能够有效区分CD患者和对照。
特别值得注意的是,XGBoost模型在中国南方队列中获得了最高的AUC(0.79),在EPIC-Norfolk中表现良好(0.73),在UKB测试集中为第二佳(75/25分割时为0.72;80/20分割时为0.76),表明其在不同独立队列中具有强大的泛化能力。
与基于人口统计学、血清标志物和CD多基因风险评分(Polygenic Risk Score, PRS)的临床风险模型相比,9蛋白质模型在所有四种算法中均表现出更优的预测性能。当将CD的PRS与蛋白质面板结合时,AUC显著提高至0.74,加入所有临床风险因素后进一步增加至0.78。
研究人员还将PREDICTS研究中确定的六种最佳蛋白质应用于UKB数据,并与他们的模型进行比较。结果显示,PREDICTS模型的预测性能(AUC范围:0.64-0.69)显著低于他们的蛋白质模型,无论是否与临床风险因素结合。
敏感性分析和风险分层
敏感性分析结果保持一致。在不同时间点,蛋白质模型仍然显示出比临床风险模型更高的预测价值。当按年龄、性别和种族1:1匹配抽样对照组时,9蛋白质模型在预测全时期CD发病方面的AUC为0.71,加入所有临床风险因素后增加至0.76。排除随访前两年内发展为CD的个体后,结果仍然一致。
为了进一步评估9蛋白质模型如何对CD发病风险进行分层,研究人员使用最佳概率截断值(0.484)将参与者分为高风险和低风险亚组。Kaplan-Meier生存曲线显示,分层亚组之间存在明显的累积风险模式。在训练集和测试集中,高风险亚组的参与者发展为CD的风险显著高于低风险亚组,风险比分别为11.6和4.23。
蛋白质水平与CD相关表型的临床关联
为了探讨CD与蛋白质之间的关联是否受到CD可改变风险因素的影响,研究人员检查了9种蛋白质与CD相关表型之间的关系。肥胖、缺乏运动、吸烟、不良饮食和抑郁与所有9种蛋白质显著相关。具体而言,CD274、CHI3L1、REG1B、PRSS8、GDF15、DEFA1_DEFA1B和IL6与这些CD的可改变风险因素呈正相关,而ITGAV和ITGA11呈负相关。
研究结论与意义
这项涉及超过52,000名参与者的研究,通过大规模蛋白质组学分析和四种机器学习算法,生成了一个9蛋白质模型,能够非侵入性地预测未来的CD发病。蛋白质组学模型(AUC 0.76)在地理分布独立的UKB测试集中显著优于基于人口统计学、血清生物标志物和遗传学的临床风险模型。该模型在EPIC-Norfolk中进一步外部验证(AUC 0.73),并在中国南方横断面队列中展现出对CD的高判别能力(AUC 0.79)。
将蛋白质与临床风险数据结合,能够在诊断前最长16年内实现更好的预测(AUC 0.78)。被蛋白质模型识别为高风险的个体发展为CD的可能性高出4.23倍。CD相关蛋白质富集于炎症和免疫反应、细胞因子-细胞因子受体相互作用和TNF信号通路等途径,表明这些生物过程在CD临床诊断前很久就被激活了。
这项研究的重大意义在于其长期随访和大规模、高通量的蛋白质组学分析,使研究人员能够识别血浆生物标志物,并建立基于蛋白质组学的模型,在诊断前最长16年实现理想的CD预测。值得注意的是,蛋白质模型的预测性能在独立队列中得到了外部验证的确认。
然而,在解释这些结果时仍需考虑某些局限性。UKB虽然提供了循环蛋白质的广泛评估,但并未涵盖整个人类蛋白质组,并且在测量分泌蛋白质的选择上可能存在偏差。几个临床公认的标志物,如血清抗菌抗体或肠道微生物组,在UKB中不可用,因此无法与蛋白质组学数据进行比较。此外,该模型基于老年CD人群(诊断时平均年龄66岁),这种以老年发病为主的情况可能限制研究结果在更广泛年龄范围的CD发病病例中的普适性。
尽管存在这些局限性,但这项研究为CD的早期预测提供了重要突破。通过建立可靠的预测模型,研究人员为高危人群的早期筛查和干预策略奠定了基础,有望在未来改变CD的临床管理方式,实现真正意义上的早期诊断和预防。
随着进一步的研究验证和模型优化,这种基于蛋白质组学的预测策略有望成为CD筛查的重要工具,特别适用于有家族史或其他风险因素的高危人群。此外,这些发现为了解CD发病前的生物学过程提供了新见解,为开发新的治疗靶点指明了方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号