基于机器学习整合血清蛋白标志物组提升胰腺导管腺癌早期诊断准确性的研究

【字体: 时间:2025年10月15日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对胰腺导管腺癌(PDA)早期诊断缺乏可靠生物标志物的临床挑战,开发并验证了一种基于机器学习(ML)的血清蛋白生物标志物组合。研究人员通过Luminex?多重免疫分析技术检测47种蛋白标志物,采用CatBoost等ML算法构建诊断模型,发现CA19-9、GDF15和suPAR组合显著优于传统单一标志物(所有分期AUROC 0.992 vs. 0.952;早期分期0.976 vs. 0.868)。该研究为PDA的早期无创诊断提供了新型高效工具,对改善患者预后具有重要意义。

  
胰腺导管腺癌(Pancreatic Ductal Adenocarcinoma, PDA)被称为"癌王",其五年生存率极低,主要原因是早期诊断困难。当疾病局限于胰腺时,五年生存率可达44.0%,但一旦发生区域转移或远处转移,生存率便骤降至16.2%和3.1%。手术切除是目前唯一可能治愈的方法,但仅有10-20%的患者在确诊时具备手术条件。多数患者确诊时已处于晚期,只能接受姑息化疗,生存期通常不足12个月。与之形成鲜明对比的是,早期诊断并接受辅助化疗(如改良FOLFIRINOX方案)的患者中位生存期可达54.4个月。因此,早期检测和及时干预对改善PDA患者预后至关重要。
早期诊断面临多重挑战:缺乏高敏感性和特异性的筛查标志物、早期症状模糊(如上腹痛、梗阻性黄疸、体重减轻)、疾病进展迅速以及胰腺解剖位置隐蔽。碳水化合物抗原19-9(CA19-9)是目前最常用的血清标志物,但其敏感性(79%)和特异性(82%)有限,阳性预测值较低,不适用于无症状人群的筛查。
近年来,蛋白质组学技术的发展为发现新的生物标志物提供了可能。机器学习(ML)方法能够整合多组学数据,识别最优生物标志物组合,克服传统单一标志物的局限性。本研究旨在开发一种基于ML的血清蛋白生物标志物组合,提高PDA的诊断准确性,特别是在早期阶段。
研究人员采用了多重技术方法开展本研究:利用Luminex? xMAP?免疫分析技术同时定量47种血清蛋白标志物;采用多种机器学习算法(包括CatBoost、XGBoost、LightGBM等)进行特征选择和模型构建;使用SHapley Additive exPlanations(SHAP)分析确定各标志物的重要性;通过五折交叉验证评估模型性能;最后在独立队列(Cohort B)中进行验证。研究样本来自两个独立队列:Cohort A(355人,含181例PDA患者和174名健康对照)用于模型开发,Cohort B(130人,含100例PDA患者和30名健康对照)用于独立验证。
基线特征
Cohort A中PDA患者中位年龄65.0岁,男性占50.0%。疾病分期分布为:I期10.9%,II期13.2%,III期27.6%,IV期48.3%。肿瘤最常见于胰头/钩突(43.1%),其次为胰尾(29.3%)和胰体(27.6%)。诊断时中位肿瘤大小38.9±17.1 mm,且随疾病进展显著增大。Cohort B作为独立验证队列,包含54.0% II期、17.0% III期和29.0% IV期患者,肿瘤最常见于胰头/钩突(53.0%)。
蛋白标志物的差异表达
在47种生物标志物中,35种显示PDA患者与健康对照间的显著差异表达。根据显著性水平分为:P≤0.05(G-CSF、DKK-1、MIF、Leptin、VEGF、CD44、SHBG);P≤0.01(sAXL、sEGFR、CA15-3、CEA、sFas、TNFα、Cyfra21-1);P≤0.001(Endoglin、Prolactin、Kallikrein-6、Galectin-3、Ferritin);P≤0.0001(TSP-2、suPAR、OPN、Angiopoietin-2、Follistatin、GDF15、OPG、CA19-9、IL-6、IL-8、HGF、SCF、TGFα、Mesothelin、Midkine、Myeloperoxidase)。CA19-9、GDF15、suPAR、HGF和IL-8在所有分期PDA患者中均显著高于健康对照,且CA19-9在晚期PDA中水平更高,而suPAR、GDF15、HGF和IL-8在早晚期组间无显著差异。
所有分期PDA诊断的ML模型
CatBoost模型表现最佳,AUROC达0.993,而SVM和KNN模型性能较差(AUROC分别为0.904和0.850)。集成模型(结合CatBoost、LightGBM和XGBoost)AUROC为0.993,与单独CatBoost模型相同。SHAP分析确定CA19-9为最重要标志物,其次为IL-8、GDF15、suPAR和HGF。CA19-9、GDF15和suPAR组合显著优于单独CA19-9:AUROC 0.992 vs. 0.952(p=0.001),敏感性95.4% vs. 87.4%(p<0.001),PPV 97.1% vs. 94.4%(p<0.001)。
早期PDA诊断的ML模型
CatBoost模型同样表现最佳,AUROC为0.981。LightGBM和XGBoost表现良好但假阴性率略高,SVM和KNN性能次优。SHAP分析再次确定CA19-9为最重要标志物,其次为IL-8、suPAR和GDF15。CA19-9、GDF15和suPAR组合显著优于单独CA19-9:AUROC 0.976 vs. 0.868,敏感性85.7% vs. 66.7%,PPV 90.0% vs. 84.8%。
CA19-9正常患者的亚组分析
Cohort A中14.4%的PDA患者CA19-9水平正常(≤37 U/mL)。在此亚组中,单独CA19-9诊断性能有限(AUROC 0.715),而CA19-9、GDF15和suPAR组合显著改善性能(AUROC 0.948)。
I期PDA患者的诊断性能
在仅占10.9%的I期PDA患者中,单独CA19-9诊断准确性有限(AUROC 0.724),而三标志物组合显著提升性能(AUROC 0.949)。
年龄分层分析
生物标志物组合在<65岁和≥65岁患者中均保持稳健诊断性能,AUROC均为0.990,且无年龄效应修饰证据。
性别分层分析
生物标志物组合在男性和女性患者中均保持高准确性,AUROC分别为0.996和0.987,无性别效应修饰证据。
独立队列验证
在Cohort B中,CA19-9、GDF15和suPAR组合继续显著优于单独CA19-9:所有分期AUROC 0.977 vs. 0.829,敏感性95.0% vs. 83.0%,PPV 93.1% vs. 83.8%;早期分期AUROC 0.987 vs. 0.879,敏感性96.3% vs. 81.5%,PPV 91.2% vs. 84.6%。
本研究开发的基于机器学习的血清蛋白生物标志物组合(CA19-9、GDF15和suPAR)显著提升了PDA的诊断性能,特别是在早期阶段和CA19-9正常患者中表现出色。CatBoost模型在所有测试算法中表现最佳,SHAP分析提供了模型可解释性,明确了各标志物的贡献度。
GDF15(生长分化因子15)是TGF-β超家族成员,在胎盘中表达最高,在胰腺等组织中低表达。其在PDA患者血清中水平显著高于健康对照和慢性胰腺炎患者,并通过抑制巨噬细胞活性参与免疫逃逸。多项研究显示GDF15与CA19-9联用可显著提高诊断敏感性和特异性。
suPAR(可溶性尿激酶纤溶酶原激活物受体)与uPA结合催化纤溶酶原转化为纤溶酶,促进纤维蛋白降解、肿瘤侵袭和进展。uPA和uPAR在正常组织中表达极少,在PDA等恶性肿瘤中显著过表达。血浆suPAR水平在PDA患者中显著高于慢性胰腺炎患者,与CA19-9联用可显著提高特异性。
研究的优势包括系统评估47种血清蛋白、采用ML特征选择策略、在独立队列中验证、在关键亚组中保持性能以及方法学的严谨性。局限性包括早期PDA患者数量有限、低丰度蛋白检测挑战以及队列间变异性问题。
这些发现表明,ML整合的生物标志物组合可能实现更早、更准确的PDA检测,具有重要的临床转化潜力,特别适用于高风险人群的筛查。该研究为改善PDA患者预后提供了有希望的非侵入性诊断工具,代表了胰腺癌早期检测领域的重要进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号