基于游离 DNA 片段组学的胰腺癌早期检测模型的开发与验证:开启癌症早筛新征程

【字体: 时间:2025年05月03日 来源:Journal of Clinical Oncology 42.1

编辑推荐:

  本文聚焦胰腺癌早期检测难题,通过分析游离 DNA(cfDNA)片段组学特征,结合机器学习构建模型。该模型在多队列中展现高准确性,能有效区分胰腺癌患者与健康人,有望改善胰腺癌预后,为临床早期诊断带来新希望。

  

胰腺癌早期检测的严峻现状与研究契机


胰腺癌,作为恶性肿瘤中的 “杀手”,预后极差,5 年生存率仅 12%。在中国,其发病率和死亡率逐年攀升,从 1990 - 2019 年,二者均增长超四倍。多数患者确诊时已至晚期,手术机会不足 20% 。不过,胰腺癌从癌基因 KRAS 首次突变到出现可识别病变约需 15 年,这为早期诊断提供了时间窗口。若能提高早期诊断率,有望显著改善患者预后。

传统的胰腺癌筛查手段,如对比增强计算机断层扫描、磁共振成像、内镜超声检查等,存在侵入性、高成本、有电离辐射等缺点。生化标志物 CA199 的特异性(82%)和敏感性(79%)也不尽人意,在黄疸和 Lewis 抗原阴性患者中表现更差。近年来,液体活检因无创性逐渐应用于胰腺癌检测,其中 cfDNA 相关的早期诊断技术相对成熟,但基于突变和甲基化的检测方法在胰腺癌中的诊断敏感性有限,且对检测深度要求高、成本高昂。而基于片段组学的检测技术在肺癌、肝癌等多种肿瘤中展现出良好的敏感性和特异性,且低深度全基因组测序(WGS)即可满足检测需求。目前,针对胰腺癌的大样本 cfDNA 片段组学研究尚缺,早期诊断测试更是空白,本研究正是在此背景下展开。

研究方法:多队列构建与技术应用


  1. 患者招募:研究于 2019 年 12 月至 2022 年 11 月在南京医科大学第一附属医院进行,共纳入 647 名患者。前瞻性收集每位参与者的血浆样本用于浅层 WGS,且样本均在手术前采集。经质量控制(QC)后,333 人被纳入训练队列(167 名健康参与者和 166 名未经治疗的胰腺导管腺癌(PDAC)患者)用于构建模型。模型构建完成后,用 223 名参与者(111 名健康对照和 112 名未经治疗的 PDAC 患者)的血浆样本进行验证。此外,还纳入 67 名胰腺良性囊性肿瘤患者(包括导管内乳头状黏液性肿瘤(IPMN)、黏液性囊性肿瘤(MCN)和浆液性囊性肿瘤(SCN)),以及来自两个中心的外部队列和一个独立的早期验证队列(包含 PDAC 患者、良性胰腺疾病患者和健康对照),还有 20 名无症状胰腺囊性病变(PCL)患者进行随访观察。所有队列均按性别和年龄匹配,研究获医院伦理委员会批准,参与者均签署知情同意书。
  2. cfDNA 提取与测序:采用 KAPA Hyper Prep Kit 从每个样本中提取 5 - 10 ng cfDNA 构建无 PCR 的 WGS 文库,文库构建在 Biomek 自动化平台上进行,并用 KAPA SYBR FAST qPCR Master Mix 进行定量。随后在 NovaSeq 平台上进行配对末端测序,测序深度为 5×,以减少覆盖度差异带来的偏差。还用原始测序深度或下采样至 4×、3×、2×、1× 和 0.5× 的 WGS 数据验证优化后的模型。
  3. cfDNA 片段组学特征提取:原始测序数据经 Trimmomatic 修剪,去除 PCR 重复后,用 Burrows - Wheeler Aligner 将合格读数映射到人类参考基因组(GRCh37/UCSC hg19)。提取拷贝数变异(CNV)、片段大小比(FSR)、突变背景和突变特征(MCMS)、基于片段组学的甲基化分析(FRAGMA)这四种片段化特征,用于优化参数和构建模型。
  4. 模型稳定性评估:对血浆进行 WGS,将 WGS 数据随机降至 5×、4×、3×、2×、1× 和 0.5× 的覆盖深度,每个深度重复测量 20 次。将这些数据应用于训练好的模型,根据验证数据集设定的阈值判断癌症和非癌症状态,以特定测序深度下 20 次重复检测中识别癌症的百分比作为敏感性指标,衡量模型性能。
  5. 建模评估阶段转移带来的死亡率获益:用先前发表的方法构建拦截模型,该模型可计算预测模型拦截导致的阶段转移,从而估计不同阶段拦截对死亡率的改善情况。以 SEER 数据库中胰腺癌的流行病学和生存数据为参考,用 R 编程语言和 tidyverse 包中的算法估计早期诊断患者的生存获益。
  6. 统计分析:运用综合计算框架进行统计分析。通过 pROC 包(版本 1.17.0.1)进行受试者工作特征(ROC)曲线分析,计算真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)等诊断指标。在 R 统计环境(版本 4.0.3)中,用 epiR 包(版本 2.0.19)计算敏感性(TP/[TP + FN])、特异性(TN/[TN + FP])和总体准确率([TP + TN]/[TP + FP + TN + FN])及其 95% 置信区间(CI)。用 GraphPad Prism 中的 Fisher 精确检验和 R 中的 Wilcoxon 秩和检验及符号秩检验进行比较分析。

研究结果:模型展现强大诊断效能


  1. 患者特征:研究共纳入 1167 名参与者,采集血浆样本进行约 5× 浅层 WGS。经 QC 后,556 名参与者分为训练集(166 名患者和 167 名对照)和验证集(112 名患者和 111 名对照),验证集还包含 IPMN、MCN 和 SCN 患者。此外还有外部队列和早期验证队列。各队列参与者的人口统计学和特征一致,癌症患者多为非转移性疾病。
  2. PDAC 患者 cfDNA 片段组学特征:对训练队列进行浅层 WGS 后,比较胰腺癌患者和健康对照的 cfDNA 片段组学特征。PDAC 患者的 CNV 谱在拷贝数增减区域与健康对照存在明显差异,如 6q 和 18q 染色体臂水平缺失。PDAC 患者 cfDNA 中的小片段分布比健康人更多,癌症患者在单 CG 位点和 CGCG 位点的甲基化水平显著降低。在突变特征方面,PDAC 患者中检测到的单碱基替换(SBS)中,SBS2 和 SBS13 的比例显著升高,表明 APOBEC 活性增加;同时,SBS3、SBS30 和 SBS44 等与 DNA 损伤修复相关的突变特征比例也更高,且与聚合酶 ε 外切酶结构域(SBS10a 和 SBS10d)和激活诱导胞苷脱氨酶(SBS84)相关的突变患病率在两组间差异显著。主成分分析进一步证实 PDAC 患者和健康个体的四种特征差异明显。
  3. cfDNA 片段组学特征与机器学习算法评估:评估 cfDNA 特征和机器学习算法组合的 AUC 值,发现结合 FSR、CNV、MCMS 和 FragMa 四种特征的堆叠模型,AUC 值始终高于单一算法模型。由此开发的堆叠集成模型(癌症 vs 健康模型)将四种 cfDNA 片段组学特征与四种机器学习算法相结合,预测准确性显著提高,AUC 达到 0.992(95% CI,0.986 - 0.998),优于单个片段组学特征模型。经 10 倍交叉验证,该模型性能良好,被选作主要预测工具。
  4. 基于 cfDNA 片段组学特征模型的验证:在独立验证队列(112 名 PDAC 患者和 111 名非癌症参与者)中评估堆叠集成模型的稳定性。该队列中癌症和非癌症组的年龄和性别分布一致。验证数据集中,预测模型的 AUC 为 0.987(95% CI,0.974 - 0.999)。以 0.53 为截断值,模型能有效区分 PDAC 患者和健康个体,敏感性达 97.3%,特异性为 92.8%,性能优于 CA199 标记物。在额外的独立合并队列中,模型的 AUC 为 0.983,区分 PDAC 患者和健康个体的敏感性为 89.8%,特异性为 95.5%。在不同亚组中,如南京早期队列、上海队列和西安队列,模型也展现出较高的敏感性和特异性。癌症评分在验证队列中随癌症分期增加而升高。在良性胰腺疾病患者中评估模型诊断效率,发现从健康个体到癌症患者评分呈上升趋势,但因囊性肿瘤患者包含有症状或高危因素需手术的病例,癌症患者和囊性肿瘤患者的评分分布存在重叠。纳入 20 名无症状 PCL 患者进一步验证,模型对 PCL / 胰腺炎患者的特异性达到 100%。
  5. cfDNA 片段组学特征与临床特征的关联:研究 cfDNA 片段组学特征与临床特征的关联,发现模型化的 cfDNA 片段组学特征与患者年龄、性别等人口统计学特征无相关性。在验证队列中,胰头癌的预测评分显著高于胰体尾癌,但因样本量小,高分化肿瘤未达到统计学显著的 P 值。
  6. 堆叠模型在 PDAC 亚组患者中的诊断效率:为评估堆叠模型在相对早期 PDAC 亚组患者中的诊断效率,绘制了包括糖类抗原 19 - 9(CA19 - 9)正常、总胆红素正常、T1N0 期和不同可切除性等亚组的 ROC 曲线。结果显示,堆叠模型的诊断效率显著优于 CA199,在所有 PDAC 亚组中的 AUC 值均高于 0.900。
  7. 建模评估特定阶段癌症发病率的变化:用拦截模型估计使用预测模型时的阶段转移和可能的生存获益。胰腺癌发病率为每 10 万人 32 例,多在 IV 期确诊。早期筛查模型干预后,多数胰腺癌可在 I 期筛查出,早期诊断带来更高的 5 年生存率,保守估计可挽救 27% 的生命。
  8. 预测模型的分析有效性评估:通过逐步降低测序深度评估预测模型的稳健性。当 WGS 覆盖度降至 4×、3×、2×、1× 和 0.5× 时,训练和验证队列的 AUC 值始终保持较高水平。虽在低深度时 AUC 略有下降,但 1× 覆盖度的结果仍适用于临床应用。

研究讨论:创新与局限并存


本研究是首个聚焦胰腺癌患者 cfDNA 片段组学的大规模研究,旨在通过构建堆叠集成机器学习模型,提高早期 PDAC 检测的准确性和有效性。cfDNA 片段组学的发展为癌症早期诊断开辟了新途径,肿瘤来源的 cfDNA 片段特征与正常组织差异显著,能在一定程度反映染色质结构和肿瘤表观遗传学变化。基于 cfDNA 片段组学的机器学习模型在多种癌症早期诊断中表现良好,且因其基于低深度 WGS,具有经济成本优势,更适合癌症早期筛查。本研究将 cfDNA 片段化特征整合到堆叠集成机器学习模型中,该集成模型作为元学习器,能优化组合多个基础模型的预测结果,在多项研究中已证实其有效性 。本模型的出色表现不仅凸显了 cfDNA 片段化在癌症检测中的巨大潜力,还推动了诊断方法的进步。

与以往研究相比,Cristiano 等人仅纳入少量 PDAC 患者(n = 34)进行泛癌 cfDNA 片段组学队列研究,而本研究对 cfDNA 基因组进行了大规模描述性研究,发现 PDAC 患者的 cfDNA 具有与健康个体不同的片段组学特征,包括突变特征、甲基化水平和 CNVs。通过全面评估现有 cfDNA 特征,并将诊断能力强的特征纳入预测模型,本模型的准确性、可重复性和可解释性均有所提高,适用于生物信息学应用。堆叠方法整合了单个基础模型的预测,增强了预测能力,在识别早期 PDAC 患者方面表现更优,对 CA19 - 9 阴性、非黄疸和肿瘤较小的患者也能有效检测。

在临床应用方面,本模型在浅层 WGS 下性能良好,即使 WGS 数据深度降至 0.5×,仍能保持较高的敏感性和特异性,且检测稳健性有助于降低测序成本。堆叠集成模型在区分胰腺癌患者和健康个体方面优于以往模型,在不同分期均能可靠检测。此外,该模型还有潜力区分恶性风险较高和较低的囊性肿瘤患者,但需进一步扩大囊性肿瘤患者范围进行模型构建研究,以更好地对患者进行分类。

然而,本研究也存在一些局限性。模型基于中国人群的 PDAC 患者开发,未来需纳入不同种族背景的外部队列进行拓展研究。良性肿瘤数据集相对较小,需要更广泛的验证来确认模型区分癌性和良性囊性肿瘤的准确性。虽然 cfDNA 片段组学在 PDAC 检测中展现出高敏感性,但其涉及的基本机制仍未完全阐明。

总体而言,本研究构建的模型通过整合片段组学特征和机器学习,能有效识别早期 PDAC,为改善 PDAC 早期筛查、降低死亡率带来了新的希望,有望在未来临床实践中发挥重要作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号