通过整合影像学和游离DNA的机器学习模型对肺结节恶性肿瘤进行风险分层分类:一项模型开发与验证研究(DECIPHER-NODL)

《The Lancet Regional Health - Western Pacific》:Risk-stratified classification of pulmonary nodule malignancy via a machine learning model integrating imaging and cell-free DNA: a model development and validation study (DECIPHER-NODL)

【字体: 时间:2025年11月17日 来源:The Lancet Regional Health - Western Pacific 8.1

编辑推荐:

  本研究整合低剂量CT放射组学与血浆cfDNA片段组学,通过深度学习构建多模态模型,显著提升肺结节恶性分类准确性和侵袭性预测能力。在1356例多中心队列中,联合模型AUC达0.950(内测)和0.966(外测),较单模态模型特异性提高至0.60,同时保持高敏感性。创新性开发侵袭性预测模型,通过整合影像与分子特征有效区分腺癌不典型增生、微创腺癌和侵袭性腺癌,为个性化治疗提供依据。

  肺部结节的准确风险分层对于早期肺癌的发现至关重要。本研究旨在通过整合低剂量计算机断层扫描(LDCT)影像组学与血浆细胞游离DNA(cfDNA)片段组学,利用机器学习模型提高恶性分类和侵袭性预测的准确性。肺癌仍是全球癌症相关死亡的主要原因之一,其较差的生存率主要归因于晚期诊断。因此,早期诊断肺癌对于提高治疗效果具有重要意义。LDCT已被广泛用于高危人群的筛查,显著降低了肺癌的死亡率。然而,尽管LDCT能够有效检测肺部结节,但在区分良性与恶性结节方面仍面临重大挑战。在国家肺癌筛查试验(NLST)中,24.2%的参与者至少有一个结节,但仅有3.6%为恶性。其他研究也报告了较高的假阳性率,其中高达20%的手术切除结节和38%的活检结节最终被判定为良性。此外,约50%-76%的检测到的结节是不确定的,这可能导致不必要的侵入性程序、患者焦虑以及增加医疗负担。同时,CT扫描的解读过程耗时、劳动密集,并且容易受到不同评分者之间的差异影响。因此,开发一种自动化且准确的分类方法,以补充现有诊断流程,评估肺部结节的恶性风险,对于风险分层和临床决策具有重要价值。

在这一背景下,基于人工智能(AI)的自动肺部结节检测和分类方法备受期待。大多数算法采用两步策略,第一步用于检测具有高特异性的结节候选者,第二步用于减少假阳性。一旦结节被检测、测量并分类,就可以根据当前的临床指南进行管理决策。对于高度可疑的结节,患者通常会接受组织采样、氟脱氧葡萄糖正电子发射断层扫描(FDG-PET)、非手术活检或手术切除;而对于不确定的结节,则常常通过连续CT监测进行随访。同时,cfDNA片段组学分析作为一种有前景的液体活检方法,提供了关于肿瘤衍生基因组改变的见解,有助于早期癌症的检测。例如,片段大小比(FSR)、拷贝数变异(CNV)、甲基化模式以及核小体定位等特征,可以提供有价值的癌症信号。然而,单个cfDNA特征往往不足以提供足够的诊断准确性,特别是在早期癌症的检测中。因此,将多个cfDNA片段组学特征与基于LDCT的图像模型相结合,展现出在提高早期肺癌检测和风险分层方面的巨大潜力。

本研究提出了一种基于机器学习(ML)的方法,通过整合LDCT扫描的影像组学特征与cfDNA片段组学特征,对肺部结节的恶性风险进行分类。我们的模型旨在解决当前诊断方法的局限性,提高准确性,减少不必要的干预,并提供一种稳健的、非侵入性的风险分层工具。通过利用多模态数据和先进的计算技术,我们的研究为人工智能辅助肺癌诊断和个性化风险评估的文献做出了贡献。

在研究设计中,我们招募了1356名参与者,包括1147名在发现队列中的患者和209名在外部验证队列中的患者。所有参与者在首次临床就诊时,在未接受系统治疗的情况下提供了血液样本。所有的DICOM图像都被记录在CD上,并发送到中央实验室进行图像特征提取。所有参与者均签署了知情同意书,并且本研究遵循赫尔辛基宣言进行,得到了广州医科大学附属第一医院伦理委员会的批准。研究排除了怀孕或哺乳期的患者、已知患有其他癌症的患者、在采血前接受过任何癌症治疗的患者,以及存在可能影响研究结果的其他条件的患者。对于具有多个结节的患者,仅选择最可疑的结节进行分析,并且所有性能指标均在患者层面进行计算。

在cfDNA的处理和低覆盖率全基因组测序(WGS)方面,我们采用了一种标准化流程,确保数据的高质量。所有血浆样本的处理均在符合临床实验室改进法案(CLIA)和美国病理学家学院(CAP)认证的实验室中进行。在发现队列和外部验证队列中,cfDNA提取和测序均在不同时间完成,以确保数据的一致性和准确性。此外,所有样本均在48小时内处理,避免了中间冻融循环,从而保持cfDNA的完整性。我们使用了特定的试剂盒和设备进行cfDNA提取和质量评估,并利用PCR-free WGS库构建了基因组数据,最终在DNBSEQ-T7平台上以5倍覆盖率进行测序。

在数据处理和分析过程中,我们采用了多种质量控制方法,以确保数据的可靠性。首先,使用Trimmomatic工具去除测序适配器和低质量的3'端碱基。其次,使用Picard工具过滤重复读数。接下来,利用Burrows-Wheeler Aligner(BWA-mem)将清洁读数映射到人类参考基因组(Hg19),并采用默认参数进行处理。对于覆盖度低于3倍的样本,由于无法进行特征调用,因此被排除在下游分析之外。

在影像模型的开发中,我们采用了深度学习(DL)算法,用于自动检测肺部结节和良性-恶性分类。为了减少不同LDCT设备之间可能产生的偏差,所有DICOM图像均被重新采样为统一的体素间距(1.25 mm × 1.0 mm × 1.0 mm),使用三线性插值处理图像数据和最近邻插值处理掩码数据。这一空间归一化确保了每个体素代表相同的物理维度,从而减少设备依赖性偏差,同时保持解剖结构的准确性。

对于结节检测,我们使用了一个预训练的3D RetinaNet模型,通过MONAI框架实现。该模型在LUNA16数据集上进行训练,并采用了一个基于3D ResNet的特征金字塔网络(FPN)结构。锚定生成器配置了三种基础形状,以适应不同大小的结节。在训练过程中,我们应用了多种数据增强策略,包括随机旋转(±30°)、翻转(每轴50%概率)、缩放(0.7–1.4倍)以及高斯噪声添加(σ = 0.1)。我们采用了Focal Loss作为分类损失函数,并使用随机梯度下降(SGD)优化器(学习率 = 1e-2,动量 = 0.9)进行参数更新。学习率调度策略包括10个周期的预热阶段,随后每隔150个周期进行逐步衰减(γ = 0.1)。每个训练批次包含四个图像块,尺寸为192 × 192 × 80,并通过混合精度计算在NVIDIA 4090 GPU上进行加速。训练过程持续300个周期,并保留了在验证集上表现最佳的模型。在模型验证阶段,我们应用了滑动窗口推理策略,窗口大小为512 × 512 × 208,重叠25%。通过非最大值抑制(NMS)方法,保留了置信度最高的前100个预测边界框。模型性能主要通过COCO评估指标进行衡量,其中IoU = 0.1时的平均精度(mAP)为主要评估标准。

所有检测到的结节均经过标准化处理,裁剪为以结节质心为中心的3D图像块,尺寸统一为32 × 32 × 32体素,以确保输入的一致性。对于恶性分类,我们构建了一个3D卷积神经网络(3D CNN)模型,使用AutoKeras平台进行训练。该模型采用二元Focal Cross熵损失函数,其中焦点因子(α = 0.75,γ = 2.0)增加了对少数类别的敏感性,并强调了难以分类的样本。模型构建通过AutoKeras框架中的神经网络架构搜索(NAS)实现,搜索配置最多200次试验,使用验证集的曲线下面积(AUC)作为主要选择指标,同时监控F1分数。批量大小固定为16,以适应GPU内存限制。最终的分类器是从200个候选架构中选择出在验证集上AUC最高的模型。

我们提取了四种与片段模式相关的cfDNA特征:拷贝数变异(CNV)、片段大小比(FSR)、基于片段的甲基化(FBM)以及突变背景和签名(MCS)。在CNV特征提取中,我们使用了ichorCNA方法,基于参考基因组将基因组分割为1 Mb的非重叠区间(共2475个)。每个区间的覆盖深度经过GC含量校正,并与软件基准进行比较,随后ichorCNA计算每个区间的log2比值。

FSR特征的提取遵循了Mathios等人的方法,将基因组分割为5 Mb的非重叠区间,共得到541个区间,其中GC含量平均≥0.3且可映射性平均≥0.9。我们过滤掉长度小于100 bp或大于220 bp的读数,并对剩余的短片段(100–150 bp)和长片段(151–220 bp)进行标准化处理,转化为均值为0,并标准差为1的z分数。然后,计算每个区间短片段与长片段的比例。

在MCS特征提取中,我们首先对原始FASTQ文件进行修剪和比对到hg19人类参考基因组,然后去除重复读数。读数随后被排序并转换为BAM文件,使用SAMtools(v1.9)进行处理。计算了平均测序深度,并排除了未配对和低质量的读数(碱基质量<30或映射质量<40),以及那些具有替代比对或模板长度超过300 bp的读数。在下游分析前,读数映射到重复或低复杂度区域的部分被屏蔽。仅保留包含至少一个与参考基因组在3个核苷酸上下文中心的不匹配的配对读数,并且插入和缺失被排除。

在聚合单碱基替换(SBS)特征之前,我们应用了严格的质量过滤,以去除种系突变和低质量噪声,从而减少假阳性。种系突变通过内部正常面板和gnomAD(v2.0)进行过滤。随后,使用一个由卷积神经网络(CNN)和多层感知器(MLP)组成的机器学习集成模型,进一步消除低质量噪声并生成高置信度的ctDNA SNV突变列表。通过将高置信度的ctDNA SNV调用与高纯度肿瘤样本和白细胞进行比较,为肺癌患者分配真实标签;而将cfDNA变异含有的片段与健康对照组在同一批次和相同设置下进行测序,为cfDNA变异含有的片段分配假标签。用于ctDNA SNV过滤金标准的样本被排除在下游分析之外,例如癌症与非癌症分类。在建模过程中,CNN模型整合了各种片段级特征,包括参考基因组序列、SBS模式、片段长度和质量指标(如读数编辑距离和读数位置)。MLP模型则对与突变相关片段重叠的区域基因组特征进行分类,例如复制时间,这与突变频率相关。CNN和MLP模型的输出在集成框架中结合,利用空间基因组背景和核苷酸级序列信息区分ctDNA SNVs与背景cfDNA伪影。

最终的突变列表用于生成MCS特征。通过结合每个SBS事件的相邻上游和下游核苷酸,将SBS分为六种类型(C > A,C > G,C > T,T > A,T > C和T > G),总共定义了96种不同的SBS序列模式(6 × 4 × 4)。每种模式的计数被标准化为平均测序深度。最终的MCS特征包括一个96种突变模式的谱型,其贡献通过使用R包“MutationalPatterns”拟合到COSMIC SBS签名(ver. 3.3.1,GRCh37)进行计算。

在FBM特征提取中,我们采用了Zhou等人的方法,通过分析cfDNA在CpG位点周围的切割模式,以反映cfDNA的甲基化状态。理论上,cfDNA在相邻胞嘧啶上的切割增加表明这些CpG位点被甲基化,而未甲基化的位点则表现出减少的切割。在Alu区域中,我们计算了8种模式的片段比率,其中5'端断裂点为CGN或NCG,并计算了CGN/NCG比率,从而得到9种特征。在非Alu区域中,FBM扩展到全基因组的CGCG位点,其中计算了10种模式的片段比率,基于两种类别:CGC和NCG(C1)或CGN和GCG(C2),以及CGC/NCG和CGN/GCG比率,贡献了额外的12种特征。总共提取了21种FBM特征,并使用全连接神经网络(FCN)进行处理,以捕捉甲基化景观中的复杂关系,利用甲基化模式与cfDNA片段的相互作用,提高癌症检测、分类和监测的精度。

在cfDNA模型的开发中,我们使用H2O AutoML包,结合了四种算法:梯度提升机(GBM)、广义线性模型(GLM)、XGBoost和神经网络。我们通过随机网格搜索方法对超参数进行调优。模型性能通过5折交叉验证进行评估,其中数据集被分为五个子集,每次迭代中四个子集用于训练,一个用于验证。此外,为了提高模型的泛化能力,我们实施了运行时限制、集成技术以及使用独立时间数据集。对于每种特征类型,我们保留了四个AUC最高的模型,并使用这些模型的平均预测得分作为最终分类输出。

在构建堆叠集成模型时,我们使用了广义线性模型(GLM)作为整合模型,利用影像模型和cfDNA模型的预测得分作为两个独立的协变量。我们采用了完全案例分析,仅在两种模式数据均可用的参与者中训练GLM。为了优化性能并减少过拟合,我们在训练集中使用了5折交叉验证。在每次迭代中,整个训练队列被分为五个子集,其中按恶性分类进行分层。每个子集依次用作测试集,而其余四个子集用于训练。对于每个训练-测试对,独立训练一个逻辑回归模型,并在相应的测试集上进行评估。五次测试集的平均性能作为交叉验证结果。一旦交叉验证完成,最终模型被锁定,并在测试集中进行评估,所有参数保持不变。

对于良性-恶性分类的组合模型预测得分,我们使用了以下公式:
Prediction Score = 1 / (1 + e^(-(-8.94769160 + 5.49825152 × Image score + 9.99599241 × cfDNA score))
其中,Image score是影像模型生成的风险得分,cfDNA score是cfDNA模型生成的风险得分。

在侵袭性预测任务中,仅包括经病理学确认的肺癌患者,以区分侵袭性与非侵袭性恶性肿瘤。侵袭性组合模型的预测得分计算方式为:
Prediction Score (Invasion) = 1 / (1 + e^(-(-12.22995711 + 14.79213838 × Image score + 4.39406150 × cfDNA score))
其中,Image score是影像模型生成的风险得分,cfDNA score是cfDNA模型生成的风险得分。

统计分析使用R软件(v4.3.2)进行,连续变量报告为均值和范围,分类变量报告为计数。使用学生t检验或Wilcoxon秩和检验比较连续变量,使用卡方检验或Fisher精确检验比较分类变量,视情况而定。受试者工作特征(ROC)分析使用“pROC”R包进行,AUC值评估区分能力,DeLong检验用于模型间的比较。在每个子组中,使用Benjamini-Hochberg方法进行多重测试校正。对于基于比例的性能指标,95%置信区间(CI)来自精确二项式分布。模型校准通过校准曲线、校准截距、校准斜率和Brier得分评估,以衡量预测概率与实际结果之间的吻合度。决策曲线分析(DCA)用于确定模型在不同阈值概率下的临床价值。净重分类改善(NRI)和积分判别改善(IDI)用于量化组合模型与影像或cfDNA单模型相比的增量预测价值。通过Bootstrap重采样估计校准、DCA、NRI和IDI的95%置信区间。最终的模型在训练集上表现最佳,并在测试集中固定所有参数进行评估。

组合模型在不同临床场景下的诊断性能进一步评估。在实际临床实践中,我们的机器学习模型为肺部结节的评估和风险分层提供了精确且自动化的解决方案,几乎不需要人工干预。对于LDCT检测到的≥5 mm的结节,可以使用我们的恶性分类模型进行分析。那些测试结果为阴性的患者可以继续进行常规年度筛查,而测试结果为阳性的患者则被建议通过侵入性诊断方法,如PET-CT和组织活检,进行进一步评估。此外,借助侵袭性预测模型,临床医生可以评估肿瘤的侵袭性,从而优化治疗计划。总体而言,这种多模态方法提供了一个逐步的风险分层框架,有助于减少不必要的程序,同时最小化漏诊的风险。

尽管这些结果令人鼓舞,但仍需承认一些局限性。首先,研究人群仅限于中国参与者,这可能限制了我们的发现对具有不同遗传、环境或人口背景的人群的普遍性。其次,外部验证队列的样本量相对较小,突显了未来研究中需要更大的、独立的队列以确认模型性能的稳健性和普遍性。第三,本研究主要集中在腺癌,限制了其在区分其他肺癌亚型中的应用。第四,尽管我们的模型能够有效分层恶性风险并预测侵袭性,但其预测长期结果如复发和总体生存率的能力仍有待评估。此外,本研究受到横断面设计的限制,并且缺乏对影像和cfDNA的纵向随访。未来的研究应扩大队列范围,包括更广泛的肿瘤亚型,并进行多中心验证,以调查模型的预后价值,包括重复影像和血液采样。最后,我们的研究中患者层面的预测基于最可疑的结节,通常是最大的结节,结合cfDNA结果。未来的研究可以探索完全自动化的策略,利用不同的方法将所有结节与cfDNA结合,以生成稳健的患者层面预测。

总之,DECIPHER-NODL研究强调了将影像和cfDNA模型整合用于提高肺癌恶性风险分层的显著潜力。通过结合结构和分子数据,模型在单特征方法上表现更优,提供了一种稳健的、非侵入性的肺部结节分类工具。整合侵袭性预测模型进一步增强了其在评估肿瘤侵袭性方面的能力,并支持个性化的治疗策略。这些发现支持了基于机器学习的风险评估工具在肺癌筛查、诊断和治疗规划中的临床价值,突显了其在精准医学未来中的重要性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号