综述:机器学习对非小细胞肺癌(NSCLC)中 PD-L1 表达的预测价值:系统综述和荟萃分析

【字体: 时间:2025年05月23日 来源:World Journal of Surgical Oncology 2.4

编辑推荐:

  本综述聚焦机器学习(ML)在预测非小细胞肺癌(NSCLC)患者程序性死亡配体 - 1(PD-L1)表达中的应用。纳入 30 项研究(12,898 例患者),发现基于影像组学和病理组学的 ML 模型准确性较高,尤其影像组学具无创优势,未来有望开发基于医学影像的深度学习(DL)方法。

  

研究背景与目的


肺癌是全球第二大常见癌症,非小细胞肺癌(NSCLC)占 80%-85%。免疫治疗的出现改变了晚期 NSCLC 的治疗模式,PD-L1 表达水平是预测 NSCLC 患者对免疫治疗反应的重要指标。目前,免疫组织化学(IHC)检测是预测 PD-L1 表达的常用方法,但该方法具有侵入性、耗时长且无法动态反映 PD-L1 表达。随着人工智能(AI)的发展,机器学习(ML)在癌症诊疗中的效率日益得到验证,一些研究尝试将 ML 应用于预测肺癌中的 PD-L1 表达,但 ML 的应用价值尚无定论。因此,本研究旨在通过系统综述和荟萃分析评估 ML 对 NSCLC 中 PD-L1 表达的预测价值,为该领域人工智能的发展提供循证依据。

研究方法


研究注册与检索策略


本系统综述和荟萃分析遵循系统评价和荟萃分析的首选报告项目(PRISMA),并在 PROSPERO 注册(CRD42024504947)。系统检索 Embase、PubMed、Web of Science 和 Cochrane Library 等数据库中从建库至 2023 年 12 月 14 日的英文研究,使用医学主题词结合自由词的方式,检索词包括 “肺癌”“机器学习” 和 “程序性死亡配体 1” 等。

纳入与排除标准


纳入标准:组织学诊断为原发性 NSCLC 的患者;队列研究、横断面研究、病例对照研究和临床试验;建立 ML 模型用于预测 PD-L1 表达;英文研究。排除标准:荟萃分析、专家意见、指南和综述等;未建立完整 ML 模型,仅进行差异因素分析;缺乏影响 ML 模型预测准确性的结果指标,如受试者工作特征(ROC)、混淆矩阵、c 统计量、准确性、校准曲线、诊断四格表、敏感性、C-index、特异性、回收率和 F1 分数等;样本量过小(<20 例)。

研究选择与数据提取


将检索到的文献导入 EndNote,剔除重复文献后,通过阅读标题和摘要筛选研究,再通过阅读全文最终确定纳入研究。在数据提取前创建电子表格,记录第一作者、发表年份、国家、患者来源、肿瘤分期、PD-L1 表达阈值、影像组学来源、感兴趣区域(ROI)分割软件、所有结局事件病例数、总病例数、训练集和验证集病例数、验证集生成方法、模型类型和建模变量等数据。由两名研究者(TZ 和 XXL)独立负责筛选所有研究和提取数据,若有分歧,可咨询第三名研究者解决。

研究偏倚风险评估


采用 PROBAST 评估纳入原始研究的偏倚风险(RoB),该工具反映总体偏倚风险和总体适用性,包含参与者(两个具体问题)、预测因子(三个具体问题)、结局(六个具体问题)和统计分析(九个具体问题)四个领域,每个问题有三个回答(是 / 可能是,否 / 可能否,无信息)。若一个领域中至少有一个问题的回答为 “否” 或 “可能否”,则该领域的偏倚风险为高;若所有问题的回答均为 “是” 或 “可能是”,则偏倚风险为低。只有当所有领域的偏倚风险均为低时,总体偏倚风险才被视为低;若至少有一个领域的偏倚风险为高,则总体偏倚风险较高。由两名研究者独立负责通过 PROBAST 评估 RoB 并交叉核对,若有分歧,可咨询第三名研究者解决。

荟萃分析方法


对评估 ML 模型整体准确性的 C-index 进行荟萃分析。若某些原始研究中 C-index 无 95% 置信区间(CI)和标准误,参考 Debray TP 等的研究估计标准误。由于 ML 模型的变量和参数存在差异,采用随机效应模型进行荟萃分析。此外,使用诊断四格表通过双变量混合效应模型对敏感性和特异性进行荟萃分析,但大多数原始研究未报告诊断四格表,需结合特异性、敏感性、精度和病例数计算。使用 Stata15.1 进行荟萃分析。

研究结果


研究选择


共从四个数据库检索到 1578 项研究,其中 593 项为重复出版物,阅读标题和摘要后排除 951 项,阅读剩余 34 项研究的全文后,排除 4 项缺乏结局指标的研究,最终纳入 30 项研究。

研究特征


纳入的 30 项研究发表于 2019-2023 年,涉及 12,898 例 NSCLC 患者,均为病例对照研究,其中 6 项为多中心研究。关于肿瘤分期,患者大多为 I-IV 期,1 项研究为早期 I-II 期,7 项为中晚期 III-IV 期。PD-L1 表达阈值≥1% 的研究有 12 项,≥50% 的研究有 4 项,同时涉及≥1% 和≥50% 的研究有 14 项。建模使用影像组学和病理组学衍生变量,其中 23 项研究基于影像组学模型,7 项研究基于病理组学模型。在基于影像组学模型的研究中,7 项研究的数据来自正电子发射断层扫描 / 计算机断层扫描(PET/CT),15 项研究来自计算机断层扫描(CT),1 项研究来自磁共振成像(MRI)。验证集通过外部验证生成的研究有 1 项,通过随机抽样生成的研究有 17 项。

偏倚风险评估


所有纳入研究均为病例对照研究,但 27 个模型采用了深度学习(DL)。由于病例对照研究对 DL 的影响较小,病例对照研究中的 DL 模型被评估为低 RoB。病例对照研究可能给传统 ML 模型的评估带来一定偏倚,因此传统 ML 模型被评估为高 RoB。PD-L1 表达的预测主要依赖 IHC,这些建模变量对结果无影响,因此 RoB 较低。在统计分析中,40 个模型的每变量事件数(EPV)≥20 导致高 RoB。另外 78 个模型的 EPV 无法计算,但使用了影像组学或病理组学特征,因此 RoB 无法计算,被评估为不明确;37 个模型未报告是否进行过拟合评估,因此 RoB 为高。

荟萃分析结果


  • 二分类结果:在验证集中,对于 PD-L1≥1% 的二分类,基于临床特征、影像组学、影像组学 + 临床特征和病理组学的 ML 模型的合并 C-index 分别为 0.646(95% CI:0.587–0.705)、0.799(95% CI:0.782–0.817)、0.806(95% CI:0.753–0.858)和 0.800(95% CI:0.717–0.883),合并敏感性和特异性分别为 0.62(95% CI:0.45–0.77)和 0.62(95% CI:0.55–0.69)、0.75(95% CI:0.70–0.79)和 0.78(95% CI:0.73–0.83)、0.75(95% CI:0.69–0.80)和 0.76(95% CI:0.67–0.84)、0.76–0.95 和 0.76–0.97。对于 PD-L1≥50% 的二分类,基于临床特征、影像组学和影像组学 + 临床特征的 ML 模型的合并 C-index 分别为 0.649(95% CI:0.553–0.744)、0.771(95% CI:0.728–0.814)和 0.826(95% CI:0.783–0.869),合并敏感性和特异性分别为 0.73(95% CI:0.59–0.83)和 0.59(95% CI:0.46–0.70)、0.75(95% CI:0.70–0.78)和 0.72(95% CI:0.66–0.78)、0.80–0.89 和 0.50–0.72。病理组学 ML 模型的合并敏感性和特异性分别为 0.75 和 0.99。
  • 多分类结果:5 项研究描述了多分类,主要识别 PD-L1 阴性、PD-L1=1-49% 和 PD-L1≥50%。荟萃分析结果显示,对 PD-L1 阴性、PD-L1=1-49% 和 PD-L1≥50% 的预测准确率分别为 74.4%(95% CI:46.4–94.7)、85.3%(95% CI:71.9–95.2)和 85.7%(95% CI:81.6–89.4)。

讨论


本系统综述表明,影像组学和病理组学分析是预测 PD-L1 表达的主要方法。在影像组学中,医学图像主要来自 CT、PET/CT 和 MRI,尤其是前两者,其良好的预测能力已得到验证。临床特征的重要性也不容忽视,在验证集中,对于 PD-L1≥1% 的二分类,影像组学和影像组学 + 临床特征的 ML 模型的合并 C-index 分别为 0.799 和 0.806,合并敏感性和特异性分别为 0.75 和 0.78、0.75 和 0.76。与以往研究相比,本研究考虑了临床特征对影像组学模型预测能力的影响,发现 PET/CT 与临床特征的结合产生了更好的 C-index。

在临床实践中,建模变量是提高 ML 模型预测价值的关键因素。本研究发现,用于预测 NSCLC 中 PD-L1 表达的 ML 建模变量主要包括临床特征、影像组学、影像组学 + 临床特征和病理组学。基于影像组学的 ML 作为一种无创预测手段,在肺癌预测领域引起了广泛关注,并且在预测 NSCLC 中 PD-L1 表达方面表现出较高的准确性。相比之下,基于病理组学的 ML 是一种有创预测手段,可能具有良好的准确性,但仍有待进一步提高。仅基于临床特征的 ML 对 PD-L1 表达的预测价值有限,因为仅通过常见临床特征很难预测 PD-L1 表达。

对于预测 NSCLC 中 PD-L1 的基于影像组学的 ML,医学图像主要来自 CT,也有来自 PET/CT 和 MRI 的。CT 是肺癌早期诊断和临床分期的主要预测手段,而 PET/CT 和 MRI 并非必需,且 PET/CT 由于成本高,其临床广泛应用受到限制。因此,未来应努力开发基于 CT 的高效预测方法。在纳入的研究中,基于 CT、MRI 或 PET/CT 的影像组学方法已显示出有希望的预测性能。

近年来,深度学习(DL)方法也逐渐受到研究人员的广泛关注。对于传统 ML 方法,需要对图像中的 ROI 进行划分和编码,编码使用智能软件,但划分需要人机交互,因此研究人员的先验知识在很大程度上会带来一定的偏差。相比之下,基于图像处理的 DL 可以依靠原始未处理图像进行训练,在一定程度上避免了先验知识的影响。本研究发现,DL 方法可能比传统 ML 方法具有更强的判别能力,未来可以积极尝试开发预测性能更好的 DL 模型,以提高 PD-L1 预测的准确性。

本研究中纳入的模型主要基于二分类,而多分类在临床实践中通常更适用。免疫治疗单独作为一线治疗推荐用于缺乏可靶向驱动基因突变且 PD-L1 水平≥50% 的 NSCLC 患者,PD-L1=1-49% 和无明显 PD-L1 表达的患者对免疫检查点抑制剂的反应率也有所提高。因此,多分类模型被认为更具临床适用性,但目前二分类模型占主导地位。纳入的多分类研究数量较少,但对 PD-L1 阴性、PD-L1=1-49% 和 PD-L1≥50% 的预测值较好。

本研究中,一些模型由于样本量小或缺乏外部验证而具有高 RoB。PROBAST 工具将非前瞻性研究或数据库视为高 RoB,纳入的研究大多为单中心病例对照研究,因此在建模变量评估和结果解释中可能引入一些偏差,导致评估为高 RoB。统计分析的 RoB 主要是由于训练集中 EPV<20 或缺乏超过 100 例的验证集,这对当前模型来说是一个非常严格的规则,但对于小规模研究来说,很难满足训练集中阳性事件数超过最终纳入模型的 10 倍或有独立的超过 100 例的验证集的条件。此外,基于图像的模型,尤其是深度学习模型,在原始研究中没有建模变量的概念,使用基于图像的传统 ML 的研究人员通常不愿意或不报告最终纳入的详细图像参数,因此 EPV 无法准确计算,RoB 工具评估纳入研究非常严格,未来研究中似乎需要对其进行更大程度的更新。

尽管合并性能指标很有希望,但纳入研究之间存在很大的异质性。虽然已尝试根据不同的影像组学和不同的机器学习算法进行亚组分析,但仍存在很大的异质性。这可能是因为在影像组学过程中,图像分割可能依赖于不同的成像设备和图像参数,也受到分割过程中分割者临床经验的限制。此外,不同机器学习模型之间的预测性能可能存在一定差异。因此,需要制定更标准化的影像组学指南,以提高其透明度并促进其临床应用。

研究局限性


本研究首次为 ML 预测 PD-L1 表达的价值提供了循证依据,但仍存在一些局限性。首先,纳入研究中涵盖的影像组学特征较少,可能在一定程度上限制了结果的解释。其次,由于研究数量不足,仅区分了 DL 和传统 ML,未详细探讨不同 ML 方法的预测准确性。第三,纳入的多分类研究非常少,未来需要更多的多分类研究来验证研究结果。第四,纳入的许多研究是单中心或区域性的,考虑到 NSCLC 的全球相关性,可能由于局部患者特征或治疗方案而引入偏差,限制了结果的解释。第五,模型复杂性、超参数调整和特征工程都显著影响模型性能,由于本研究纳入的是应用研究,不涉及模型复杂性、超参数调整或特征工程,因此无法在研究中总结这些参数,这也是一个局限性。第六,QUADAS-2 主要用于随机诊断实验,在随机诊断实验中,病例对照研究被认为具有更大的偏倚风险,本分析纳入的研究主要是单中心回顾性病例对照研究,可能导致高偏倚风险,这也是机器学习研究中的一个挑战,是本研究的局限性。第七,纳入研究似乎存在区域集中性,不同地区的医疗实践和程序可能不同,这可能会限制研究结果的普遍性和适用性,但由于纳入研究数量有限,无法深入讨论其对不同任务类型结果的影响,同时未来需要多中心跨境研究来开发涵盖更广泛信息的人工智能检测工具。

未来展望


本研究表明,机器学习对 PD-L1 表达具有良好的预测性能。纳入研究主要基于二分类,临床实践中应考虑 PD-L1 的不同表达水平。因此,未来研究应基于多分类或准确表达建立高效的回归模型,以预测 PD-L1 表达。此外,现有研究中 ML 的性能主要通过随机抽样验证,这对影像组学研究是一个严峻的挑战,未来研究中应通过多中心大样本研究验证模型的准确性。同时,关于深度学习的研究较少,当前研究主要集中在 ML,ML 可以实现智能图像处理,因此这也可能是未来工作的重点。

结论


本研究表明,ML 方法,尤其是基于影像组学的 ML,在预测 NSCLC 中 PD-L1 表达方面取得了更理想的准确性,深度学习似乎表现出更好的预测性能。本研究纳入的研究主要基于二分类,但临床实践中应考虑 PD-L1 阴性、PD-L1=1-49% 和 PD-L1≥50%。因此,未来应通过多分类模型更深入地探索深度学习在预测 NSCLC 中 PD-L1 表达的价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号