《Cancer Medicine》:Digital Biomarkers for Precision Early Detection of Lung Cancer: Integrating AI-Driven Multi-Omics Into Clinical Pathways
ABSTRACT
背景
肺癌是全球癌症相关死亡的主要原因,这凸显了在现实世界筛查和患者管理路径中实现更早期检测的迫切需求。多组学技术的最新进展为识别与早期肺癌相关的生物标志物创造了新的机遇,特别是在处于临床监测下的高危人群中。
方法
本综述系统评估了跨越多组学层级的早期诊断生物标志物,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学和微生物组学。同时总结了人工智能(AI),特别是机器学习(ML)和深度学习(DL)方法在整合和分析复杂多组学数据集以支持生物标志物发现和临床决策方面的应用。
结果
多组学策略正在加速识别与肺癌早期检测相关的分子特征。AI驱动的方法能够从高维数据中提取潜在模式,有助于风险分层、诊断优化、组织学分型和治疗计划。本综述重点阐述了这些生物标志物的临床效用及其融入筛查算法的潜力,以及与真实世界临床工作流程相结合的基于AI的临床决策支持系统(CDSS)的开发。然而,临床转化仍面临主要障碍,包括多中心数据异质性、影响临床信任的有限模型可解释性、监管和成本效益挑战以及在前瞻性队列中验证不足。
结论
新兴技术,如单细胞和空间多组学,以及联邦学习框架,为弥合计算发现与临床实施之间的差距提供了有前景的解决方案。AI与多组学方法的整合有潜力推进肺癌的风险适应和个性化早期检测策略。
1 Introduction
肺癌是全球癌症相关死亡的主要原因,这归因于缺乏强大的早期检测工具和显著的肿瘤异质性。尽管低剂量计算机断层扫描(LDCT)筛查可降低死亡率,但其临床实施面临重大限制——包括高假阳性率和过度诊断——限制了广泛采用。临床上迫切需要具有更高准确性的、可行的非侵入性诊断方法,以便在干预最有效的早期阶段检测疾病。
高通量多组学方法(基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学、微生物组学)现在能够对肺癌进行全面的分子分析,揭示与疾病机制和进展相关的新型生物标志物。然而,整合这些复杂的高维数据集需要先进的计算框架。人工智能(AI),特别是机器学习(ML)和深度学习(DL),通过识别潜在的生物学模式并从多组学数据中开发高精度诊断模型,提供了变革性的解决方案。关键的是,AI驱动的液体活检分析——检测循环肿瘤DNA(ctDNA)、microRNA(miRNA)和细胞外囊泡——提供了具有高转化潜力的微创、实时检测。
本综述综合了AI驱动的多组学整合在肺癌早期检测方面的进展。我们批判性评估了跨组学层级的诊断生物标志物,评估了AI在生物标志物发现和临床决策支持中的作用,并讨论了转化挑战和新兴机遇。
2 Multi-Omics Biomarkers for Early Lung Cancer Detection
2.1 Genomics and Epigenomics
2.1.1 Genomic Biomarkers
吸烟是肺癌的主要病因学因素,驱动烟草烟雾诱导的基因组和表观遗传改变,从而从根本上改变细胞遗传程序。肺癌通过逐步的分子发病机制发展,其特征是驱动恶性转化的遗传和表观遗传改变的顺序积累。这种组织学连续谱——包括支气管上皮增生、化生、不典型增生、原位癌(CIS)和浸润性癌——由阶段特异性分子生物标志物定义,包括驱动基因突变(如EGFR、TP53)、DNA甲基化改变和微卫星不稳定性。
原癌基因的反复改变,特别是MYC扩增、RAS家族突变(KRAS/NRAS)和HER家族失调,驱动肺癌中的致癌信号。互补的肿瘤抑制因子失活,最常影响TP53、RB1和CDKN2A(p16),促进不受控制的增殖和基因组不稳定性。使用多重PCR方法(包括TP53测序、KRAS突变分析、p16甲基化特异性PCR [MSP]和微卫星不稳定性[MSI]评估),研究人员在非小细胞肺癌(NSCLC)患者的支气管肺泡灌洗(BAL)液中检测到肿瘤相关遗传改变。匹配的肿瘤组织、血液和BAL标本的比较分析显示不同的检出率:TP53突变(56%)、KRAS突变(27%)、MSI(46%)和p16甲基化(38%)。TP53突变在鳞状细胞癌中占主导,而KRAS改变在腺癌中更常见。
肺癌腺癌中其他几种致癌改变是已知的关键驱动因素,包括BRAF、ERBB2和MET的突变,以及RET重排。下一代测序(NGS)技术为描绘肺癌的突变景观和增强对诊断相关的基因组改变的理解提供了前所未有的机会。研究已识别出一系列遗传改变,包括基因扩增(CCND1–3、CDK4、FGFR1–3、MET、PDGFRA、PIK3CA、SOX2)、基因融合(FGFR3–TACC3)、肿瘤抑制基因突变(PTEN、TP53)和点突变(EPHA2、AKT1、DDR2)。这些改变的组合评估显示出增强的诊断价值。
肺癌致癌作用的核心驱动基因改变包括EGFR、KRAS和BRAF的突变;HER2、ALK、ROS1和RET的重排或扩增;以及MET扩增或外显子14跳跃突变。这些改变共同构成了肺癌的核心基因组景观。
2.1.2 DNA Methylation
DNA甲基化,包括高甲基化和低甲基化,是一种基本的表观遗传修饰,对几乎所有人类肿瘤的发生和发展都至关重要。表观遗传机制通过三个主要途径驱动肿瘤发生:启动子高甲基化、全局基因组低甲基化和组蛋白修饰。
异常DNA甲基化,由DNA甲基转移酶(DNMTs)催化,主要涉及肿瘤抑制基因启动子的高甲基化,促进包括NSCLC在内的多种癌症的发病机制。甲基化改变主要发生在基因启动子区域的CpG岛(CGIs)。这种特异性使它们成为适合基于PCR检测的生物标志物,为开发新型的基于甲基化的生物标志物以增强肺癌早期诊断提供了巨大潜力。在肺癌中,单个基因或基因组合的甲基化改变与治疗反应相关并显示出临床效用。RASSF1A、SHOX2和PTGER4的甲基化已被广泛验证作为该疾病的早期诊断生物标志物组合;曲线下面积(AUC)从0.69增加到0.74。多基因甲基化组合与单基因检测相比表现出更高的敏感性和特异性。
一项前瞻性研究分析了150名NSCLC患者和60名健康对照者痰液样本中TAC1、HOXA17和SOX17的启动子甲基化,显示出98%的敏感性和71%的特异性。另一项评估多基因甲基化组合(包括SOX17、HOXA9、AJAP1、PTGDR、UNCX和MARCH11)的研究显示对NSCLC诊断的敏感性为96.7%,特异性为60%。研究人员报告称,一个甲基化组合(PCDHGB6、HOXA9、MGMT和miR-126)对NSCLC检测达到了85.2%的敏感性和81.5%的特异性。
研究表明,在肺癌诊断前长达3年收集的痰液样本中,CDKN2A甲基化水平升高。一项荟萃分析确定了NSCLC不同组织学亚型中差异甲基化的基因。该分析揭示了在腺癌与鳞状细胞癌中,两个低甲基化基因(CDKN2A、MGMT)和三个高甲基化基因(CDH13、RUNX3、APC)。CDH13和APC表现出高敏感性(0.74和0.65)和特异性(0.49和0.60),支持它们作为NSCLC组织学特异性诊断生物标志物的潜力(AUC = 0.68和0.66)。
2.1.3 Histone Modifications
组蛋白修饰通过重塑染色质结构和精细调控基因表达,在肺癌的发生和进展中起关键调节作用,从而调节肿瘤发生过程。这些翻译后修饰动态调节组蛋白-DNA相互作用以控制染色质可及性和转录活性。组蛋白H3和H4残基上的甲基化和乙酰化模式是肺癌有前景的诊断生物标志物。特定的异常,包括H3K27me3水平升高,在该疾病中经常失调。YEATS2扩增在肺癌中普遍存在,并关键调节肿瘤发生。
2.2 Transcriptomics and Non-Coding RNAs
2.2.1 Transcriptomics
研究人员研究了microRNA(miRNA)作为NSCLC的诊断生物标志物。在一个训练队列(n = 50)中,通过血液样本的qRT-PCR分析鉴定了一个五 miRNA 组合(miR-20a、miR-223、miR-21、miR-221、miR-145),随后在更大的队列中进行了验证。MiR-20a、miR-223和miR-145显示出高诊断性能,AUC分别为0.89、0.94和0.92,表明它们作为NSCLC早期检测的非侵入性生物标志物的强大潜力。
研究人员分析了1132名受试者,通过初步微阵列筛选723个分子,然后进行qRT-PCR验证,确定了六个诊断性miRNA候选物。基于这些miRNA的两个逻辑回归模型表明,miR-17、miR-190b和miR-375能有效区分小细胞肺癌(SCLC)和NSCLC,在训练和验证集中AUC分别达到0.878和0.869,突出了它们用于早期检测和组织学分型的潜力。
研究人员通过微阵列筛选确定了16个候选miRNA,并通过qRT-PCR验证了其中6个。MiR-3149和miR-4769-3p在NSCLC患者中显示显著上调,并具有很强的区分能力(AUC分别为0.830和0.735),支持它们作为早期检测生物标志物的效用。
研究人员报告称,miR-944和miR-3662在肺癌中显著上调,其中miR-944对鳞状细胞癌显示出高诊断准确性(AUC 0.982),而miR-3662对腺癌显示出高诊断准确性(AUC 0.926)。类似地,研究人员分析了腺癌和鳞状细胞癌患者中六个基于血液的miRNA,揭示了miR-2114和miR-449c在腺癌中显著上调,而miR-2115在鳞状细胞癌中上调。
研究人员使用TaqMan Advanced miRNA assays分析了161个组织样本中的三个miRNA。MiR-197–3p和miR-375-3p在肿瘤切除样本中显著上调,其中miR-375-3p在活检样本中也升高,并表现出最高的诊断性能(AUC 0.749)。这些miRNA可能有助于区分鳞状细胞癌和腺癌。
研究人员对72名NSCLC患者和22名健康对照的血清miRNA进行了分析,建立了一个四 miRNA 组合,其作为辅助诊断工具具有卓越的诊断性能(AUC 0.993)。
研究人员研究了外泌体miRNA谱用于区分I期NSCLC组织学亚型。RNA测序揭示了腺癌和鳞状细胞癌之间不同的表达模式。一个三 miRNA 组合在NSCLC、腺癌和鳞状细胞癌中分别达到了0.899、0.936和0.911的AUC。
2.2.2 Non-Coding RNAs as Potential Diagnostic Biomarkers
非编码RNA(ncRNA)在肺癌组织中表现出表达失调,并且可在体液(如血液、痰液)中检测到,突出了它们用于非侵入性诊断的前景。在ncRNA中,长链非编码RNA(lncRNA)因其组织特异性表达而特别有前景,这可能提高诊断特异性。
2.2.3 Diagnostic Potential of lncRNAs
多个lncRNA在肺癌组织中与正常组织相比表现出显著的失调(上调或下调),支持它们作为早期恶性肿瘤检测的分子指标的效用。值得注意的是,lncRNA HOTAIR在NSCLC中上调;其血浆水平与疾病进展和转移密切相关,表明对肿瘤侵袭性具有预测价值。类似地,GAS5已成为NSCLC的诊断生物标志物,循环水平与疾病状态密切相关。
2.2.4 circRNAs as Diagnostic Biomarkers
环状RNA(circRNA)具有共价闭合的环状结构,具有卓越的稳定性和抗核酸外切酶降解的能力。这种结构完整性使它们能够在体液中保持完整,使其成为理想的诊断生物标志物。特定的circRNA在肺癌组织与正常对照中差异表达。例如,hsa_circ_0077837和hsa_circ_0001821在区分NSCLC与正常组织方面显示出高诊断准确性;血清和血清外泌体hsa_circ_0069313可以区分良性肺肿瘤和NSCLC,AUC值分别为0.803和0.749。通过液体活检在血浆中检测circRNA提供了一种微创诊断方法,而从血浆来源的外泌体中分离circRNA提供了比组织活检侵入性更小的替代方案。重要的是,几个circRNA在早期肺腺癌期间上调,强调了它们作为早期诊断生物标志物的效用。最近一项荟萃分析报告称,circRNA在中国肺癌患者中的汇总诊断AUC为0.78,表明具有良好的临床性能。总的来说,这些发现表明circRNA在增强肺癌早期检测策略方面具有重大前景。
2.3 Proteomics and Glycomics
2.3.1 Proteomics
研究人员开发了一种基于液体活检的决策算法,用于诊断肺癌并区分NSCLC和SCLC。他们使用电化学发光法量化了八种蛋白质肿瘤标志物(CA125、CEA、CYFRA 21-1和ProGRP),并通过液滴数字PCR在1096名疑似肺癌患者的血浆循环肿瘤DNA(ctDNA)中检测了EGFR、KRAS和BRAF突变。多变量逻辑回归确定CYFRA 21-1是NSCLC的最强预测因子(AUC = 0.78),而ProGRP对SCLC诊断显示出最高的敏感性(敏感性40%;AUC = 0.86;阳性预测值[PPV] = 100%)。值得注意的是,将CYFRA 21-1、CEA、ProGRP和神经元特异性烯醇化酶(NSE)组合使用,显著提高了SCLC的诊断准确性,优于单个生物标志物。
类似地,研究人员使用质谱法测量了99名肺癌患者和30名良性肺病对照的六种肿瘤标志物(ProGRP、鳞状细胞癌抗原[SCCAg]、CYFRA 21-1、HE4、嗜铬粒蛋白A [CgA]和NSE)的血清水平。ProGRP浓度在SCLC中显著升高(p = 0.009),而CYFRA 21-1和SCCAg在NSCLC中显示更高表达(p = 0.019和p = 0.001)。CYFRA 21-1(p < 0.001;r = 0.394)、HE4(p = 0.014)和CgA(p = 0.023)水平与NSCLC分期进展呈正相关。在所有标志物中,ProGRP在区分组织学亚型方面表现出最佳性能(AUC = 0.875)。
同时,研究人员评估了一个10生物标志物组合,以在250份血清样本中建立肺癌亚型的诊断谱。CEA对腺癌显示出最佳效能(AUC = 0.812;敏感性 = 63.9%),而CYFRA 21-1(AUC = 0.847;敏感性 = 84.6%)和CEA(AUC = 0.804;敏感性 = 70.0%)对鳞状细胞癌最有效。对于SCLC,NSE(AUC = 0.819;敏感性 = 69.0%)和CEA(AUC = 0.808;敏感性 = 60.7%)实现了稳健的诊断性能。
支持这些发现,研究人员分析了93名肺病患者的五种血清生物标志物。受试者工作特征(ROC)曲线显示,恶性组与良性组相比,CYFRA 21-1、SCC-Ag、ProGRP、CEA和NSE的中位水平显著升高,强调了它们在组织学确认前用于组织学分类的效用。
2.3.2 Exosomes and Other Proteomics-Based Biomarkers
最近的进展将外泌体定位为有前景的肿瘤生物标志物。研究人员对健康个体和肺癌患者的血清和唾液外泌体进行了无标记定量蛋白质组学分析,确定了11种显著失调的具有诊断潜力的蛋白质,并证实了疾病相关蛋白在外泌体中的存在。蛋白质组学研究进一步提示,抗α-烯醇化酶的自身抗体作为潜在的NSCLC生物标志物;当与癌胚抗原(CEA)和CYFRA 21-1结合时,它们显著提高了诊断敏感性。类似地,研究人员分析了100名肺癌患者的血清蛋白,鉴定出一个具有高准确性的诊断组合(CEA、视黄醇结合蛋白[RBP]、鳞状细胞癌抗原[SCC]、α-1-抗胰蛋白酶[A1AT])。
唾液蛋白质组学也显示出前景:研究人员分析了89名早期肺癌患者、11名晚期病例和50名健康对照的样本,开发了一个对早期检测具有高敏感性和特异性的诊断平台。研究人员同时建立了一个基于血清的蛋白质组合(p53、HRas、ETHE1)以促进早期诊断,在特异性 > 90%时敏感性达到50%。虽然早期NSCLC检测仍然具有挑战性,但蛋白质组学为生物标志物发现提供了引人注目的途径。在血清研究中,对氧磷酶1(PON1)在通过N-乙酰葡糖胺(GlcNAc)结合凝集素进行糖肽富集后,成为潜在的I期生物标志物;AANL富集的PON1和AANL富集的AACT组合在早期NSCLC样本和无肿瘤样本之间存在显著差异,AUC为0.940,敏感性94.4%,特异性90.2%。比较组织蛋白质组学确定了失调的组织蛋白酶D(CTSD)和热休克蛋白60(HSP60)作为早期肺鳞状细胞癌(LSCC)检测的候选物。
值得注意的是,研究人员使用多反应监测(MRM)质谱法鉴定了SCLC中的岩藻糖基化蛋白(APCS、C9、SERPINA4、PON1)。尽管PON1水平降低,但其岩藻糖基化增加——这凸显了诊断相关的翻译后修饰。研究人员应用基于单克隆抗体的蛋白质组学在NSCLC队列中检测到五种高潜力的蛋白质候选物。将已确立的癌症标志物CYFRA与该组合结合,对I期NSCLC的诊断性能达到83%的敏感性(95%特异性)。
2.4 Metabolomics and Volatilomics
2.4.1 Metabolomics
乳酸积累是肺癌中常见的代谢改变,其中肿瘤细胞即使在氧气充足的情况下也优先将葡萄糖代谢为乳酸——这种现象称为Warburg效应。磷脂作为细胞膜的关键组成部分,在肺癌中经常表现出代谢失调。反映这一点的是,患者血浆中 consistently 报告了改变的磷脂谱。研究人员使用液相色谱-质谱法(LC–MS)鉴定出肺癌患者与健康对照相比,溶血磷脂酰乙醇胺(LPE 18:1)和磷脂酰乙醇胺(PE 40:4)升高,而胆固醇酯(ce 18:2)和鞘磷脂(SM 22:0)降低。基于这些磷脂的分类器在训练和验证队列中分别达到了0.823和0.808的AUC值。类似地,对100名早期肺癌患者和300名对照的LC–MS分析显示磷脂酰胆碱(PC)、二酰基甘油和鞘磷脂增加,但溶血磷脂酰胆碱种类(LPC 18:2, 18:1, 18:0)减少。从这些改变中得出的七磷脂组合产生了0.88的AUC。
值得注意的是,一项对311名参与者的非靶向脂质组学研究确定了九种磷脂作为早期肺癌的诊断特征。基于该特征开发的靶向LC–MS模型在独立验证中实现了100%的特异性,在1036名接受LDCT筛查的个体和109名前瞻性临床样本的更大队列中,敏感性≥90%,特异性92%。
除了磷脂,失调的尿肌酸和肌酐水平显示出作为早期诊断生物标志物的前景。一项对178名肺癌患者和351名健康对照的前瞻性LC–MS分析表明,尿肌酸浓度升高与肺癌风险在欧洲和非欧洲人群中均存在稳健相关性。显著的是,在受影响个体的血清和唾液中也检测到肌酸和肌酐水平上调,支持它们作为跨多种生物体液的生物标志物的效用。
2.4.2 Volatilomics
挥发性有机化合物(VOC)——在室温下可检测的气态有机化学品——显示出作为肺癌早期检测靶标的前景,呼出气中含羰基的VOC被积极研究作为诊断生物标志物。研究人员使用傅里叶变换离子回旋共振质谱法(FTICR-MS)鉴定出肺癌患者与健康对照以及良性肺结节个体相比,呼出气中2-丁酮、2-羟基乙醛、3-羟基-2-丁酮和4-羟基己烯醛(4-HHE)的水平显著升高。研究人员进一步证明诊断准确性与升高的VOC标志物数量直接相关:检测到≥3个升高的标志物在区分肺癌与健康对照方面达到了0.95的特异性。在此基础上,一个包含六种羰基VOC(这四种化合物加上丙烯醛和丙二醛)的诊断模型有效地区分了肺癌患者与健康个体,并对良性结节显示出中等程度的区分能力。该模型在不同研究人群中敏感性≥0.96,特异性范围从0.64(良性结节队列)到1.00(非吸烟者)。
2.5 Microbiome Signatures
2.5.1 Airway Microbial Biomarkers
新兴研究突出了肺癌微生物组的诊断潜力。研究人员将20名肺癌患者与8名良性病变患者进行比较,发现在癌症队列中Veillonella和Megasphaera升高。它们的组合微生物特征达到了0.88的AUC,敏感性0.95,特异性0.75。类似地,研究人员证明Streptococcus alone yielded 0.897 diagnostic accuracy。研究人员对91名肺癌患者、29名非恶性疾病患者和30名健康个体进行了宏基因组测序,确定了11个差异细菌属(AUC = 0.796)。随后,研究人员将肿瘤标志物(CEA、NSE、CYFRA21-1)与细菌生物标志物(Pseudomonadaceae、Gemmiger、候选门TM7-3)整合,建立了一个组合诊断模型,AUC达到0.84。
2.5.2 Gut Microbial Biomarkers
研究人员报告称,与健康对照(每组41人)相比,肺癌患者粪便中Bacteroidetes、Veillonella和Clostridium显著富集。在此基础上,研究人员在发现和验证队列中验证了肺癌患者与健康个体之间肠道微生物群β多样性存在显著差异。一个基于13个操作分类单元(OTUs)的诊断模型在发现队列中AUC达到0.976,尽管在独立验证(34名肺癌 vs. 40名对照)中性能下降至0.764。虽然这些发现表明了诊断潜力,但需要更大规模的多中心研究和机制研究来确定其临床效用。
2.5.3 Blood Microbial Biomarkers
一项对58名NSCLC患者和58名健康对照的研究使用微滴式数字PCR(ddPCR)检测到血液样本中Selenomonas、Streptococcus和Veillonella升高。该诊断模型达到0.75的敏感性和0.78的特异性,在独立验证队列(每组93人)中性能一致。研究人员对69名肺癌患者和97名健康个体的血浆进行了全基因组测序,尽管癌症样本中微生物读段比例略低(0.009% vs. 0.012%),但揭示了不同的微生物物种组成。他们基于富集的微生物分类群的模型在训练中AUC达到0.95(敏感性0.81,特异性0.90),并在两个独立验证队列(AUC 0.93–0.921)中保持稳健性能,支持血液微生物组特征作为早期检测的非侵入性方法。
总的来说,这些发现总结在表1中,该表总结了早期肺癌的多组学生物标志物。
3 AI-Driven Integration of Multi-Omics Data
3.1 Machine Learning for Biomarker Discovery
3.1.1 Cancer Biomarker Discovery Using Machine Learning
肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)是两种最常见的组织学亚型。虽然常规治疗有重叠,但深刻的分子差异证明将它们分类为不同的实体是合理的。从计算角度看,早期检测和组织学分型都代表了分类任务——这是一种机器学习框架,已成功应用于具有重要诊断价值的泛癌数据集。
从方法学角度看,用于肺癌生物标志物发现的机器学习方法可大致分为监督学习、无监督学习和多模态学习框架,每种框架解决不同的分析目标。监督学习模型依赖于标记的结果,如LUAD与LUSC或恶性与良性状态,最常用于早期检测和组织学分型。在基于成像的生物标志物发现中,卷积神经网络(CNN)已广泛应用于从CT扫描中自动提取肿瘤形状、纹理和强度模式的影像组学特征学习,并将这些特征与分子程序和临床结果联系起来。相比之下,无监督学习方法旨在发现没有预定义标签的潜在分子结构