综述:人工智能在肿瘤演化中的应用:通过多模态数据整合解析精准肿瘤学中的癌症复杂性

《Cells》:Artificial Intelligence in Tumor Evolution: Understanding Cancer Complexity Through Multi-Modal Data Integration in Precision Oncology

【字体: 时间:2026年06月10日 来源:Cells 5.2

编辑推荐:

  近年来,人工智能(Artificial Intelligence, AI)模型被整合到肿瘤生物学研究中,推动癌症研究发生了根本性变革。然而,由遗传与表型改变驱动的肿瘤演化,进而导致肿瘤异质性、治疗抵抗及转移,仍是肿瘤学领域的重大挑战。理解这些过程是开发有效治疗

  
近年来,人工智能(Artificial Intelligence, AI)模型被整合到肿瘤生物学研究中,推动癌症研究发生了根本性变革。然而,由遗传与表型改变驱动的肿瘤演化,进而导致肿瘤异质性、治疗抵抗及转移,仍是肿瘤学领域的重大挑战。理解这些过程是开发有效治疗策略、改善患者结局的核心前提。传统方法往往难以捕捉肿瘤演化过程的复杂性与动态特征,而AI工具具备整合分析大规模多组学、影像及临床数据的能力,为解码肿瘤复杂性提供了可能。AI驱动的方法促进了多模态数据的整合,能够识别连接分子改变与表型结果的模式。在功能基因组学领域,AI工具可预测遗传变异效应、鉴定调控元件并绘制失调通路图谱,从而阐明肿瘤发生与耐药的内在机制。在影像领域,深度学习技术提升了肿瘤分割、表征及纵向监测的准确性,为肿瘤进展与治疗反应提供更精准的洞见。预测建模有望实现对肿瘤演化轨迹与药物反应的预判,支持自适应治疗方案的制定与实时调整。此外,AI可助力生物标志物发现、患者分层及决策支持系统的构建,进而优化临床试验设计、加速个体化疗法的开发。但上述进展也带来了重要的伦理挑战,包括数据隐私、算法偏倚及患者自主权的维护,解决这些问题是确保AI在肿瘤学中负责任应用的关键。
  1. 1.
    引言
    肿瘤演化是癌症进展、转移及治疗抵抗的核心驱动力,遗传、表观遗传与表型改变的动态累积产生了瘤内异质性,对持久的临床控制构成挑战。高通量技术的指数级发展,涵盖全基因组测序、全外显子测序、单细胞RNA测序(scRNA-seq)、空间转录组学、染色质可及性测序(ATAC-seq)及循环肿瘤DNA(ctDNA)液体活检平台,催生了跨越基因组、转录组、蛋白质组、表观基因组及放射组维度的海量异质性数据集。这些数据的深度与维度远超传统统计学方法的分析能力,迫切需要能够在规模化层面整合并解读复杂多模态生物信息的计算框架。人工智能已成为应对这些局限性的有力手段,机器学习(ML)算法擅长识别疾病风险与治疗结局的基因组及临床预测因子,而深度学习(DL)架构,包括卷积神经网络(CNN)、循环神经网络(RNN/LSTM)、图神经网络(GNN)、变分自编码器(VAE)及基于Transformer的模型,能够从原始测序读段、组织病理学图像及多组学矩阵中提取层级特征。生成式模型如生成对抗网络(GAN)通过生物学知情的数据增强解决数据稀缺问题,图基框架则能够捕获基因调控网络与蛋白质-蛋白质相互作用网络的关联结构。近期进展已将AI应用拓展至肿瘤演化的全流程,从基于深度学习的变异识别、单细胞图谱整合,到用于调控基因组学的Transformer模型、基于图的多组学分层及基于片段组学的液体活检。尽管进展显著,当前仍存在若干关键研究缺口:多数肿瘤学AI模型基于单机构、单模态数据集训练验证,跨测序平台、肿瘤类型及患者群体的泛化能力有限;大多数已发表模型将癌症视为静态快照而非动态演化过程,缺乏以时间连贯方式整合纵向多组学数据的能力,而这正是追踪克隆替换、上位性相互作用及耐药亚克隆随时间出现的核心;肿瘤微环境(TME)作为通过免疫编辑、代谢竞争及基质重塑调控演化动力学的关键因素,在当前预测模型中代表性不足,部分原因是其空间与细胞复杂性直至近年才可通过空间转录组学与高多重成像技术解析;深度学习模型的可解释性仍是临床转化的根本障碍,若无法获知模型预测的机理洞见,很难区分真实的生物学信号与技术假象或数据泄露;基于AI的自适应治疗策略的前瞻性临床试验几乎空白,凸显了算法创新与临床应用之间的鸿沟。本综述提出,当AI被视为整合的演化推断引擎时,其变革潜力最为突出——能够通过协调分析多模态癌症数据集实现克隆动力学的重建、异质性纵向数据的对齐及耐药轨迹的预判。因此,本综述围绕癌症生物学的核心演化问题展开,而非按数据类型或算法分类:(1)瘤内异质性如何产生并维持;(2)肿瘤在治疗压力下如何适应;(3)肿瘤微环境如何塑造演化轨迹;(4)能否预判未来肿瘤状态以指导自适应临床策略。这一视角同时凸显了AI在将演化洞见转化为临床获益过程中的机遇与局限。
  2. 2.
    概念框架:AI作为演化推断引擎
    肿瘤演化在多个相互关联的生物学层面展开:首先,变异通过基因突变、染色体不稳定性、表观遗传重塑及表型可塑性产生;其次,源于微环境约束与治疗干预的选择压力塑造了克隆间的竞争与合作;第三,肿瘤发生时间适应性改变,克隆结构在疾病进展与治疗全程持续重塑。在这一演化框架下,AI承担四个相互关联的角色:从噪声与不完整数据中重建潜在克隆状态;对齐跨越基因组、转录组、空间、影像及临床模态的异质性信号;模拟针对治疗扰动后的演化响应;将演化预测转化为具有临床可操作性的决策支持。该框架将重点从算法罗列转向具有生物学与临床意义的演化推断。
  3. 3.
    肿瘤演化的复杂性
    肿瘤演化由遗传多样性、表型可塑性与环境选择的持续相互作用驱动。瘤内异质性通过点突变、拷贝数改变及结构变异的累积,结合转录重编程与微环境适应等非遗传机制产生,形成具有不同适合度景观的共存亚克隆群体,增加了治疗控制的难度。基于AI的批量与单细胞测序数据分析提升了克隆结构的分辨率,揭示了可能驱动进展或耐药的潜在亚群,但当前多数方法依赖静态快照,难以区分中性漂变与选择驱动的克隆扩增,凸显了对时间分辨、演化感知建模策略的需求。
    3.1 遗传异质性
    3.1.1 瘤内异质性
    瘤内异质性(ITH)指肿瘤内部存在不同遗传亚群的现象,这种多样性源于突变累积、基因组不稳定性、微环境影响及肿瘤对治疗的适应能力。驱动突变赋予选择性生长优势并促进癌症进展,而乘客突变被认为不直接调控肿瘤行为。肿瘤经历克隆扩增过程,具有增殖优势的亚群生长速度快于其他亚群,这种达尔文选择原则导致肿瘤内部形成层级结构,优势克隆占据主导的同时大量微小亚群共存。瘤内异质性已在多种肿瘤中被报道,例如非小细胞肺癌不同区域可能存在EGFR或KRAS突变差异,给靶向治疗策略带来挑战;胶质母细胞瘤中携带EGFR等癌基因扩增的染色体外DNA与肿瘤快速演化及治疗抵抗相关;HER2阳性乳腺癌中ERBB2扩增的瘤内异质性则与HER2靶向治疗的不良应答相关。当前对瘤内异质性的认知仍有限,DNA测序技术的进步与AI在癌症研究中的应用有望推动该领域的突破。
    3.1.2 遗传多样性的机制
    多种机制共同导致肿瘤中观察到的遗传多样性。基因组不稳定性是癌细胞的核心特征,会导致突变率升高并促进遗传改变累积,可表现为错配修复、同源重组及非同源末端连接等DNA修复机制缺陷。结直肠癌与子宫内膜癌中常出现错配修复缺陷,导致微卫星不稳定性;而BRCA1/2突变导致的同源重组缺陷则是乳腺癌与卵巢癌的特征性改变。染色体不稳定性也是驱动肿瘤异质性的关键因素,其特征为整条染色体或大片段染色体的获得与丢失,可能导致非整倍体出现,影响基因表达与细胞行为,例如三阴性乳腺癌中染色体不稳定性常与不良预后及标准治疗抵抗相关。除上述改变外,表观遗传修饰也影响肿瘤多样性,DNA甲基化、组蛋白修饰及非编码RNA等机制在不改变DNA序列的前提下调控基因活性,这些可逆的动态改变可调控增殖、分化与存活相关基因,促进适应性与进展,例如胶质母细胞瘤中MGMT启动子DNA甲基化模式与替莫唑胺治疗的更好应答相关,急性髓系白血病中DNMT3A或TET2等表观遗传调节因子突变可导致染色质状态改变并促进克隆扩增。癌症细胞还可通过多种遗传机制产生治疗抵抗,常见机制包括获得改变治疗靶点的突变,例如慢性髓系白血病(CML)中BCR-ABL基因突变可降低伊马替尼等酪氨酸激酶抑制剂的疗效,非小细胞肺癌(NSCLC)中EGFR基因继发突变可阻断吉非替尼、厄洛替尼等EGFR抑制剂的结合;此外,癌细胞还可通过过表达药物外排转运蛋白如P-糖蛋白(P-gp)获得多药耐药(MDR),主动将化疗药物排出胞外从而降低药物作用。
    3.2 表型可塑性
    表型可塑性指癌细胞响应环境改变与选择压力采用不同表型的能力,这种适应性是肿瘤演化与转移的核心特征。
    3.2.1 上皮-间质转化(EMT)
    上皮-间质转化(EMT)是表型可塑性中研究最广泛的过程,指上皮细胞失去细胞间黏附特性并获得更强迁移与侵袭能力的间质表型,该过程对癌细胞从原发灶播散并在远处定植形成转移至关重要。EMT的转录调控由SNAIL、SLUG、TWIST及ZEB等转录因子触发,这些因子抑制E-钙黏蛋白等上皮标志物,诱导N-钙黏蛋白与波形蛋白等间质标志物表达。缺氧、细胞因子、与基质细胞的相互作用及其他细胞外基质成分可诱导EMT,其中转化生长因子-β(TGF-β)是EMT的强效诱导因子,可促进癌细胞的侵袭行为。EMT同时也是癌症治疗抵抗的关键驱动因素,间质样表型细胞往往凋亡抵抗能力更强,且药物外排能力提升。目前靶向EMT过程或其相关间质标志物的策略正在探索中,以期克服这类抵抗。
    3.2.2 癌症干细胞(CSCs)
    癌症干细胞(CSCs)是表型可塑性的另一体现,这类具有自我更新与多能性的癌细胞亚群,凭借分化为肿瘤内多种细胞类型的能力,在肿瘤起始、进展与复发中发挥关键作用。CSCs的维持与功能受Wnt、Notch、Hedgehog等关键信号通路的严密调控,这些通路的异常激活支持CSCs存活并促进其对常规治疗的抵抗。理解CSCs表型可塑性的分子机制对改善转移、复发及治疗抵抗的管理至关重要,除靶向CSCs外,还需关注分化癌细胞可通过去分化过程逆转获得干样表型,近期研究发现降低PSMG2可能通过蛋白酶体抑制减少头颈部癌细胞的去分化过程与干性。
    癌症干细胞进一步体现了可塑性在治疗抵抗中的作用,其高效的DNA修复机制、进入静止期的能力及药物外排转运蛋白的高表达,使其对传统治疗的敏感性显著降低。当前研究聚焦于特异性靶向CSCs或抑制维持其干性的通路,以减少肿瘤复发。
    3.2.3 肿瘤微环境
    肿瘤微环境(TME)通过创造独特条件驱动癌细胞遗传与表型景观的改变,在肿瘤演化中发挥重要作用。TME由免疫细胞、癌症相关成纤维细胞、内皮细胞、周细胞及细胞外基质成分等多种细胞类型组成,其组成与功能因肿瘤类型、患者甚至肿瘤分期而异,会动态调整以保护肿瘤,是肿瘤可塑性的主要调控因素。
    3.2.4 免疫逃逸与治疗抵抗
    为逃避免疫应答,癌细胞采用多种策略以实现在宿主体内的持续扩增。上调检查点蛋白是常见机制,PD-L1与T细胞上的PD-1受体结合可抑制T细胞活性,因此PD-1与PD-L1抗体等免疫检查点抑制剂在恢复抗肿瘤免疫中显示出良好前景。此外,TME中富集调节性T细胞(Tregs)、髓源抑制细胞(MDSCs)、肿瘤相关巨噬细胞(TAMs)及癌症相关成纤维细胞(CAFs)等免疫抑制细胞,这些细胞分泌细胞因子与生长因子,抑制免疫反应、促进肿瘤增殖并诱导治疗抵抗。TME还可通过排斥细胞毒性T细胞,或营造T细胞虽存在但因与抑制性细胞群相互作用而功能失调的免疫抑制环境,阻碍有效的免疫治疗。当前研究正在测试检查点阻断联合TME调控的策略,例如给予IL-12、IL-15等免疫刺激细胞因子激活NK细胞,使用工程化IL-2变体增强T细胞功能同时限制Treg活化。胶原、纤连蛋白等细胞外基质成分还可能形成药物渗透屏障,并促进利于存活与抵抗的细胞信号通路。
    3.2.5 血管生成
    肿瘤生长与转移依赖于新生血管形成,即血管生成过程。TME提供促血管生成信号,刺激内皮细胞增殖迁移以形成新毛细血管。缺氧在驱动肿瘤可塑性中发挥关键作用,可触发缺氧诱导因子(HIFs)表达,促进血管内皮生长因子(VEGF)等多种血管生成因子的产生,该过程不仅支持新生血管发育,也促使肿瘤细胞群向更具侵袭性的表型转变。此外,肿瘤细胞常上调VEGF表达,其与内皮细胞上的受体相互作用,促进内皮细胞存活、生长与迁移。
    3.3 演化动力学与肿瘤进展
    理解肿瘤演化动力学对开发新型有效治疗策略至关重要,肿瘤进展是基因突变、表型可塑性与TME及治疗干预带来的选择压力共同作用的结果。
    3.3.1 适应性演化
    肿瘤细胞通过适应性演化过程持续适应微环境,缺氧、营养剥夺、免疫监视等多种选择压力驱动具有有利适应特征的亚克隆出现与扩增。此外,治疗干预也会驱动遗传选择,仅携带抵抗机制的亚克隆得以存活并继续增殖侵袭,这些耐药亚克隆可能累积额外突变以增强自身能力,推动肿瘤进展,进而可能出现周期性克隆替换,即具有选择优势的亚克隆快速扩增并主导肿瘤细胞群,重塑肿瘤的遗传与表型特征。
    3.3.2 转移演化
    转移指癌细胞扩散至远处部位的过程,是癌症相关死亡的主要原因之一,该过程包含局部侵袭、侵入血液或淋巴管、在脉管中运输、渗出至远处组织及成功定植等一系列协调的复杂步骤。种子与土壤假说指出转移并非随机事件,特定癌细胞(“种子”)具备内在特性,使其能够侵袭并定植于特定器官(“土壤”)。为实现这一过程,转移细胞会发生多种遗传与表观遗传改变,获得迁移与侵袭相关优势特征,例如上调蛋白水解酶、激活促存活与运动相关通路。
    3.4 应对肿瘤演化的策略
    鉴于肿瘤演化的复杂性,有效的癌症治疗需要能够应对肿瘤遗传与表型多样性及其与TME动态相互作用的策略。
    3.4.1 联合治疗
    一种有效策略是同时靶向多个致癌通路的联合治疗,可防止耐药亚克隆出现,提升整体治疗效果并延缓耐药发生。通过计算分析与体外实验可识别药物组合的协同效应,高通量筛选方法与计算模型在预测和筛选最有效药物配对中发挥关键作用。近期研究显示机器学习可准确预测药物协同效应,显著减少体外实验工作量,还有深度学习模型可同时捕获药物反应与协同效应,提升预测可靠性。骨髓瘤研究中通过高通量实验筛选发现特定药物组合不仅能抑制肿瘤生长,还可影响关键信号通路;胰腺癌的大样本研究结合机器学习与实验验证发现了数百种有效组合,展现了这种整合策略的转化潜力。另一种有前景的策略是序贯治疗,即按特定顺序给予不同药物,研究显示靶向治疗组合的使用会显著影响异质性癌细胞群的耐药演化,体外长期治疗可能增加耐药机制的产生,更贴近体内与临床真实场景;非小细胞肺癌研究中结合数学建模与实验分析,确定了可抑制原发性T790M突变细胞生长的治疗方案,凸显了序贯治疗在克服酪氨酸激酶抑制剂耐药中的重要性。多项临床研究已证实联合治疗在克服耐药、改善患者结局中的有效性,例如BRAF抑制剂维莫非尼联合MEK抑制剂考比替尼,通过同时靶向MAPK通路多个节点,显著改善了BRAF突变黑色素瘤患者的无进展生存期;肺癌领域正在进行的FLAIR试验(NCT04988607)评估奥希替尼联合贝伐珠单抗与单药奥希替尼在初治EGFR外显子21 L858R突变NSCLC患者中的疗效,旨在改善这一应答较差亚组的结局;免疫检查点抑制剂如抗PD-1(纳武利尤单抗)联合抗CTLA-4(伊匹木单抗)在黑色素瘤、肾细胞癌等多种癌症中显示出优于单药的临床获益。这些案例凸显了理性药物组合通过挖掘癌症信号网络脆弱点、延缓耐药克隆出现的潜力。
    3.4.2 自适应治疗
    自适应治疗是一种演化导向的治疗策略,根据肿瘤反应动态调整给药剂量。与传统疗法追求完全清除肿瘤不同,自适应治疗聚焦于维持稳定的药物敏感性癌细胞群,利用敏感与耐药癌细胞之间的竞争相互作用抑制耐药亚克隆扩增。该策略基于竞争释放与演化优势权衡等概念,实施成功的自适应治疗可能需要实时监测肿瘤动力学,先进成像、液体活检与分子分型等技术可支持及时的治疗调整。近期研究显示自适应治疗在前列腺癌、卵巢癌等多种癌症中具有可行性,在延迟肿瘤进展、减少药物用量方面表现出良好前景,一项转移性去势抵抗性前列腺癌的试点试验实现了中位进展时间延长超10个月,且累计用药量较标准治疗减少53%。
    3.4.3 靶向肿瘤微环境
    管理肿瘤演化的另一关键策略是靶向在肿瘤进展与治疗抵抗中发挥核心作用的肿瘤微环境(TME)。一种策略聚焦于抑制促血管生成因子,剥夺肿瘤的氧气与营养供给,从而减缓生长,贝伐珠单抗等抗VEGF药物已在多种癌症中显示出临床获益。另一种互补策略是调控免疫系统,免疫检查点抑制剂、细胞因子治疗及过继细胞回输等疗法正在积极探索中,并在多种恶性肿瘤中展现出良好前景。
  4. 4.
    AI解决的演化问题
    AI如何揭示瘤内异质性的产生与维持?应用于批量、单细胞及空间组学数据的AI方法已能够识别构成肿瘤异质性的潜在细胞状态与亚克隆群体,变分自编码器、图基模型及聚类方法可揭示被技术噪声与抽样偏倚掩盖的结构,但有限的纵向采样与种群平稳性假设限制了这些模型完整重建演化轨迹的能力。AI如何揭示肿瘤在治疗压力下的适应机制?整合纵向基因组、循环肿瘤DNA及影像数据的机器学习模型已显示出早期检测耐药相关改变的潜力,但许多模型仍为相关性模型,缺乏对演化适合度景观的明确表征,导致预测性能在跨疗法或跨肿瘤场景中应用时往往下降。AI如何揭示肿瘤微环境对演化轨迹的塑造作用?AI驱动的空间转录组、影像及免疫分型整合分析已揭示肿瘤演化的关键非细胞自主性驱动因素,包括免疫排斥与基质介导的抵抗,但由于大多数模型未能充分捕获肿瘤细胞与微环境之间的双向反馈,因果推断仍具挑战性。能否预判未来肿瘤演化以指导治疗?生成式建模与强化学习方法为模拟不同治疗方案下的肿瘤演化提供了有前景的策略,支持自适应与联合治疗,但数据稀疏性、简化的生物学假设及缺乏前瞻性验证限制了其临床转化。
  5. 5.
    AI在基因组数据分析中的应用
    人工智能正在变革基因组数据分析领域,为解码驱动生物过程与疾病的遗传信息复杂性提供强大工具。在基因组学中,AI助力解读下一代测序(NGS)产生的海量数据集,使研究人员能够检测遗传变异、理解分子机制并识别潜在治疗靶点,在肿瘤演化背景下,这些能力尤为重要。结合AI驱动的分析与对癌症适应及耐药机制的理解,可更好地管理克隆动力学、预判演化进程并设计自适应或序贯治疗等策略,走在肿瘤进展之前。本节探讨AI在基因组数据分析中的核心作用,重点阐述其在数据处理、模式识别及预测建模中的影响。
    5.1 数据处理与管理
    基因组数据分析始于大规模测序数据的处理与管理,NGS技术产生海量原始数据,需要高效的计算方法进行处理与存储,AI尤其是机器学习(ML)算法在其中发挥关键作用。
    5.1.1 质量控制
    AI算法被用于执行测序数据的质量控制检测,识别并过滤低质量读段、纠正测序错误,确保数据准确可靠。传统工具如FastQC、MultiQC可提供全面的数据质量报告,Trimmomatic有助于去除低质量序列与接头,而AI实现了这些流程的自动化,减少了人工质量评估的时间与精力,提升了准确性与效率。seqQscorer等工具采用树基与深度学习模型评估从原始数据中提取的特征,准确预测低质量数据集;MAC-ErrorReads将错误读段识别转化为监督分类问题,使用朴素贝叶斯等算法在多个数据集上实现稳健准确率。这些AI驱动的方法不仅降低了人力负担,还提升了质量评估的精度与一致性,为基因组预处理设立了效率新标准。
    5.1.2 数据压缩
    基因组数据的存储与管理因占用体积庞大成为重大挑战,基于AI的数据压缩技术可高效编码基因组序列,在保障数据完整性的前提下降低存储需求。已有模型结合卷积层与基于注意力的双向长短期记忆(LSTM)网络,通过双向查看序列并聚焦相关区域,预测每个核苷酸的概率并用于算术编码器,压缩效率较现有方法如DeepDNA最高提升3.7倍;DeepDNA本身结合卷积神经网络(CNN)与LSTM架构压缩人类线粒体基因组;GeCo3(基因组压缩器)是专为高效捕获DNA重复与结构化特征设计的工具,可改善无参考与基于参考的压缩效果。
    5.1.3 数据增强
    生成对抗网络(GAN)是用于数据增强的深度学习技术,多种前沿GAN架构已成功应用于基因组学与癌症研究,证明可产生生物学合理的合成数据。例如ctGAN整合基因表达与生存数据以增强癌症批量RNA-seq数据集,近期研究显示ctGAN通过生成反映表达与患者结局的合成转录组谱,提升了多种癌症的生存分析性能。在单细胞层面,cscGAN通过学习复杂的基因-基因依赖关系,真实模拟scRNA-seq谱,改善了标志物基因检测与分类器稳健性等下游分析;scMMGAN在此基础上扩展至多模态单细胞数据,在三阴性乳腺癌模型中,利用带扩散几何正则化项的GAN框架整合空间RNA-seq与scRNA-seq模态,产生尊重各模态内在几何的一致联合表征。此外,scMASKGAN(掩码多尺度CNN+注意力增强GAN)可用于填补scRNA-seq缺失事件,提升缺失表达值的恢复能力;LSH-GAN利用局部敏感哈希加速小样本、高维scRNA-seq数据集的样本生成,改善了下游特征选择与聚类效果。
    5.1.4 模式识别与提取
    AI在基因组学中最强大的应用之一是识别复杂数据中的模式并提取有意义的特征,使AI模型能够识别、量化并解读人眼难以察觉的复杂生物学与临床数据。在肿瘤学领域,这些技术与多模态整合相结合,显著提升了恶性肿瘤检测、结局预测及个体化治疗策略制定的能力。
    5.1.5 变异识别
    变异识别是从测序数据中鉴定单核苷酸多态性(SNPs)与插入缺失(indels)等遗传变异的过程,AI算法特别是深度学习模型已被开发用于提升变异识别的准确性与效率。这些模型可高精度分析测序读段、检测变异并区分真实变异与测序错误。卷积神经网络(CNN)已成功用于变异识别,通过将测序数据转换为堆叠图等类图像表示,网络学习区分真实变异与测序噪声或假象,可捕获读段比对中的局部空间依赖性,在处理低频突变或噪声测序区域时较传统基于规则或统计的识别方法表现更优。在肿瘤学中,CNN还可从原始或预处理测序数据中提取潜在特征,与特定突变特征或基因组不稳定性模式相关联,这些特征是不同癌症亚型的特征。通过从大规模标注癌症基因组数据集直接学习,基于CNN的模型可泛化至不同测序平台与肿瘤亚型,为准确高效发现常见肿瘤学变异提供强力工具。DeepVariant、DeepSom、NeuSomatic、VarNet及DeNovoCNN等工具均使用CNN通过将测序数据转换为类图像表示来识别遗传变异,区别在于其聚焦方向与输入数据:DeepVariant主要关注种系突变,尤其适用于健康个体或患者测序数据中的单核苷酸多态性与小插入缺失检测;DeepSom与NeuSomatic则专为体细胞突变检测设计,在癌症研究中尤为实用;VarNet利用同一患者的配对肿瘤与正常样本识别肿瘤体细胞突变;DeNovoCNN旨在发现新生突变,主要应用于家系研究以识别自发性遗传改变。这些AI工具共同提升了变异检测的准确性,尤其针对低频突变。
    循环神经网络(RNN),特别是长短期记忆(LSTM)与门控循环单元(GRU)架构,已显示出建模基因组数据序列与上下文特征并进行变异识别的能力。与针对空间模式识别优化的CNN不同,RNN专为捕获有序序列中的依赖关系设计,非常适合分析DNA链上的核苷酸模式。这些工具可将比对后的测序读段作为碱基序列、碱基质量分数与比对信息处理,学习识别指示真实变异存在的序列基序与位置依赖关系,在需要通过局部上下文区分真实体细胞突变与测序或比对错误的基因组区域(如重复元件、同聚物或复杂结构变异区域)中尤为有价值。此外,RNN可用于建模纵向组学数据中的时间或位置关系,例如疾病进展或治疗过程中基因表达或突变负荷的变化,这种时间建模能力使变异解读更具动态性与个体化,尤其在肿瘤演化与耐药机制研究中。已有研究采用基于RNN的工具进行基因组分析与变异检测,EvoLSTM应用双向LSTM编码器-解码器模型获取序列上下文与侧翼核苷酸,增强了突变过程的建模能力;Lokatt结合残差层与LSTM提升纳米孔碱基识别准确性,这是直接影响下游变异识别的关键步骤;DAVI比较了基础RNN与LSTM在单核苷酸变异检测中的表现,证明长程依赖对准确识别至关重要。尽管当前变异识别流程中RNN的应用少于CNN,但其正被整合进混合架构以结合空间与序列建模优势,提升体细胞变异检测的准确性与可靠性,即使面对高度异质且受噪声影响的癌症数据集也不例外。
    5.1.6 基因表达分析
    提取不同癌症类型、肿瘤分期及治疗下的基因表达模式,对确定分子通路、克隆动力学及治疗反应的差异至关重要。AI已成为研究转录组数据复杂性的关键工具,这类数据通常涉及数百或数千名患者中数万个基因的检测。传统方法基于差异表达分析或主成分分析(PCA)等统计方法,可提供有用总结,但可能遗漏驱动肿瘤行为的非线性关系。AI模型,特别是无监督与表征学习技术,正越来越多地用于发现高维转录组数据中的隐藏结构,这些模型可学习捕获共表达关系、基因模块或通路水平活性的潜在模式,这些特征无法通过传统分析观察到。例如,变分自编码器(VAE)已应用于泛癌转录组数据以揭示捕获生物学变异的潜在特征,经TCGA RNA-seq数据训练的VAE可区分卵巢癌亚型,提取与生存结局相关的模式;该方法还可整合卵巢癌的多组学层,将潜在维度与临床预后相关联,而Dr.VAE等模型通过学习治疗前后状态改善了药物反应预测。在单细胞层面,单细胞变分推断及整合多组学层的扩展版本(totalVI)等模型可提取稳健的潜在模式,揭示与治疗抵抗及肿瘤进展相关的转录改变。另一类相关技术是网络基深度学习,已成为通过分析基因-基因相互作用先验知识来解析基因表达的强力工具,图卷积网络(GCNs)等方法已应用于乳腺癌研究,识别与内分泌抵抗相关的共表达模块,凸显了选择性治疗如何塑造克隆适应;相似性网络融合(SNF)则将多种分子数据类型整合为统一网络,可在肺癌与胰腺癌中发现具有不同转录与演化特征的病患亚组。AI还推动了转录组学中的跨组学整合,MOFA+与totalVI等工具支持RNA表达、拷贝数改变、甲基化或蛋白质丰度模型的联合分析,捕获跨分子水平的变异,这些方法已应用于批量与单细胞数据,将转录状态与遗传背景及微环境背景相关联,提供肿瘤演化与耐药亚克隆出现的全景视图。
    5.1.7 预测建模与疾病诊断
    AI驱动预测建模通过利用大规模基因组与临床数据集,正在革新疾病诊断与预后评估,这些模型在识别风险、表征肿瘤生物学、预测疾病进展及个体化治疗方面具有巨大价值。通过学习多维数据中的复杂模式,经典机器学习(ML)与深度学习(DL)算法能够超越传统统计工具,为预后与疾病诊断预测提供新的洞见。
    5.1.8 疾病风险预测
    AI模型正越来越多地用于预测个体发病风险,尤其在基因组学与癌症研究领域。监督学习方法利用已知结局(如疾病状态)训练模型,将遗传或多组学模式映射为风险。经典算法包括逻辑回归与支持向量机(SVMs),因其在高维基因组数据中的可解释性与有效性而被广泛应用;决策树与集成方法,包括随机森林与梯度提升机(XGBoost),可捕获遗传变异与疾病表型之间的非线性行为并减少过拟合,适合临床预测。近期深度学习工具已被用于整合种系变异、体细胞突变、转录组谱与临床协变量,学习层级特征以提升癌症易感性等复杂特征的预测能力,例如DeepRisk这一全基因组深度神经网络在阿尔茨海默病、炎症性肠病、2型糖尿病及乳腺癌的预测中表现优于经典多基因风险评分(PRS)方法。多项研究显示了这些监督工具的转化潜力,多基因风险评分(PRS)常通过逻辑回归或LASSO等惩罚回归计算,已用于按乳腺癌与前列腺癌风险对患者人群进行分层;针对非黏液性卵巢癌,基于LASSO的惩罚逻辑回归得到的PRS可显著在不同血统中分层风险;随机森林等集成模型已识别出与结直肠癌易感性相关的多位点相互作用。这些案例凸显了监督AI模型如何将高维基因组数据转化为疾病预测、患者分层与临床决策的实际洞见。
    5.1.9 精准医学
    AI在分析基因组数据以识别潜在治疗靶点、预测患者对治疗的反应方面发挥关键作用,机器学习算法可帮助基于患者遗传谱进行分层,改善个体化治疗方案,进而提升治疗效果并减少不良反应。识别基因表达模式与突变特征等生物标志物是AI工具的主要应用之一,这些候选生物标志物可提供关于肿瘤分子通路与潜在治疗靶点的宝贵信息。一方面,随机森林或支持向量机(SVMs)等监督学习技术常被用于识别分子模式,区分肿瘤与正常样本,识别用于癌症早期检测或预后的生物标志物;另一方面,聚类、t-SNE与UMAP等无监督学习方法可帮助发现组学数据中的隐藏模式,提示异质性癌症群体中存在未鉴定的分子亚型。MOFA+与单细胞VAE应用(scVI、totalVI)可提取与结局相关的潜在特征,而相似性网络融合等网络整合方法可揭示具有不同分子表型的患者亚组,这些工具已应用于批量与单细胞数据集以获取待验证的候选生物标志物与分子亚型。在患者分层与临床决策支持方面,AI模型可整合基因组、表观基因组、转录组与蛋白质组等多组学数据,将患者归类为分子亚型,便于识别最可能从靶向抑制剂或免疫疗法等特定治疗中获益的个体,例如DeepGene与AutoPrognosis等深度学习算法已被用于整合多组学数据进行全面患者分类,并在临床试验与精准肿瘤学中提供实时决策支持,还可根据患者分子谱为其匹配个体化治疗,改善治疗效果与患者结局。AI模型还可用于预测药物反应,尤其是基于体细胞突变、拷贝数变异与基因表达谱等分子特征的靶向治疗反应,通过利用癌症细胞系百科全书(CCLE)与癌症药物敏感性基因组学(GDSC)等药物基因组学数据集及深度学习技术,可预测药物疗效并识别耐药生物标志物,实际应用的例子包括Dr.VAE等清晰建模药物扰动的深度生成模型,已显示出改善细胞系药物敏感性预测的潜力。此外,AI在分析遗传与转录组数据以识别与特定治疗耐药相关的突变方面发挥重要作用,这一进展可帮助临床医生预判耐药的出现并相应调整治疗方案。为建模肿瘤演化动力学并预测不同治疗条件下肿瘤随时间的演化,可使用AI工具整合遗传、表型与环境数据及肿瘤进展与治疗反应数据,提升癌症演化预测的准确性,循环肿瘤DNA(ctDNA)可能是深入研究以检测微小残留病灶或早期复发信号的关键靶点,DELFI等全基因组片段组分类器是分子时间序列如何先于影像学进展、帮助预判新兴耐药的例子。
  6. 6.
    整合基因组学与多组学分析
    整合基因组、转录组、蛋白质组、表观基因组与代谢组等多种组学数据类型,使研究人员能够全面理解健康与疾病的分子机制。AI在分析整合这些复杂数据集方面发挥关键作用,能够发现单独考察每种数据类型时可能丢失的新信息。
    6.1 多组学数据整合
    多组学数据整合是将不同生物学来源的数据结合起来、构建反映相互作用与调控机制的统一模型的核心过程,机器学习与深度学习等AI技术是实现这一整合的工具。癌症研究中的多模态学习通过促进模型同时结合基因表达、DNA甲基化、miRNA与拷贝数改变等多种组学数据及临床数据,取得了重要进展,这种方法提升了疾病状态与结局的预测能力。例如DeepMoIC算法采用图卷积网络(GCN)架构整合mRNA表达、miRNA与甲基化数据,以高精度对癌症亚型进行分类,表现优于单组学训练的模型;类似地,MOLUNGN模型整合同类数据,结合图注意力网络与组学特异性模块,后接相关性发现融合层,在非小细胞肺癌分期分类中表现优异,并能发现特异性生物标志物。张量与矩阵分解是数据融合与表征的学习技术,近期研究采用多种组学类型的深度嵌入与融合,较单组学模型提升了药物反应预测能力;MOGAT工具则使用矩阵或注意力融合整合组学数据集,证明融合模型在乳腺癌预后分层中优于基线模型。基于网络的方法,特别是图神经网络,在建模复杂分子相互作用方面日益强大,用于多发性骨髓瘤与TCGA癌症类型的多组学生存的几何图神经网络(GGNN)纳入了来自蛋白质-蛋白质相互作用网络与通路信息的几何特征,提升了生存预测的准确度与可解释性;另一项针对不同GNN架构(GCN、GAT、GTN)应用于31种癌症类型的mRNA、miRNA与甲基化数据的多组学整合比较分析显示,当图结构与生物学先验知识整合良好时,基于注意力的GNN(GAT)往往表现更优。
    6.2 功能基因组学
    AI通过将从原始序列与表观基因组数据转化为关于变异与调控元件如何影响基因功能、细胞状态及疾病的机制假说,加速了功能基因组学的发展。现代方法分为三类,部分存在重叠:编码与非编码变异的效应预测、从表观基因组与序列数据识别并解读调控元件、整合多组学证据以优先排序驱动事件与干预脆弱节点的通路与网络建模。深度学习显著提升了变异效应预测能力,涵盖编码与非编码变异。DeepMind的AlphaFold证明了从序列进行蛋白质结构全proteome规模预测的可行性,为推断错义变异如何干扰折叠或相互作用奠定了基础;近期蛋白质语言模型已被用于对整个proteome的错义变异影响进行评分,为数百万种可能的氨基酸替换提供全基因组效应估计。在遗传变异识别方面,DeepVariant等工具使用深度学习将原始DNA测序数据转化为高准确度的变异识别结果;针对通过调控机制发挥作用的非编码变异预测,则有DeepSEA及Basenji、Enformer等卷积或注意力架构模型,这些工具直接从大型染色质分析数据集中学习调控密码,可预测单核苷酸改变对跨细胞类型的染色质标记与基因表达的影响,这些模型捕获长程相互作用与细胞类型特异性,改进了优先排序候选调控变异用于实验随访的计算扰动筛选。另一方面,AI还可通过结合表观基因组分析(ATAC-seq、DNase-seq、ChIP-seq)、序列背景与三维接触来提名增强子、启动子与绝缘子,提升调控元件的发现能力,这些深度模型训练后的灵敏度与分辨率高于单独的峰识别,结合实验扰动可帮助建立元件与目标基因之间的因果关系。AI驱动的通路与网络分析旨在发现驱动疾病的通路、模块与调控枢纽,
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号