组织学影像预测分子生物标志物：混杂因素、偏倚挑战与临床转化困境

《Nature Biomedical Engineering》：Confounding factors and biases abound when predicting molecular biomarkers from histological images

【字体：大中小】 时间：2026年03月03日 来源：Nature Biomedical Engineering 26.6

编辑推荐：

　　当前基于深度学习的全切片图像（WSI）模型被寄望于替代分子检测，快速推断癌症生物标志物状态。然而，本研究通过跨多种癌症类型、数据集和建模方法的统计分析揭示，训练数据中生物标志物与临床病理特征之间存在强烈的相互依赖关系，导致模型学习到混杂信号而非目标生物标志物的特异性生物学特征。其预测准确度高度依赖于共依赖生物标志物和临床病理变量的状态，对多种生物标志物的预测能力超越病理学家从常规组织学特征（如分级）中已能推断的增益有限。这些发现表明，当前方法尚不适合作为分子检测的替代品，但可在谨慎评估下用于分诊或补充决策。实现无混杂的生物标志物预测，需要模型学习生物标志物与组织形态之间的因果关系而非相关关系。

在精准医疗时代，准确、快速地获取肿瘤的分子生物标志物信息对于指导治疗方案至关重要。传统的分子检测方法，如基因测序，虽然精准，但存在成本高、耗时长、可能破坏组织等局限。随着计算病理学的发展，一个诱人的前景出现了：能否直接利用常规苏木精-伊红（H&E）染色的全切片图像，通过深度学习模型，“一眼看穿”肿瘤的分子秘密？近年来，大量研究声称能够从全切片图像预测诸如微卫星不稳定性、激素受体状态以及TP53、BRAF、KRAS等关键基因突变，其性能指标（如AUROC）常常看起来相当出色。这些方法似乎为快速、低成本的生物标志物检测铺平了道路，甚至有望替代部分分子检测。

然而，在一片乐观之中，一个根本性问题被忽视了：肿瘤在显微镜下的表现，是其内部错综复杂的分子网络共同作用的结果，而非单个基因变化的“独家秀场”。生物标志物之间常常存在共现或互斥的复杂关系，同时它们也与肿瘤分级、突变负荷等临床病理特征紧密关联。当训练深度学习模型时，如果这些内在的依赖关系被忽略，模型学到的究竟是目标生物标志物独特的形态学指纹，还是与之纠缠不清的其他因素共同塑造的“混合体”？这种潜在的混淆是否会夸大模型的表观性能，并在应用于不同患者群体或外部数据集时暴露其脆弱性，进而危及临床转化的可靠性？

为了系统性地回答这些问题，一项发表在《自然-生物医学工程》的研究展开了深入调查。研究人员旨在揭示当前基于全切片图像的生物标志物预测方法所面临的深层次挑战。他们的核心假设是：训练数据中生物标志物状态之间以及它们与临床病理变量之间的相互依赖性，会导致机器学习模型依赖于多个因素的聚合影响，而非学习与单个生物标志物相关的特定模式，从而产生有偏见的预测。

为了验证这一假设，研究人员开展了一项大规模回顾性分析。他们整合了来自乳腺癌、结直肠癌、子宫内膜癌和肺癌的8,221名患者数据，涵盖TCGA、METABRIC、MSK、DFCI等多个知名队列。研究首先系统分析了不同生物标志物和基因突变状态之间的相互依赖性（共现与互斥模式）。接着，他们训练了多种主流的深度学习模型来从全切片图像预测生物标志物状态，包括基于注意力的CLAM、基于图神经网络的SlideGraph^∞，以及基于多模态基础模型TITAN的特征构建的单输出/多输出预测模型。然后，研究通过创新的分层分析和置换检验，评估模型在预测某一生物标志物时，其性能是否受到其他有依赖关系的生物标志物或临床病理变量（如肿瘤分级、肿瘤突变负荷）状态的显著影响。最后，他们还将这些复杂模型的预测能力与仅基于病理学家判读的组织学分级的简单基线模型进行了比较，以评估其附加价值。

关键技术方法概述：

本研究主要采用了多种计算病理学与生物信息学分析技术。1) 数据整合与预处理：从TCGA、METABRIC、MSK、DFCI、CPTAC和ABCTB等多个公开队列获取患者的H&E染色全切片图像及对应的分子生物标志物、基因突变、临床病理数据。使用基于U-Net的模型进行组织分割，排除伪影区域，并提取组织 patches。2) 特征提取与模型构建：使用在ImageNet上预训练的ShuffleNet卷积神经网络和在组织学图像上自监督预训练的CTransPathTransformer模型，从全切片图像 patches 中提取特征。基于这些特征，训练了CLAM（注意力多实例学习）和SlideGraph^∞（图神经网络）等弱监督模型进行生物标志物预测。同时，利用了在多模态病理图像-报告对（33万对）上训练的基础模型TITAN的整张切片特征，构建了逻辑回归和带排序损失的多层感知机模型。3) 相互依赖性与混杂效应分析：使用对数优势比和Fisher精确检验分析生物标志物间的共现/互斥关系。通过分层分析和置换检验（10,000次），量化模型预测性能在由混杂变量（如其他生物标志物状态、肿瘤分级、TMB）定义的患者亚组中的变化，以评估混杂偏倚。4) 基线模型比较：使用支持向量机，仅以组织学分级的独热编码作为输入，预测生物标志物状态，作为评估深度学习模型附加价值的简单基线。

研究结果：

数据与研究设计

研究分析了利用机器学习从H&E染色全切片图像预测分子生物标志物（如突变、基因组不稳定指标、蛋白表达）的现有方法的局限性。其概念框架如图1所示。研究假设，训练数据中生物标志物状态和临床病理变量之间的相互依赖性，以及在模型开发中对这种关联的忽视，会使机器学习模型偏向于依赖全切片图像中多个因素的聚合影响，而非与单个生物标志物相关的模式。为阐明此点，研究回顾性分析了来自四个癌种的8,221名患者数据，并进行了四个主要步骤的分析：生物标志物间相互依赖性分析、训练深度学习模型、通过分层分析和置换检验评估模型偏倚、以及分析模型相较于病理学分级的附加预测价值。

生物标志物状态显示出显著的相互依赖性和变异

分析揭示了跨癌症类型的生物标志物之间存在显著的相互依赖性。例如，在乳腺癌中，高表达的雌激素受体和孕激素受体与CDH1、MAP3K1和PIK3CA突变共现，但与TP53突变互斥。在结直肠癌中，微卫星不稳定性高（MSI-H）病例常伴有BRAF、ATM、ARID1A和RNF43突变，而较少伴有KRAS突变。此外，同一组织类型中，生物标志物关联在不同数据集间也存在变异，反映了抽样差异。这些结果表明，生物标志物状态显著相互依赖，且其关联模式因数据集而异，因此，在全切片图像上训练的机器学习模型可能学习由多个相互依赖的生物标志物驱动的复合表型，从而引入队列特异性偏倚，限制其泛化能力。

从全切片图像预测生物标志物和基因改变

研究证实，所分析的模型得到了正确训练。不同的模型配置在交叉验证和独立验证队列中对多种生物标志物实现了AUROC > 0.80的预测性能。例如，在乳腺癌中，使用CTransPath特征的CLAM模型预测雌激素受体和孕激素受体状态的AUROC分别达到0.87和0.79。在结直肠癌中，SlideGraph^∞预测MSI状态的AUROC达到0.89。除了弱监督方法，基于TITAN全切片图像特征表示训练的单输出和多输出模型也表现出大致相似的性能。

生物标志物状态间的相互依赖性导致从全切片图像捕获的表型特征纠缠不清

混杂因素分析表明，基于全切片图像的预测模型受到生物标志物相互依赖性的强烈影响。对于多种生物标志物，这些模型所达到的较高的队列水平AUROC，在由各种分层变量状态定义的亚组中大幅下降。例如，SlideGraph^∞预测结直肠肿瘤MSI状态（预测变量）的AUROC为0.88。然而，当将同一患者集按高突变和非高突变亚组（分层变量）划分时，MSI状态预测的AUROC在每个亚组内降至0.72。在按其他与MSI共现（如CIMP活性、高突变、APC状态）或互斥（如BRAF、CINGS）的生物标志物分层时，也观察到类似效应。这些观察结果超越了结直肠肿瘤，在乳腺癌和子宫内膜肿瘤的生物标志物预测模型中也很明显，且与特定模型架构、特征嵌入或训练方法无关。这些结果表明，机器学习模型的生物标志物预测取决于其他相互依赖的生物标志物的状态，这些模型很可能依赖于潜在相互作用的生物标志物产生的复合表型，而非学习生物标志物特异性的形态学。

基于全切片图像的生物标志物预测受到组织学分级的混杂影响

基于全切片图像的模型在预测乳腺癌肿瘤受体状态时，在队列水平取得了高AUROC。然而，按肿瘤分级进行的分层分析显示了明显的亚组水平性能下降。雌激素受体预测模型的AUROC在中等分级病例中降至0.76，孕激素受体预测模型的AUROC在低和中等分级病例中分别降至0.59和0.69。突变预测模型也表现出类似的分级特异性性能下降。这些模式超越了乳腺癌，在子宫内膜肿瘤的突变预测模型中也显而易见。研究进一步表明，基于全切片图像模型的表观AUROC对训练和测试队列之间生物标志物-分级关联的变化很敏感。这些结果，让人联想到辛普森悖论，表明基于全切片图像的生物标志物预测模型严重依赖与分级相关的形态学，而非生物标志物特异性的表型特征，这使得它们在分级-生物标志物关联与训练数据不同的外部队列中泛化能力较差。

生物标志物预测模型超越病理学家分级判读的附加预测能力

分析表明，跨癌症类型的几种生物标志物状态可以通过高于仅凭病理学家判读分级所预期的准确度进行推断，并且在几种情况下，其性能接近深度学习模型。在乳腺癌中，基于分级的雌激素受体和孕激素受体分类器在TCGA-BRCA队列中的AUROC分别达到0.76和0.70。分级也能以0.75的AUROC预测TP53突变，几乎与弱监督机器学习模型达到的0.81持平。在TCGA-UCEC和CPTAC-UCEC队列中，TP53和PTEN预测模型也观察到类似的AUROC模式。这些结果表明，对于某些生物标志物，机器学习算法相对于病理学家判读的分级提供的附加预测价值有限。强烈的分级-生物标志物关联也使得机器学习模型面临将分级相关的表型差异与生物标志物状态联系起来的风险；因此，基于全切片图像的模型需要超越这一基于分级的基线，并建立独立于肿瘤分级的稳健表型-基因型关联。

基于全切片图像的生物标志物预测受到其他基因突变密度的混杂影响

基于全切片图像的模型可以高置信度地从全切片图像推断结直肠肿瘤中的BRAF和TP53突变。然而，分层分析揭示了一个重大挑战：对于BRAF之外其他基因突变密度低的病例，BRAF预测因子的准确度下降至AUROC 0.65。类似地，TP53预测因子AUROC在高肿瘤突变负荷病例中降至0.50。在CPTAC-CRC队列中也观察到类似趋势。这一观察也延伸至子宫内膜癌。研究进一步表明，肿瘤突变负荷和生物标志物状态之间关联强度的变化，显著影响了基于全切片图像的预测因子的预测准确性。这一分析表明，模型的预测不仅受目标预测变量（如KRAS突变状态）的影响，还受总体肿瘤突变负荷的影响，这影响了预测准确性。

研究结论与讨论

本研究揭示了当前基于H&E染色全切片图像的深度学习模型在临床和临床前应用中存在关键局限，特别是其在模型训练和推理中未能考虑生物标志物间的相互依赖性。统计分析首先证明了跨组织类型和数据集的分子因子间存在显著的相互依赖性，表现为互斥和共现模式。随后，通过置换检验和分层分析表明，训练数据中的这些关联导致模型对给定生物标志物的预测依赖于其他共依赖生物标志物的状态。例如，孕激素受体预测模型在CDH1突变病例中表现出明显的性能下降。这种亚组性能的下降表明，当前的机器学习模型无法从全切片图像中组织表型的多因素影响中完全理清生物标志物特异性信号。

当共依赖的生物标志物具有不同的治疗意义时，模型无法辨别生物标志物特异性信号具有直接的临床影响。一个例子是结直肠癌中BRAF与微卫星不稳定性的关联。分析表明，基于全切片图像的微卫星不稳定性预测依赖于BRAF状态，在BRAF突变型和野生型亚组中AUROC均下降，且在按微卫星不稳定性状态分层时，BRAF预测模型也观察到类似模式。然而，微卫星不稳定性高和BRAF突变具有不同的治疗意义。一个无法区分微卫星不稳定性高和BRAF状态的模型可能获得较高的总体AUROC，但缺乏临床效用，因为混淆两者会误导治疗选择。这个例子强调了需要进行偏倚感知评估的广泛需求。

超越生物标志物相互依赖性的影响，研究还表明这些模型利用全切片图像中显著的分级或肿瘤突变负荷相关特征作为生物标志物预测的代理。在乳腺癌中，雌激素受体和TP53预测模型的AUROC在按分级分层的亚组内显著下降，且跨队列分级-生物标志物关联的变化导致表观准确性的改善或下降。同样，按肿瘤突变负荷分层分析显示BRAF、TP53和其他标志物的AUROC大幅下降。这些模式反映了计算病理学中一个更广泛的挑战：模型倾向于利用混杂变量并将其与目标生物标志物混淆，从而模糊了真实的基因型-表型关系，限制了泛化能力并引入了偏倚。

这些发现强调了需要谨慎解读外部验证结果。在分析中，雌激素受体预测模型在TCGA-BRCA的交叉验证中达到了0.87的AUROC，在更大的独立队列中达到了0.90，这可能被解释为模型具有出色的泛化能力。然而，仔细检查后发现，这种AUROC的表观提升很大程度上是由验证队列中更强的分级-雌激素受体关联驱动的。此外，在按分级分层的亚组内，这个复杂的雌激素受体预测模型的预测性能并不比简单的基于分级的分类器有实质性提升。这说明，在声称临床效用之前，必须辅以偏倚感知评估。

生物标志物相互依赖性和临床病理变量的混杂影响表明，当前模型尚未准备好取代常规护理中的基因组检测。相反，在严格评估其性能且关键临床决策仍得到确认性测试支持的前提下，它们更适用于分诊、筛查或补充决策支持。为确保真正的临床效用，作者建议进行偏倚感知评估，包括报告按分级和肿瘤突变负荷分层的指标和亚组校准，而非仅依赖总体AUROC。这些发现也对将疾病表型与生物标志物联系起来或根据生物标志物状态评估治疗反应的研究和试验具有重要意义。在这两种情况下，建立稳健的关系需要确保目标生物标志物不与队列特异性协变量紧密耦合。

尽管从H&E全切片图像预测生物标志物状态的方法存在局限性，它们仍可提供重要价值。它们可以通过揭示组织学与分子因子之间的关联来促进研究和假设生成，特别是在无法进行额外检测的组织有限或回顾性场景中。基于全切片图像的模型还为大规模临床前和转化研究提供了可扩展且经济高效的替代方案，并可作为早期试验或资源有限环境中的快速预筛查工具。在药物开发中，它们可以帮助缩小需要进行更耗资源的分子分析的候选者范围，并在适当的保障措施和临床医生监督下，通过指导何时需要进行确认性测试来支持分诊。

尽管从常规H&E全切片图像预测生物标志物状态看似是简单的图像到标签映射，但实际上要复杂得多，因为全切片图像中的表型很少由单一因素驱动，而是反映了多个共依赖分子因子的综合效应。分析表明，当前的方法，包括单输出和多输出模型，以及跨不同特征表示的机器学习和基于图的方法，未能可靠地学习生物标志物特异性的基因型-表型映射；相反，它们利用相互依赖的生物标志物的聚合表型或队列特异性关联作为预测的代理。这导致产生有偏倚的模型，其性能在由共依赖变量定义的患者分层中下降。这些发现推动了对方法的重新构思，包括将其形式化为因果、结构化多标签学习问题，通过标签空间显式编码生物标志物间的依赖关系，在条件独立性目标指导下学习解缠的图像表示，通过因果调整和反事实数据增强来减轻混杂，以及优化不变性和分布鲁棒性，并结合基于条件指标和亚组校准的评估协议。

订阅生物通快讯

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯