一种用于从组织病理图像同时预测胃癌微卫星不稳定性(microsatellite instability, MSI)与肿瘤突变负荷(tumor mutational burden, TMB)的多任务深度学习框架

《Frontiers in Oncology》：A multi-task deep learning framework for simultaneous prediction of microsatellite instability and tumor mutational burden in gastric cancer from histopathological images

【字体：大中小】 时间：2026年06月09日 来源：Frontiers in Oncology 3.3

编辑推荐：

　　摘要背景：胃癌(gastric cancer, GC)的临床管理日益依赖微卫星不稳定性(MSI)与肿瘤突变负荷(TMB)等生物标志物，以筛选可能从免疫检查点抑制剂(ICIs)获益的患者。然而，下一代测序(next-generation sequencing,

摘要背景：胃癌(gastric cancer, GC)的临床管理日益依赖微卫星不稳定性(MSI)与肿瘤突变负荷(TMB)等生物标志物，以筛选可能从免疫检查点抑制剂(ICIs)获益的患者。然而，下一代测序(next-generation sequencing, NGS)的高成本与复杂性限制了其普及。研究人员假设，单一深度学习模型可直接从常规组织病理切片中同时准确预测这两种生物标志物，提供一种变革性、经济高效的辅助诊断工具。本研究旨在开发一种多任务深度学习框架，利用常规组织病理图像与临床数据同时预测MSI和TMB。方法：研究人员提出了一种新颖、可解释的多元多任务深度学习框架，同步预测MSI与TMB状态。该模型创新性地在端到端架构中整合了全切片图像(whole slide images, WSIs)与临床数据。其采用预训练ResNet50进行特征提取，引入注意力机制(attention mechanism)识别具有预测价值的图像区域，并利用多模态紧致双线性池化(Multimodal Compact Bilinear Pooling, MCBP)层将图像特征与结构化临床数据（性别、年龄、T/N/M分期）融合。模型在癌症基因组图谱(The Cancer Genome Atlas, TCGA)的312例患者的数据上训练，同时纳入来自中国医学科学院肿瘤医院的121例GC患者组成的扩大独立外部验证队列以确保稳健性。结果：该多模态框架在交叉验证中表现稳健，在TCGA内部测试集上MSI与TMB的受试者工作特征曲线下面积(area under the curve, AUC)分别达0.828和0.836，优于ResNet18、VGG等标准模型。虽然在内部验证中取得高AUC，但由于域偏移(domain shifts)，外部验证集性能适度下降，MSI与TMB的AUC分别为0.78和0.74。模型可解释性通过注意力热图实现，定量空间分析显示MSI与TMB的预测区域存在显著空间一致性，提供了新颖的生物学见解并验证了多任务设计。结论：本工作确立了一种统一的、多任务深度学习框架用于同步预测胃癌关键免疫治疗生物标志物的可行性与准确性。通过利用常规可及的组织病理图像与临床数据，该方法代表了一次重大创新，具有立即降低临床精准肿瘤学应用门槛的潜力。该框架为GC中MSI和TMB提供了一种经济高效的初步筛查工具。尽管外部验证凸显了跨不同扫描仪泛化性的挑战，但该方法在免疫治疗的病人分诊(triaging)中显示出前景。

论文解读

本研究发表于《Frontiers in Oncology》。研究背景方面，胃癌(gastric cancer, GC)是全球重大健康负担，晚期患者比例高，总生存率偏低。免疫检查点抑制剂(immune checkpoint inhibitors, ICIs)为晚期或转移性GC提供了革新性治疗选择，但其疗效存在个体差异。目前，微卫星不稳定性(microsatellite instability, MSI)与肿瘤突变负荷(tumor mutational burden, TMB)是预测ICIs响应的核心生物标志物。MSI由DNA错配修复缺陷(deficient DNA mismatch repair, dMMR)引发，高突变负荷为ICIs提供新抗原；TMB定义为每兆碱基(Mb)体细胞非同义突变数，与客观缓解率(objective response rate, ORR)及无进展生存期(progression-free survival, PFS)显著相关。然而，下一代测序(next-generation sequencing, NGS)与聚合酶链反应(polymerase chain reaction, PCR)作为金标准，受限于高成本、长周转时间及对足量组织样本的需求，在资源受限环境中难以普及。计算病理学的发展表明，组织病理形态学模式可反映分子改变，卷积神经网络(convolutional neural networks, CNNs)可从苏木精-伊红(hematoxylin and eosin, H&E)染色的全切片图像(whole slide images, WSIs)中提取判别性特征。尽管已有研究利用深度学习(deep learning, DL)从肿瘤组织预测基因变异及MSI/TMB，但缺乏统一架构同步预测双生物标志物。为此，研究人员开发了一种多任务深度学习框架，整合WSIs与临床变量，旨在建立可及的预筛查工具，并在扩大外部独立队列上评估性能与可解释性。

为开展研究，研究人员采用几个关键技术方法：第一，构建双队列——训练与内部验证来自癌症基因组图谱(The Cancer Genome Atlas, TCGA)的312例GC患者H&E染色WSIs（.svs格式）及匹配临床数据，外部独立验证来自中国医学科学院肿瘤医院121例患者（初筛130例，经病理质控排除9例），均通过靶向NGS和PCR获取TMB与MSI真值，TMB-H阈值取各队列第25百分位；第二，图像预处理——将WSIs在20×倍镜下切分为256×256非重叠图像块，用大津阈值(Otsu thresholding)剔除组织面积<50%的背景块，采用Macenko方法进行颜色归一化以消除染色差异；第三，模型架构——以预训练ResNet50为骨干，截断至conv4_x层提取1024维特征向量且冻结权重，共享底层特征并分设MSI（分类）与TMB（二分类）任务分支，引入注意力模块对各图像块分配Softmax激活的注意力分数并进行加权池化，再通过多模态紧致双线性池化(Multimodal Compact Bilinear Pooling, MCBP)融合深度图像特征与编码后的临床数据（性别、年龄、T/N/M分期、清扫淋巴结数），最终接入Softmax分类；第四，训练策略——采用五折交叉验证，总损失为两任务交叉熵损失的加权和（c₁=c₂=0.5），随机梯度下降(stochastic gradient descent, SGD)优化器（学习率2×10^?3，权重衰减1×10^?5），隐藏层后接P=0.25的Dropout，训练至少100轮，验证损失连续121轮不降则早期停止；第五，对照与解释——与ResNet18、VGG16/19对比，开展单任务vs多任务、纯图像vs多模态的消融实验，利用注意力热图与Hover-Net细胞核分割进行定量空间分析（交并比Intersection over Union, IoU与皮尔逊空间相关系数）。

研究结果部分：

3.1 患者特征

TCGA队列（n=312）中位年龄67岁；外部独立队列（n=121）中位年龄63岁（42–81岁），男性82例(67.8%)，女性39例(32.2%)；其中MSI-H 24例(19.8%)，TMB中位数6.5 mutations/Mb。

3.2 基线模型对比与消融研究

研究人员比较了所提ResNet50基模型与VGG16、VGG19、ResNet18。在内部验证集上，ResNet50以MSI预测AUC 0.83优于VGG16(0.72)和ResNet18(0.79)，被选为主干。多任务模型（同步MSI/TMB）相比单任务模型总体准确率提升4.5%，表明共享特征对关联生物标志物有益。通过MCBP整合临床数据较纯图像模型带来统计学显著的AUC提升(p<0.05)。

3.3 基于内部与外部验证组织病理图像的模型预测性能

多模态框架在TCGA五折交叉验证中表现优异（MSI AUC 0.828，TMB AUC 0.836）。考虑到GC中MSI阳性约占5.6%的类别不平衡，研究人员引入精确率(precision)、召回率(recall)与F1-score，以0.05步长遍历阈值，确定最佳阈值为0.25（F1-score最高）。此阈值下，MSI预测的敏感性0.68、阳性预测值(positive predictive value, PPV)0.80；TMB预测的敏感性0.677、PPV 0.813。应用于外部独立测试数据(n=121)时，模型性能因域偏移（组织处理、扫描仪硬件、人群差异）而下降，MSI AUC 0.78，TMB AUC 0.74。

3.4 定量可解释性与组织学验证

利用五折交叉验证参数可视化的注意力过程显示，同一患者的MSI与TMB热图预测区域高度重合。定量空间分析表明，前10%高注意力区域的平均皮尔逊相关系数为0.72，交并比(IoU)为0.65。经Hover-Net细胞分割并由主任病理医生盲法评估，高注意力区域显著富集肿瘤浸润淋巴细胞(tumor-infiltrating lymphocytes, TILs，绿色)与坏死区（橙色），与高免疫原性肿瘤的已知生物学吻合。对比实验仅在公开数据上以相同划分与超参数执行，Tables 1、2显示本模型在准确率、F1-score上均优于ResNet18、VGG系列，且MSI与TMB预测性能相当，印证二者在GC中的密切相关性。此外，基于预测MSI/TMB状态的K-M曲线显示患者总生存与无复发生存存在显著差异。

3.5 融合图像信息与临床信息的多模态模型预测性能

研究人员筛选TCGA与医院重叠的临床指标（T/N/M分期、年龄、清扫淋巴结数、性别），单因素COX回归显示年龄(P<0.001)、M1期(P<0.005)、N3期(P<0.005)与GC生存显著相关；Wilcoxon秩和检验表明年龄与N分期对MSI及TMB状态分组均有显著影响。采用MCBP融合临床与图像特征后，五折交叉验证平均结果进一步提升（MSI: 0.828→0.852，TMB: 0.836→0.850）；独立测试混淆矩阵中MSI与TMB-H预测精度也进一步提高，说明多模态信息融合可填补单模态信息缺口，以较低成本提升泛化与预测准确度。

讨论部分总结：研究人员成功开发并验证了一种多模态多任务深度学习框架，可从常规H&E染色WSIs与临床数据中同步预测GC的MSI和TMB。ICIs辅助治疗中TMB与MSI的预测价值已被广泛认可，但传统检测仍具临床壁垒。现有计算方法多聚焦单一标志物，本集成筛查工具通过多任务学习利用错配修复缺陷与突变累积的生物学关联，在ResNet18、VGG16等单任务模型上展现出增强的预测能力。定量空间注意力分析(IoU=0.65)证实网络利用共享形态学特征，并与密集TILs、坏死、黏液分化等免疫原性标志共定位，赋予模型必要的生物学合理性。尽管内部验证稳健，外部验证尤其是TMB预测性能明显衰减（AUC自>0.85降至~0.78）。研究人员将此视为计算病理学的常见瓶颈而非模型无效：预分析域偏移（组织固定、H&E染色协议、数字扫描仪剖面）及TCGA西方人群与亚洲外部队列的种族异质性共同导致衰减；外部评估也受限于小样本及有限MSI/TMB-H阳性数，回顾性数据亦限制全面临床变量可用性。本研究虽证明同步预测多基因组生物标志物的理论可行性与形态学基础，但跨中心泛化仍具挑战。未来研究应融入域适应策略（如生成对抗网络(generative adversarial network, GAN)染色迁移、联邦学习），并在大规模多中心、阳性例数均衡的队列中再验证。从临床定位看，该模型并非NGS的完全替代，而是快速、经济的预筛查分诊(triaging)工具：在资源受限场景中，快速初筛所有GC切除标本，可高效将高概率MSI-H/TMB-H患者优先送交确诊性NGS及后续ICIs，从而优化医疗资源并缩短周转时间。

结论部分翻译：

总之，研究人员开发了一种多模态深度学习框架，能够利用组织病理图像与临床数据同时预测胃癌中的微卫星不稳定性(MSI)与肿瘤突变负荷(TMB)。该方法在突显肿瘤形态与基因生物标志物关联方面表现出前景，但当前模型在不同机构数据集间存在性能波动。在可靠整合至常规临床决策流程前，需要在更大多中心队列上进一步验证，并融合先进的域适应策略。

热点排行