
-
生物通官微
陪你抓住生命科技
跳动的脉搏
从组织学到诊断:利用病理学基础模型实现胶质瘤分子分型的突破
【字体: 大 中 小 】 时间:2025年09月06日 来源:Computer Vision and Image Understanding 3.5
编辑推荐:
推荐:本研究针对WHO CNS5分类标准下胶质瘤分子分型诊断的临床需求,系统评估了UNI、GigaPath等五种病理学基础模型(FMs)结合ABMIL分类器在TCGA等三大数据集上的性能。研究发现FM嵌入可实现AUC>0.93的优异分类表现,揭示了数据多样性比模型规模更影响泛化能力,并通过随机卷积(RC)等创新方法有效缓解了数据集特异性偏差问题。
胶质瘤作为最常见的原发性中枢神经系统恶性肿瘤,其精准诊断直接关系到患者治疗方案选择和预后评估。随着WHO CNS5分类标准将分子特征纳入诊断金标准,临床面临基因检测成本高、周期长的现实挑战。传统基于H&E染色切片的形态学诊断虽简便快速,却难以可靠区分IDH野生型胶质母细胞瘤、IDH突变型星形细胞瘤和少突胶质细胞瘤等分子亚型。数字病理与人工智能的融合为这一困境带来转机,特别是基于Transformer架构的病理学基础模型(FMs)通过自监督学习从海量组织图像中提取通用特征,有望实现"看片知基因"的诊断突破。
研究团队从TCGA、EBRAINS和慕尼黑工业大学医院(TUM)三大来源获取1875例样本,采用DINOv2框架训练的UNI、GigaPath等五种FMs生成组织 patch 嵌入,结合CLAM和MambaMIL两种注意力多实例学习分类器,系统评估了分子亚型预测性能。关键技术包括:全切片图像(WSI)的256×256 patch分割、Macenko染色标准化(MN)和随机卷积(RC)数据增强、基于UMAP的嵌入空间可视化,以及包含马修斯相关系数(MCC)和平衡准确率(BA)的多维度评估体系。
在"Foundation model choice affects downstream performance and generalizability"部分,研究发现不同FMs在保留数据集(TCGA)上表现相近(AUC>0.93),但GigaPath和H0-mini在独立验证集(TUM/EBRAINS)展现最优泛化能力,而最大的Virchow模型反而表现最差,提示模型性能与训练数据中CNS组织比例正相关,与参数量无关。"Foundation model embeddings capture dataset-specific noise"通过UMAP可视化揭示嵌入空间存在显著数据集聚类现象,线性探针实验证实FMs会编码数据集特征信息。"Random convolutions reduce domain gap in embedding space"部分证明RC增强能有效混合不同数据集的嵌入分布,使数据集分类准确率从99.7%降至82.4%,显著优于MN标准化方法。"Train-time and test-time augmentations improve subtype discrimination"显示RC训练增强结合MN/RC测试时增强集成策略,使TUM数据集星形细胞瘤分类准确率提升11.9%,整体BA达87.2%。
讨论部分强调三个关键发现:首先,GigaPath凭借28家机构的多源数据优势,其嵌入空间包含最丰富的可解释病理特征;其次,蒸馏模型H0-mini在零CNS训练数据情况下仍达顶尖性能,揭示知识蒸馏的迁移学习潜力;最后,临床验证显示模型注意力能捕捉假栅栏状排列等典型形态学特征,对WHO CNS4级星形细胞瘤等疑难病例的误判具有合理生物学基础。该研究为病理AI领域提供了重要方法论启示:数据多样性优于模型规模,而适度的扰动增强可提升嵌入空间的生物学相关性。未来工作需扩大临床验证规模,并探索与MRI、电子病历的多模态融合,最终实现从组织形态到分子特征的智能诊断闭环。
生物通微信公众号
知名企业招聘