基于多模态基础模型的弱监督计算病理学特征提取性能基准测试揭示数据多样性优于数据量的关键规律

【字体: 时间:2025年10月02日 来源:Nature Biomedical Engineering 26.6

编辑推荐:

  为解决数字病理学中基础模型缺乏独立外部验证及临床相关任务评估体系的问题,研究人员开展了一项大规模基准研究,通过评估19个病理学基础模型在13个队列6,818例患者的31项弱监督预测任务(涵盖形态学、生物标志物和预后任务)中的表现,发现视觉-语言模型CONCH综合性能最优,模型融合可突破性能瓶颈,且训练数据多样性比数据量更重要。该研究为病理学界选择基础模型提供了关键参考。

  
人工智能正在彻底改变数字病理学领域,使研究人员能够从高分辨率的整体切片图像(Whole-Slide Images, WSIs)中预测癌症生物标志物。尽管已有超过100种人工智能工具获得临床批准,但基础模型(Foundation Models)在计算病理学中的独立评估仍然有限,存在数据泄露和选择性报告的风险。近年来,基于自监督学习(SSL)技术的基础模型通过对比学习和掩码图像建模等方法,展现出比全监督学习更好的性能和迁移能力。然而,这些模型在真实临床场景中的应用效果如何?它们能否在稀缺数据环境下保持稳定表现?不同模型是否关注不同的组织形态特征?
为了回答这些问题,由Peter Neidlinger和Omar S.M.El Nahhas共同领导的研究团队在《Nature Biomedical Engineering》上发表了一项大规模基准研究。研究人员系统评估了19个组织病理学基础模型(包括12个纯视觉模型、3个视觉-语言模型和4个切片编码器)在13个患者队列中的表现,这些队列包含6,818名患者和9,528张切片,覆盖肺癌、结直肠癌、胃癌和乳腺癌四种癌症类型。
研究采用的关键技术方法包括:使用标准化STAMP预处理流程对H&E染色WSIs进行处理;基于19种基础模型进行特征提取;采用基于Transformer的聚合器模型进行31项分类任务预测;使用五折交叉验证并在真正外部队列(CPTAC、DACHS、Kiel、Bern和IEO)上进行验证;通过注意力热图分析模型决策依据;采用AUROC、AUPRC、平衡准确率和F1分数等多项指标进行评估。
Benchmark of pathology foundation models
研究人员在31项弱监督预测任务(包括5项形态学任务、19项生物标志物任务和7项预后任务)上评估了19个基础模型和14个集成模型。结果显示,视觉-语言模型CONCH在形态学任务中表现最佳(平均AUROC=0.77),在生物标志物任务中与Virchow2并列第一(AUROC=0.71),在预后任务中也位居前列。纯视觉模型Virchow2整体表现紧随CONCH之后。统计分析表明,CONCH在大量任务中的表现显著优于其他模型,而Virchow2在视觉模型中表现最为突出。
Performance of foundation models in scarce data settings
研究团队特别关注了基础模型在稀缺数据环境和低流行率任务中的表现。研究发现,虽然预训练数据集的大小(WSIs数量、患者数量)和多样性(组织部位)与下游性能呈正相关,但数据多样性比数据量更为重要。在低数据场景(75-300名患者)中,CONCH的优势不再明显,而PRISM和Virchow2在不同数据规模下各有所长。对于低流行率生物标志物(如BRAF突变、CIMP状态、EBV阳性等),Prov-GigaPath表现最佳(平均AUROC=0.74)。
Foundation models learn different tissue morphologies
通过注意力热图分析和Cohen's kappa一致性测量,研究发现不同基础模型关注不同的组织形态特征。当所有模型一致做出正确预测时,它们主要关注肿瘤区域;但当模型出现分歧时,一些模型(如UNI、Hibou、Virchow和Kaiko)会错误地关注笔迹标记等无关特征。CONCH和Virchow倾向于关注多个小组织区域,而Prov-GigaPath的关注范围更广泛。这种关注点的差异解释了为什么模型集成能够带来性能提升。
Ensemble of pathology foundation models improve performance
研究团队测试了通过平均预测分数和拼接特征向量两种集成方法。结果显示,集成多个高性能模型的预测可以显著提升性能。四个最佳模型的平均预测比单独使用CONCH的AUROC提高了1.2%。CONCH和Virchow2的特征拼接组合达到了最高的AUROC(71.9),而Virchow2和Prov-GigaPath的组合也达到了71.6。统计分析表明,CONCH和Virchow2集成在9项任务中显著优于单独使用CONCH。
研究结论表明,基于多模态数据训练的模型(如CONCH)即使仅应用于图像数据也能提供更优质的特征表示。数据多样性而非数据量是决定基础模型性能的关键因素,各种族和癌症类型的数据多样性尤为重要。研究发现所选计算病理学任务主要通过局部形态模式而非全局空间上下文解决,这解释了为什么瓦片级编码器优于切片级编码器。模型集成通过结合多种组织形态学视角显著提升性能,特别是在生物标志物分类方面。
该研究的重要意义在于为数字病理学界提供了首个全面、独立的基础模型基准测试,揭示了当前模型的优势与局限,为未来基础模型的开发指明了方向——应更注重训练数据的多样性和质量,而非单纯追求数据量的扩大。研究结果还表明,结合多模态训练和模型集成方法可以进一步提升计算病理学模型的临床适用性,为个性化医疗提供更可靠的工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号