PathOrchestra:一个用于计算病理学的综合性基础模型,涵盖了100多种多样化的临床级任务

《npj Digital Medicine》:PathOrchestra: a comprehensive foundation model for computational pathology with over 100 diverse clinical-grade tasks

【字体: 时间:2025年11月21日 来源:npj Digital Medicine 15.1

编辑推荐:

  病理学预训练模型PathOrchestra基于287,424张全切片图像,覆盖21种组织类型,在112项临床任务中表现优异,47项任务准确率超0.950,首次实现结直肠癌和淋巴瘤结构化报告生成。

  PathOrchestra 是一种在病理学领域中具有广泛应用前景的新型基础模型,其设计和应用展示了人工智能在医疗诊断中的巨大潜力。随着病理图像的复杂性和多样性不断上升,传统的诊断方法在面对海量高分辨率图像时面临着诸多挑战,包括数据标注的困难、计算资源的高需求以及模型在临床场景中的适用性问题。PathOrchestra 通过其独特的训练策略和广泛的数据来源,成功克服了这些障碍,实现了对多种病理任务的高效处理和准确分类,为病理学领域的数字化和智能化提供了有力支持。

PathOrchestra 的训练数据来源于三个不同的中心,涵盖了 21 种组织、器官和系统,共计 287,424 张全切片图像(WSI)。这些图像主要来自 H&E 染色的组织切片,同时也包括部分冷冻切片。这一大规模、多中心的数据集为模型提供了丰富的训练素材,使其能够学习到广泛适用的病理特征。这种数据来源的多样性不仅增强了模型的泛化能力,也提升了其在不同临床环境下的适用性。此外,PathOrchestra 的训练过程采用了一种自监督学习方法,特别是基于 DINOv2 架构,这种方法能够在没有标注数据的情况下,通过图像的自监督任务来学习高质量的视觉特征。这种训练策略显著减少了对人工标注的依赖,从而降低了训练成本并提高了模型的实用性。

在实际应用中,PathOrchestra 展现出卓越的性能,其在 112 项临床相关任务中的表现令人印象深刻。这些任务包括病理图像预处理、全癌分类、病变识别、多癌种亚型分类、生物标志物评估、基因表达预测以及结构化报告生成。其中,PathOrchestra 在 47 项任务中达到了超过 0.950 的准确率,这表明其在多个病理学领域中都具有高度的适用性。特别是,在全癌分类和淋巴瘤亚型识别任务中,PathOrchestra 表现出了优异的分类能力,达到了接近完美的准确率。这不仅验证了模型的泛化能力,也展示了其在实际临床诊断中的潜力。

病理图像预处理和质量控制是病理学分析的重要环节,它直接影响后续算法的性能。PathOrchestra 在这一领域的表现同样出色,它能够有效地识别和处理图像中的常见问题,如皱褶、气泡、污染和模糊。通过这些预处理任务,模型能够提高图像的清晰度和诊断价值,从而减少人工干预,提高诊断效率。值得注意的是,在一些较为复杂的任务中,如 IHC 标记物分类和多类区域感兴趣(ROI)分割,PathOrchestra 的表现相对较低,这提示我们需要进一步优化模型的结构和训练策略,以提升其在这些任务中的准确率和鲁棒性。

在全癌分类任务中,PathOrchestra 表现出强大的泛化能力。它在 17 类和 32 类的分类任务中均取得了较高的准确率,尤其是对前列腺癌的分类达到了接近完美的水平。这一表现的优异可能与前列腺样本的采集方式一致有关,因为针吸活检样本通常具有较为一致的特征,使得模型能够更有效地进行分类。然而,在某些更复杂的分类任务中,如脑肿瘤筛查,模型的表现则相对较低,这表明在处理某些病理特征时仍存在挑战。

生物标志物评估是病理学诊断中的关键环节,它对疾病的分类、预后评估和治疗选择具有重要影响。PathOrchestra 在评估多种 IHC 标记物时展现了良好的性能,尤其是在 HER2、CD20 和 CD19 等标记物的分类任务中,其准确率超过了 0.900。这些标记物在病理学中具有重要的临床意义,它们的准确评估有助于提高诊断的精确性和治疗的个性化。然而,对于一些细微的标记物表达差异,如 CD56 和 CXCL-13,模型的表现仍需进一步优化,以提升其在这些任务中的准确性和稳定性。

基因表达预测是病理学研究和临床应用中的重要方向,它能够帮助医生了解肿瘤的分子特征,从而指导治疗方案的制定。PathOrchestra 在这一领域中也取得了显著的成果,它在多种癌症类型的基因表达预测任务中表现优于其他基础模型,如 GigaPath 和 UNI。这一能力使得模型能够在没有直接基因数据的情况下,从病理图像中提取分子信息,为病理学研究和临床决策提供了新的工具。

结构化报告生成是病理学中的一项复杂任务,它不仅需要准确识别病变区域,还需要综合多种病理信息,形成具有临床意义的报告。PathOrchestra 在这一任务中展现了其在多任务处理上的优势,它能够结合 H&E 染色图像和 IHC 标记物的评估结果,生成详细的诊断报告。这种能力对于提高病理诊断的效率和准确性具有重要意义,尤其是在处理复杂疾病如淋巴瘤和结直肠癌时,结构化报告能够为医生提供更加全面的诊断信息。

PathOrchestra 的成功应用不仅在于其强大的分类和分割能力,还在于其在实际临床场景中的适用性。通过与临床任务的结合,该模型能够有效支持病理诊断的各个环节,包括预处理、分类、评估和报告生成。这表明,PathOrchestra 不仅是一个强大的技术工具,也是一个具有实际临床价值的诊断系统。

尽管 PathOrchestra 在多个方面表现出色,但其在某些任务中的表现仍有待提升。例如,在处理某些复杂的 IHC 标记物分类任务时,模型的准确率和 F1 分数相对较低,这可能与标记物之间的视觉相似性以及数据集的多样性不足有关。此外,在多张切片的结构化报告生成任务中,模型在整合分散的病变信息和推断详细属性(如血管侵犯和边缘状态)方面仍面临挑战。这些问题提示我们,未来需要进一步优化模型的结构,增强其对复杂病理特征的识别能力,并探索多模态数据融合的方法,以提高其在实际临床应用中的表现。

总的来说,PathOrchestra 代表了病理学基础模型的一个重要进展,其在多个临床任务中的优异表现表明了其在病理学领域的巨大潜力。通过结合先进的自监督学习方法和大规模的多中心数据集,该模型不仅提升了病理图像分析的效率,还为临床诊断提供了更加精准和全面的支持。尽管在某些任务中仍存在局限性,但这些挑战也为未来的研究提供了方向,通过不断优化模型结构和训练策略,有望进一步提升其在复杂病理任务中的表现,从而更好地服务于临床实践。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号