HistoLite:一种用于组织病理学领域泛化的轻量级自监督学习框架

《Scientific Reports》:Lightweight self supervised learning framework for domain generalization in histopathology

【字体: 时间:2025年10月22日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对组织病理学基础模型(FMs)计算资源需求大、难以广泛应用的瓶颈,提出了一种轻量级自监督学习框架HistoLite。该框架采用双流对比自编码器架构,通过特征对齐学习对扫描仪偏差具有鲁棒性的域不变表示。实验结果表明,HistoLite在保持中等分类准确率(91.8%)的同时,实现了最小的跨扫描仪性能下降(1.25%)和表征偏移,其泛化能力与大型模型相当,为资源有限环境下的计算病理学应用提供了可行方案。

  
在数字病理学领域,组织切片数字化后形成的全幻灯片图像(WSI)为计算机辅助分析提供了丰富数据源。然而,深度学习模型在实际部署中面临严峻挑战:当训练数据与测试数据来自不同扫描平台时,模型性能会出现显著下降。这种由扫描仪差异引起的域偏移问题,已成为制约计算病理学算法临床转化的主要技术障碍之一。
图1直观展示了同一组织切片在不同扫描仪下产生的表征差异。尽管空间位置完全相同,但在Aperio和Sakura VisionTek两种扫描平台上获得的图像块在嵌入空间中的特征表示存在明显差异,这种"表征偏移"会直接影响模型的可靠性和一致性。
近年来,组织病理学基础模型(FMs)的出现为解决域泛化问题带来了新希望。这些模型通过在大规模无标注组织病理学档案上进行预训练,学习到了丰富且可迁移的特征表示。然而,这些模型通常需要庞大的计算资源(高性能GPU集群)和海量训练数据,这不仅限制了其可及性,还引发了关于环境可持续性的担忧。有研究表明,基础模型的能耗可达传统任务特定模型的35倍之多。
为了在保持性能的同时降低资源需求,多伦多城市大学Abubakr Shafique等人开发了HistoLite——一个轻量级自监督学习框架,专门设计用于在组织病理学中实现领域不变的表征学习。
研究人员设计了一套创新的实验方案来评估模型的泛化能力。首先,他们创建了一个独特的数据集,包含111个福尔马林固定石蜡包埋(FFPE)、苏木精-伊红(H&E)染色的乳腺癌切片,每个切片分别用Aperio AT2和Sakura VisionTek两种扫描仪进行数字化,共获得222个WSI。通过仿射配准技术确保了两个扫描仪图像间的空间对齐,并由专业病理学家标注了肿瘤和非肿瘤区域,最终提取了9,904个配对的512×512像素图像块。
在技术方法层面,HistoLite采用双流对比自编码器架构,其中编码器通过卷积层逐步提取64、128、256、384和512个二维特征图,最终生成384维的特征向量。该框架的创新之处在于引入了自适应HistoRotate旋转增强策略,通过先随机裁剪后旋转的方式确保每次迭代选择不同的图像块,提高了模型对方向变化的鲁棒性。训练过程中使用Adam优化器,学习率和权重衰减均设置为1×10-4,批量大小为4(数据增强后有效批量大小为8)。
零样本特征表示跨扫描仪分析
研究人员首先通过零样本特征表示来量化不同模型在面对扫描仪引起的域偏移时的表征一致性。他们提出了多种创新指标来评估表征偏移,包括基于向度的平均绝对误差(MAE)和余弦距离,基于直方图的KL散度,以及基于聚类的Calinski-Harabasz(CH)指数。
结果显示,HistoLite在KL散度指标上表现最佳(0.21±0.18),表明其在不同扫描仪上产生的嵌入分布最为相似。HIPT在MAE(0.49±0.14)和余弦距离(0.22±0.11)上略优于HistoLite,但两者均显著优于其他大型基础模型。这一发现表明,轻量级模型同样能够学习到对扫描仪变化不敏感的稳健特征。
聚类分析进一步证实了这些发现。研究人员提出了鲁棒性指数(RI),该指数综合考虑了组织类别间的分离度(分子)和扫描仪引起的类内紧凑度(分母)。HIPT获得了最高的RI值(22.57),表明其具有极佳的泛化能力。HistoLite的RI值(1.10)与iBOT-Path(1.26)和Virchow2(1.27)相当,优于KimiaNet(0.38)等多个大型模型。
乳腺癌分类跨扫描仪性能
在下游任务评估中,研究人员使用肿瘤vs非肿瘤图像块分类任务来检验各模型的实际应用价值。所有模型的主干网络被冻结,仅训练一个二分类头。实验设置了两种场景:一种以Aperio数据作为训练集(域内,ID),VisionTek数据作为测试集(域外,OOD);另一种则相反。
结果表明,UNI、Virchow2和Prov-GigaPath等大型模型取得了最高的分类准确率(约95.9%),这很可能得益于其庞大的模型规模和训练数据量。HistoLite的平均分类准确率为91.8%,虽低于顶级模型,但显著高于HIPT(89.8%)和KimiaNet(88.1%)。
在泛化性能方面,HistoLite表现出色,其ID与OOD性能差异最小(平均仅为1.25%),其次是HIPT(1.49%)和UNI(1.55%)。相比之下,KimiaNet的性能下降最为显著(11.24%),表明其泛化能力较差。
统计等效性检验
研究人员还进行了双向单侧检验(TOST)来分析模型在域内和域外数据上的性能是否统计等效。结果显示,HistoLite和HIPT的性能差异完全落在等效界限内,表明这些模型在不同扫描仪间具有一致的性能表现。而KimiaNet、PathDino和Virchow等模型则超出了等效界限,表明它们对扫描仪变化较为敏感。
性能与表征偏移的关系
通过分析性能差异与表征偏移之间的关系,研究人员发现了一个重要趋势:随着MAE表征偏移的增加,ID与OOD数据之间的性能差异也相应扩大。HistoLite作为最小的模型,在保持最小表征偏移和性能下降的同时,实现了中等水平的分类性能。
值得注意的是,表征相似性高并不总能保证优越的分类准确率。例如,HIPT虽然表现出极佳的表征一致性,但其分类准确率相对较低。这表明在表征鲁棒性和任务特定性能之间可能存在权衡关系。大型模型如Prov-GigaPath、Virchow2和UNI等在准确率和泛化能力方面取得了较好平衡,但其资源需求也显著更高。
讨论与结论
本研究通过精心设计的实验框架,首次系统评估了组织病理学基础模型对扫描仪偏差的敏感性。研究结果表明,即使是最先进的大型基础模型,也容易受到扫描仪引起的域偏移影响,这在计算病理学的实际部署中具有重要意义。
HistoLite的成功开发证明,通过精心设计的自监督学习框架,完全可以在有限的计算资源下实现与大型模型相当的泛化能力。该框架的双流对比自编码器架构和自适应增强策略,有效促进了域不变特征的学习,为资源有限环境下的计算病理学应用提供了实用解决方案。
研究还揭示了一个重要见解:模型大小并非决定泛化能力的唯一因素。UNI(3.03亿参数)相比更大的Virchow(6.32亿参数)表现出更好的泛化能力,而架构相似的Virchow和Virchow2之间,因训练策略和数据多样性的差异也导致了不同的性能表现。
这些发现对计算病理学模型的开发策略具有重要指导意义。在选择模型时,需综合考虑可用资源、性能要求和泛化需求。对于资源有限且强调跨扫描仪一致性的应用场景,HistoLite这类轻量级模型可能是理想选择;而对准确率有极高要求的应用,则可能需要投资于大型基础模型。
该研究为未来研究指明了方向:探索将HistoLite框架与视觉Transformer(ViT)等先进架构结合,研究注意力机制如何进一步增强域不变特征学习;将评估扩展到更多器官类型,以验证框架的普适性;以及改进表征对齐方法,如引入DINO头等先进技术。
总之,这项研究不仅提出了一个实用的轻量级解决方案,还深化了我们对计算病理学模型泛化机制的理解,为推动人工智能在病理学中的稳健应用迈出了重要一步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号