编辑推荐:
基底细胞癌(BCC)诊断依赖大量标注数据,获取成本高。本研究针对此问题,利用迁移学习对弱监督模型进行微调,在 BCCC 和 COBRA 数据集上对术前穿刺活检的 BCC 进行分类。结果显示微调模型精度显著提升,为病理 AI 发展提供新方向。
基底细胞癌(Basal Cell Carcinoma, BCC)作为全球最常见的皮肤癌,虽死亡率低,却因高发病率和局部侵袭性给医疗系统带来沉重负担。精准的病理分类对治疗方案选择至关重要,然而传统组织病理诊断依赖病理学家人工判读,面临样本量庞大、亚型鉴别复杂(如瑞典分类系统将 BCC 分为结节型 Ia、表浅型 Ib、中侵袭型 II、高侵袭型 III 四类)以及病理医生短缺等挑战。此外,标注高质量病理图像需耗费大量人力物力,导致监督学习模型难以获取充足训练数据。如何在有限数据下提升 AI 模型的诊断精度与泛化能力,成为 computational pathology 领域的关键难题。
为解决上述问题,瑞典哥德堡大学(University of Gothenburg)与萨尔格伦斯卡大学医院(Sahlgrenska University Hospital)的研究团队开展了相关研究。他们提出通过 ** 迁移学习(Transfer Learning)微调弱监督模型,结合图 Transformer(Graph Transformer)和对比学习(Contrastive Learning)** 技术,优化术前穿刺活检中 BCC 的分类性能。该研究成果发表在《BMC Medical Imaging》,为资源有限的医疗机构提供了高效的 AI 病理诊断解决方案。
研究团队采用的关键技术方法包括:
- 数据构建:使用 BCCC 数据集(含 514 例全玻片图像 Whole Slide Images, WSIs,其中 261 例 BCC、253 例无肿瘤)和 COBRA 外部验证集(3588 例 WSIs),均为弱标注(仅玻片级标签,无像素级注释)。
- 特征提取:通过预训练的 SimCLR 模型(基于对比学习的自监督框架)从 WSIs 提取图像块特征,保留 512 维归一化向量。
- 图结构建模:将图像块视为图节点,空间邻接关系作为边,构建图结构,通过图卷积网络(Graph Convolutional Networks, GCN)聚合邻域信息,再经 Vision Transformer(ViT)进行全局特征交互。
- 迁移学习:冻结 SimCLR 特征提取层,微调 GCN 和 Transformer 参数,在多分类任务(二分类、三分类、五分类)中评估模型性能。
研究结果
1. 模型分类性能显著提升
在 BCCC 数据集上,微调模型在二分类、三分类、五分类任务中准确率分别达 91.7%、82.1%、75.3%,曲线下面积(Area Under the Curve, AUC)分别为 0.98、0.95–0.98、0.91–0.97,显著优于未微调的预训练模型和从头训练模型。例如,二分类任务中,“肿瘤” 类灵敏度从 79.5% 提升至 95.0%,特异性从 62.6% 提升至 89.5%。
2. 外部验证泛化能力稳健
在 COBRA 数据集上,二分类和三分类准确率分别为 84.9% 和 70.5%,AUC 为 0.92 和 0.89–0.91。尽管存在染色差异和扫描设备不同等挑战,模型仍能有效区分 “无肿瘤” 与 “肿瘤” 类别,但对低侵袭性表浅型 BCC 的识别仍有提升空间。
3. 迁移学习必要性验证
消融实验表明,使用预训练 SimCLR 模型的微调模型,较从头训练模型在 BCCC 数据集上平均准确率提升 10.6%–13.1%,在 COBRA 数据集上提升 19.2%–29.6%。这证实了从切除活检数据中学习的特征可有效迁移至穿刺活检场景,减少对大规模标注数据的依赖。
结论与意义
本研究首次将弱监督图 Transformer 与迁移学习结合,成功提升了术前 BCC 穿刺活检的分类精度。实验结果表明,预训练模型通过捕捉组织形态的全局与局部特征,可显著增强小数据集下的模型性能,为解决病理数据标注瓶颈提供了新范式。此外,模型在跨机构数据集上的稳健表现,提示其临床转化潜力,有望缓解病理医生工作负荷,尤其适用于资源有限的基层医疗单位。
未来研究可进一步扩大数据集多样性,纳入更多肿瘤类型,并探索模型在实时诊断中的应用。该研究不仅为 BCC 的自动化诊断奠定了基础,也为其他复杂病理任务(如乳腺癌、前列腺癌分型)提供了方法论参考,推动 AI 在精准医疗中的实际应用。