病理学家式可解释AI:前列腺癌格里森分级的透明化诊断新纪元

【字体: 时间:2025年10月10日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对前列腺癌格里森分级中存在的主观性强、观察者间差异大以及传统人工智能方法缺乏可解释性等问题,开发了一种基于概念瓶颈结构(concept-bottleneck)的U-Net模型GleasonXAI。该模型利用54位国际病理学家标注的组织微阵列图像数据,通过软标签训练方式有效捕捉诊断不确定性,在保持高分割精度(Dice评分:0.713±0.003)的同时提供符合病理学术语的直观解释。这项研究为高主观性医学任务提供了可解释AI新范式,并公开了大规模标注数据集推动相关研究发展。

  
前列腺癌是全球男性健康的重大威胁,2020年新增病例约150万例。目前临床主要采用格里森分级系统(Gleason grading system)评估肿瘤侵袭性,该系统根据腺体结构特征将肿瘤分为1-5级(其中1-2级已与3级合并),最终评分为主要和最高级模式之和(6-10分)。尽管广泛应用,该体系存在采样偏差和主观评估等局限性,导致不同病理学家间存在显著观察差异(interobserver variability)。
近年来人工智能(AI)在格里森分级中展现出巨大潜力,但传统端到端模型存在"黑箱"问题,其决策过程缺乏透明度,临床应用中可能产生确认偏误(confirmation bias)。虽然事后可解释性技术(如CAM、Grad-CAM、LIME等)能生成热力图提示关键区域,但这些方法往往提供的是形态学关联模糊的"伪解释",且需要专业知识解读,更重要的是指示区域未必与实际癌变模式对应,而可能反映神经网络学到的无关统计关联。
为解决这些根本性限制,研究团队开发了病理学家式可解释AI系统GleasonXAI。该系统采用概念瓶颈策略的U-Net架构,直接预测与格里森模式对应的组织学特征,提供基于形态学的直观解释。研究汇集了来自10个国家54位病理学家的专业标注,构建包含1,015个组织微阵列(TMA)核心图像的数据集,采用详细模式描述进行标注,并使用软标签(soft labels)训练以捕捉数据不确定性。
关键技术方法包括:使用ImageNet预训练的EfficientNet-B4编码器的U-Net架构;基于Otsu阈值化和形态学操作的前景分割;自定义SoftDiceLoss损失函数处理软标签;采用滑动窗口策略进行测试推理;使用Fleiss' kappa等统计方法评估观察者一致性。数据集来源包括TissueArray.com(595图像)、Arvaniti等(641图像)和Gleason19挑战赛(331图像)。
Pathologist characteristics
54位参与研究的病理学家来自国际多中心,中位临床经验15年(范围1-35年),其中28人拥有≥15年丰富经验。每周签署前列腺癌病例中位数为15例(范围<10-75例),47人负责解释性标注,6人负责格里森分级标注,1人参与初始术语制定。
Dataset characteristics
标注数据集包含55.76%图像含格里森3级(566/1015),74.48%含4级(756/1015),32.32%含5级(328/1015)。在解释和子解释层面,图像类别分布呈现较大变异(57-729幅),但经典解释类别分布更为均衡。
Agreement between pathologists varies depending on histopathologic pattern
图像级格里森模式评估显示较高一致性(Fleiss' kappa 0.23-1.00),但在具体组织学模式(即解释类别)上共识较低。某些特征如poorly formed glands(76.13%一致)和individual glands表现良好,而glomeruloid glands和single cells等罕见模式则很少获得多位标注者共识。
Pixelwise agreement between raters is lower in minority classes
像素级分析显示,97.54%前景像素在格里森模式层面可获得唯一多数投票,但在解释层面降至86.41%,子解释层面进一步降至67.76%。罕见类别如comedonecrosis、single cells等中,88.46-94.96%标注像素仅由单一位标注者标记。
Model development and evaluation
软标签方法显著改善模型性能,SoftDiceLoss在解释训练中表现最佳。与直接训练格里森模式的分割方法相比,GleasonXAI在保持分割质量(Dice: 0.713±0.003 vs. 0.691±0.010)的同时提供可解释输出。模型预测与病理学家标注高度吻合,不同格里森模式间混淆极少,误分类主要发生在相邻级别之间。
GleasonXAI generates detailed segmentation maps
可视化分析证实模型能生成高质量分割图,整合各标注元素,甚至预测多位病理学家未标注的精细细节,表明模型能捕捉细微结构特征而非受粗糙标注干扰。
研究结论表明,GleasonXAI成功实现了格里森分级的透明化AI辅助,通过直接识别和描绘预定义组织学特征提供直观解释。软标签训练有效解决了高观察者变异下的学习难题,在保持分割精度的同时避免了可解释性与性能的权衡(performance-interpretability trade-off)。该研究公开发布了最大规模的局部化格里森模式解释数据集,为高可变性医学任务的可解释AI研究奠定基础。虽然模型在极罕见类别(如comedonecrosis)预测方面存在局限,但这主要源于这些类别在训练数据中的极端稀有性和高标注变异。未来工作可针对这些少见模式进行定向数据收集,进一步提升模型临床实用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号