可解释深度学习在肺癌诊断中的关键综述:从技术实现到临床应用的挑战与展望
《ARTIFICIAL INTELLIGENCE REVIEW》:A critical review of explainable deep learning in lung cancer diagnosis
【字体:
大
中
小
】
时间:2025年12月10日
来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9
编辑推荐:
本文针对AI模型在肺癌诊断中缺乏透明度的问题,系统回顾了可解释人工智能(XAI)技术的研究进展。研究人员聚焦于肺癌建模,重点探讨了弱监督病灶定位、预后模型和生存分析等任务中的新型XAI实现,分析了临床医生参与度、观察者间变异性、解释图评估等关键临床转化问题。研究表明,当前XAI方法多为衍生自自然图像分析的通用技术,缺乏针对医学影像特点的专门设计,且临床验证不足,限制了其在临床实践中的可靠应用。
在人工智能(AI)革命席卷医疗领域的今天,深度学习模型已能在肺癌的筛查、诊断和预后预测等任务中达到甚至超越人类专家的水平。然而,这些模型通常包含数百万至数十亿个参数,其决策过程如同一个“黑箱”,令临床医生难以理解和信任。在肺癌这一全球死亡率最高的癌症领域,缺乏透明度的AI诊断系统可能阻碍其在临床实践中的伦理应用和广泛采纳。医生们习惯于依据标准化协议、实验室数据、医学影像、分子标志物等明确信息制定治疗策略,而当前AI模型无法提供类似的可解释性,限制了其临床转化、患者安全和合规性。
正是在这一背景下,可解释人工智能(XAI)应运而生,它使临床医生能够解读并最终提高对机器学习模型预测结果的信任度。发表在《Artificial Intelligence Review》的这篇综述文章,首次聚焦于XAI在肺癌建模中的应用,批判性地审视了这一新兴领域的发展趋势。研究团队系统分析了XAI在肺癌诊断中的最新进展,特别关注了弱监督病灶定位、预后模型和生存分析等任务中的创新实现,以及临床医生在XAI开发中的参与程度、观察者间变异性、解释图评估等关键问题。
研究人员通过系统文献检索策略,从Scopus、IEEE和PubMed等数据库中筛选出2020年1月至2024年11月期间的相关研究,最终纳入了45项符合标准的研究进行深入分析。他们发现,大多数研究使用后 hoc(事后)可解释性方法,主要是基于梯度的技术,如梯度加权类激活映射(GradCAM)及其变体。这些方法通过在输入图像上生成热图,突出显示对模型预测最重要的区域,为医生提供直观的视觉解释。
研究团队采用了严格的纳入和排除标准,确保分析的研究均与肺癌筛查、预后、诊断和治疗相关,且明确实施了XAI方法并提供详细信息。他们特别关注影像模态的研究,排除了仅使用临床或组学数据的工作。通过系统分析,研究人员揭示了当前XAI在肺癌诊断研究中的方法学特点、临床参与程度、存在的挑战和未来方向。
本研究分析了多种XAI技术方法,主要包括CAM(类激活映射)家族方法(如GradCAM、GradCAM++、RespondCAM等)、基于特征的方法(如SHAP、LIME)、注意力机制方法以及一些新型混合方法。这些方法被应用于不同影像模态数据,包括CT(计算机断层扫描)、WSI(全切片图像)、X射线等,任务涵盖肺癌分类、结节检测、生存预测等多个方面。研究特别关注了这些方法在医学影像适配性、针对肺癌特异性属性的调整以及临床验证方面的表现。
Cui等人开发了一个基于组织病理学图像的肺癌生存分析框架,通过CAM可视化模型的注意力区域,识别重要的图像生物标志物并对细胞进行分类。Higuchi等人则利用X射线图像检测肺结节,通过CAM生成热图和阳性概率评分,可视化并量化肺结节的可能性。Kim团队比较了CT与胸部X射线以及像素级与图像级标注对深度学习模型性能的影响,通过比较CAM或热图与专家标注来评估定位性能。
Zhang等人提出了一种协同模型,结合结节分割和恶性评分回归,采用基于CAM的自适应损失函数,引导模型聚焦于结节区域并学习可靠特征,模拟真实临床场景。另一项研究则结合ResNext50和Bi-LSTM(长短时记忆网络)架构,利用CAM可解释性预测肺结节的病理亚型。
GraphCAM是一种受Transformer可解释性方法启发的技术,通过从输出类别向后传播相关性分数,通过Transformer的注意力层,生成类别特定的热图。这种方法将相关性从池化的图表示映射回原始图节点,最终重建空间热图,突出显示对特定类别预测重要的区域。
GradCAM及其变体在多项研究中被广泛应用。Chaunzwa团队使用机器学习和CNN(卷积神经网络)从CT图像分类肺癌组织学,区分腺癌和鳞状细胞癌,并利用GradCAM解释模型预测。Shim等人开发了一个分析多尺度病理学图像的深度学习模型,使用GradCAM算法生成热图,突出显示对复发预测贡献最大的区域,如非典型细胞核、肿瘤坏死和离散肿瘤细胞。
Lin团队评估了CNN在EBUS(超声支气管镜)获取的肺细胞学图像中区分良恶性细胞的效能,使用GradCAM评估模型性能并验证结果的可靠性。Terunuma等人开发了基于UNet的模型,用于在X射线图像中实时分割肺肿瘤,通过GradCAM提供模型可控性和可解释性的证据,比较不同数据增强技术下的注意力图。
多项研究均采用GradCAM作为主要的可解释性方法,包括Hotta等人对EBUS图像中肺病变的良恶性分类,Saihood团队对小型病变的远程依赖关系捕获,Tummala等人基于组织病理学图像的肺癌亚型检测,以及Tomassini团队对非小细胞肺癌组织学特征化的云端决策支持系统。
Vanitha等人开发了一种基于高级超参数调优的深度学习集成方法,结合Xception和MobileNet架构,通过GradCAM可视化增强模型决策过程的可解释性。Hermioza团队通过患者生存时间预测进行弱监督肺癌检测,使用GradCAM进行定位过程。Hasan等人提出轻量级CNN模型用于肺和结肠癌检测,集成GradCAM进行视觉解释,同时使用SHAP量化每个像素对模型输出的影响。
Liu等人开发了多任务学习模型,用于肺结节恶性分类并生成属性特异性评分,提供诊断的因果解释,与临床实践保持一致。Dehkharghanian探索了深度学习网络在病理学中的可解释性,区分肺腺癌和鳞状细胞癌,通过选择突出的深度特征并生成特征特异性热图,揭示与每个特征相关的组织病理学模式。
Claudio Quiros团队提出了自监督学习方法用于WSI中组织形态学表型的识别,通过可视化组织模式和组织形态学表型簇的直接模式检查,以及SHAP图和森林图解释Cox模型的风险比。Apostolopoulos开发了多模态机器学习框架,用于孤立性肺结节的诊断,集成CT和PET(正电子发射断层扫描)成像模态及临床信息,使用显著图作为模型的可解释性机制。
Kabiraj团队提出了一种新颖的可解释方法,用于胸部X射线中的多疾病检测和异常定位,使用CAPCAM模型结合CX-Ultranet作为特征提取器,通过反卷积和显著图提供视觉解释。Hung等人引入了3D分层语义卷积神经网络用于肺结节诊断,预测肺结节的五个语义特征,并行进行最终恶性分类,通过提供这些语义属性作为诊断推理来提供可解释性。
Yang团队提出了基于EfficientNet的分类器,用于WSI分类肺腺癌、鳞状细胞癌、小细胞癌、肺结核、肺炎和正常肺组织,通过叠加在切片上的预测热图提高模型可解释性。Lu等人提出了弱监督深度学习方法,用于肾细胞癌和非小细胞肺癌的WSI分类,集成注意力学习来评分和识别WSI内有价值的子区域,将可用分数可视化为热图。
Di团队引入了多超图框架用于患者生存预测,通过建模图像块之间的高阶相关性,识别最重要的块并用不同颜色高亮显示。Mukashyaka团队引入了无监督统计方法分析WSI,通过编码WSI中多尺度块级特征的累积分布函数,生成可解释的注意力图。Zhu团队提出了统一的2D框架,包含分类和解释网络,对肺结节进行分类,开发编码器-解码器架构用于定制XAI特征图可视化。
Jiang团队开发了基于CNN的模型,结合CBAM(卷积块注意力模块)对肺结节进行分类,使用NAS(神经架构搜索)自动设计架构,CBAM通过可视化与医生诊断标准对应的注意力区域来增强可解释性。Wang团队开发了双流多依赖图神经网络框架,通过WSI进行癌症生存分析,可视化注意力分布并描述高注意力块的形态特征。
Liang团队提出了异质子图引导的多尺度图注意力融合网络,用于WSI的可解释预测,利用双流架构,采用图和超图网络在两个不同尺度上建模图像块的低阶和高阶相关性,生成可解释热图可视化感兴趣区域。Park团队开发了多实例学习模型,从肺腺癌的WSI预测EGFR(表皮生长因子受体)突变,通过热图可视化EGFR突变概率。
Roy团队引入了属性驱动的生成对抗网络,用于CT扫描中肺结节分类,通过自注意力U-Net架构生成注意力图,突出网络关注的区域。Zhao团队专注于可验证性,引入了混合神经概率算法,结合贝叶斯网络分支和概率因果推理,通过图卷积网络分支,使用交叉注意力机制进行肺结节的良恶性分类。
Zheng团队提出了多模态图架构,带有注意力机制用于肺癌生存预测,融合病理图像和基因表达信息,通过内置图注意力机制可视化内部注意力分数作为热图。Chen团队提出了弱监督学习方法,用于肺腺癌在虚拟H&E(苏木精-伊红)染色图像上的分析,通过注意力机制生成注意力热图作为可解释技术指示肿瘤区域。
当应用多种XAI方法时,一个重大挑战来自每种独立技术固有的方法学偏差。依赖单一XAI方法可能导致对深度学习模型决策过程的部分甚至误导性解释,因为不同方法可能因其底层算法假设和敏感性而突出不同的特征或关系。大多数被审查的文章使用一种XAI方法来可视化模型的可理解性,只有六篇文章对他们使用的XAI方法进行了比较。
Gu等人提供了多种可解释性技术的视觉比较,准确突出了结节边界。由于提出的模型专注于可解释性,这项工作的主要目标是创建准确可信的视觉解释用于肺结节诊断,而不是受许多XAI方法存在的偏差影响。Saihood团队定性地比较和解释了所检查模型的推理,使用GradCAM和Guided-GradCAM,表明提出的注意力模块即使在小型病变上也能捕获CT扫描中的长程依赖关系。
Dehkharghanian比较了XAI方法以评估方法学偏差,将ScoreCAM与GradCAM、GradCAM++和SmoothGrad进行比较,推断在许多情况下不同的特征热图比ScoreCAM产生更有意义的结果。此外,还涉及专家病理学家通过评估热图是否与恶性组织对应来对热图进行排名。作者承认不同的可解释性方法可以产生深度特征的不同可视化。
Zheng团队定量和定性地评估了传统基于注意力的热图和提出的SAM方法的共注意力热图。使用dice系数作为注意力图与专家标注的度量指标,评估哪些方法最符合真实情况。作者声称传统基于注意力的热图可能由于softmax函数的性质而任意强调某些节点,可能影响解释。
临床医生在XAI开发中可以发挥关键作用,确定AI模型可信度和临床适用性的关键因素。医学专家的参与可以通过三种方式实现:(1)解释,即解释是否与临床变量和相关病理学一致;(2)间接评估,通过标注评估感兴趣区域的注意力图;(3)模型设计,通过提供病理学见解。在本研究中,仅识别了类型1和2的参与方式。
在间接临床专家标注与注意力图的比较方面,Cui等人使用FROC(自由响应接收器操作特性)评分评估神经网络的热图衍生解释,与初级和高级放射科医生的分割掩模进行比较。虽然热图提供了一定程度的可解释性,但没有进行定性评估或识别潜在偏差。Kabiraj团队定量和定性地比较了使用不同池化层的定位区域,将XAI图与放射科医生的标注在定位准确性方面进行比较。Chen团队也以类似方式比较了注意力热图,证明了与病理学家标注的一致性。Lu团队评估了注意力图与两位病理学家的标注,此外还对错误分类的切片进行了进一步分析,以识别具有挑战性病例中的可解释性因素。
在XAI图解释方面,Verma团队提出了使用基于GradCAM的解释和一组专家放射科医生的评估模式。专家放射科医生基于三个问题验证热图,评估可解释性图的临床相关性质量:首先确定每个扫描中突出显示的区域是否确实是肿瘤区域(是/否),然后评分模型在1到4的尺度上识别肿瘤区域的程度,最后评级每个扫描中所有突出显示的区域(黄色/红色)是否与肿瘤区域相关,同样在1到4的尺度上。
在定性评估方面,Shim团队通过聘请两位病理学家定性检查热图,旨在将突出显示的区域与已知或潜在的组织学复发指标相关联。然而,由于热图质量限制,评估受限,使专家病理学家难以解释。Zheng团队可视化从GraphCAM生成的热图,并使用分割指标与专家病理学家提供的标注进行比较。此外,还分析了错误分类的病例以及交叉验证折中的热图,以突出可解释性的一致性。Claudio Quiros团队定性评估了可解释性,提供关于生成的簇是否对应于有意义的组织形态学表型的反馈。此外,SHAP值展示了每个簇如何对生存预测做出贡献。Dehkharghanian在WSI和组织切片水平评估了深度特征,选择一组组织学多样的WSI,然后由三位病理学家检查图像,评估与恶性组织定位对应的热图质量。
观察者间变异性指的是不同观察者在解释医学数据时经常存在分歧的过程,在本研究中,指的是XAI方法提供的解释。在疾病诊断或预后等任务中,观察者间变异性的量化对于临床采纳和患者护理至关重要。导致这种变异性的因素包括某些XAI输出的模糊性、观察者的专业知识、使用的XAI方法以及检查病例的复杂性。大多数被检查的工作仅与一名临床医生评估XAI输出,可能复制单一观察者的偏差。
在医学影像AI的背景下,有几个属性可能影响AI模型的性能和可解释性。然而,许多被检查的文章主要关注模型设计的工程部分和相应的XAI技术,而不是可能影响注意力图的其他医学条件。疾病和异常的重叠或共现、复杂的组织模式、背景中的其他异常是一些决策支持系统可能遇到的问题。两篇文章强调了这一问题作为可能影响模型性能的潜在变量。进一步实验通过引入图像放大进行,但没有讨论此操作的影响。排除共病疾病表现良好,但无法在可能包含重叠异常或疾病的真实世界数据中进行评估。此外,Verma提到具有运动或呼吸伪影的样本负面影响了模型准确突出肿瘤区域区域的能力(假阳性病例)。
研究发现压力测试几乎不存在,只有2项研究进行了真正的供应商泛化或采集分辨率测试。主导策略不是测试鲁棒性,而是通过在大型混合供应商数据集上训练或通过预处理协调数据来消除混淆因素。最关键的是,没有研究报告对关键混淆因素(如CT窗位偏移、文本叠加或侧位标记)进行了指定的压力测试,表明严格、可泛化的验证在该领域尚未成为标准实践。
Zheng团队提出了一种新颖的基于图的CAM技术,在WSI上生成类别特定的显著图。Gu提出了一种可解释模型,用于诊断和视觉解释,专注于在训练过程中生成解释作为事前XAI。Chaunzwa简要介绍了多层观察的能力。Zhao采用两步过程,结合深度学习与贝叶斯网络建模视觉属性之间的因果关系,旨在实现可解释和可验证的结果。Tomassini通过热图视频为每个CT扫描提供动态视觉解释,突出对决策过程影响最大的肺体素。Mukashyaka提出了一种轻量级无监督方法,从块级特征生成切片级表示,提供可解释的注意力图,实现可比的处理速度和准确性。Lu引入了创建细粒度热图的过程,通过将切片划分为块并分析原始注意力分数,通过重叠块生成细粒度热图,可视化相应注意力区域的形态结构。Chen提出了一个成本效益高且可解释的方案,用于准确的术后病理检查,基于弱监督学习模型的注意力热图,定位具有高注意力的肿瘤区域和肺腺癌形态,并与病理学家标注相关联。Apostolopoulos通过显著图和特征重要性为孤立性肺结节提供有价值的见解,增强模型的可解释性。Kabiraj展示了在每层使用反卷积和显著图,显示模型在训练过程中如何针对特定区域,增加透明度。Civit-Masot在模型最后层执行置信水平报告,提供初步报告并加速诊断过程。Jiang提出了一种定性准确的事前技术,关于重要区域的识别,但该技术的解释尚未得到充分评估。Verma检查了高风险患者的样本图像,通过评分样本并评估它们确认检查模型有效识别重要区域,提出了三个与注意力图突出显示区域、模型识别肿瘤区域的能力以及识别区域正确性相关的关键问题。Liang强调了从顶级块的不同尺度获取热图的能力,在整体结构和细胞水平细节方面提供多样化但高度相关的解释见解。Zhang提出了新颖的基于CAM的损失,在训练过程中结合分割任务和类激活图来引导模型的注意力。
当前XAI方法在增强可解释性方面被报道为有用工具,但文献中仍然存在几个限制。一个主要关注点是底层学习特征与模型结果之间缺乏因果关系。作者还强调了有限决策透明度、XAI方法偏差、可解释性图的可解释性挑战以及不平衡或尺寸有限的测试数据集的限制。在使用XAI方法执行定位任务的弱监督模型中,肿瘤定位和分割性能差的问题被强调。可解释性方法和其特性的额外细节在表格中提供。XAI方法的关键参数和其实现被包含在表中。
大约67%的分析工作采用单一可解释性方法,缺乏比较研究和任何评估所呈现注意力图一致性的参考点。这可能妨碍所提出XAI方法评估的可靠性。此外,绝大多数事后可解释性可能导致关于模型推理的浅层见解,创造仅仅是“锦上添花”而非指示真正系统性可解释性努力的认知。替代XAI方法学,包括替代、基于示例、基于概念(CAV变体)以及反事实或生成方法,尚未在像被检查的肺癌研究中引入。
这些注意力图使用简单度量(如Dice或相似性评分)的有限评分或量化可能导致无法在解释中捕获类人质量的评估。如图7所示,临床参与不足,无论是在数量(有临床医生的工作数量,每个工作的临床医生数量)还是质量(缺乏反馈方面),可能引入评估偏差或限制此类方法的临床适用性。类似地,观察者间变异性在检查的文献中仍然未被探索,至少以系统的方式。
肺癌患者可能患有各种共病和额外的肺部疾病或异常。此外,影像数据可能包含伪影或其他形式的视觉噪声。这些混淆变量在XAI研究中大多被忽视,如所示。当代最先进的方法针对具有干净影像数据的策划数据集进行了优化,而不是异质性的“真实世界”临床站点。特别是,在模型开发期间排除具有共病的患者亚组可以提高性能,但模型不捕获预期患者队列的特征,使其不适合临床实践。“真实世界”应用将隐含包括更复杂的临床病例,这些病例将影响模型的预测能力和可解释性。Cui从其研究中排除了有结核病史的144名参与者,降低了临床信任和效用。相比之下,Verma提到了在筛查过程中患者运动或呼吸等伪影可能导致不完美或失真,导致假阳性病例和有偏注意力图的事实。讨论的另一个变量是输入图像放大水平的影响。优化图像表示可以导致强大且可解释的AI系统,允许更细粒度的理解和可解释性。Liang声称放大可以从宏观形态和微观特征角度提供更好的可解释性。此外,Dehkharghanian旨在允许更详细的图像放大,以便更深入理解WSI内出现的关键判别特征值的局部性。
本批判性综述是首个专注于XAI在肺癌中应用的研究。特别地,XAI方法根据其类型(事后、事前及其组合)和方法学属性进行了识别。根据审查的文献,大多数研究采用事后可解释性,主要是基于梯度的方法,因为它们易于实现。然而,由于当前实现高度依赖任务且缺乏方法学标准化,需要识别最佳可解释性技术。AI系统的决策过程需要可靠且值得信赖用于医学预后。没有整合研究人员和临床医生专业知识的严格比较框架,XAI风险仍然保持技术描述性而非临床意义。
例如,GradCAM突出显示一般的注意力区域,而SHAP提供对模型预测行为的更细粒度特征特定见解。独立的XAI方法可以提供对模型注意力的有价值见解,但它们可能导致潜在偏差。每种技术固有的方法学偏差可能导致突出不同的特征,需要比较方法以获得对预测的全面理解。这项研究中识别的一个重大挑战是XAI方法之间缺乏系统比较分析。只有一小部分被审查的文章进行了比较,突出了进行评估以确定不同解释可靠性的需要。
这一观察指出了一个更深层次的研究瓶颈,即可解释性仍然依赖于方法且在不同研究之间脱节。虽然可解释性技术的使用提高了透明度,但缺乏具有特定指标和定性评估的标准化比较限制了评估最可靠和直观XAI方法的能力。临床参与对于验证XAI输出至关重要。纳入临床反馈的研究,无论是通过直接解释还是通过与专家标注的间接评估,都提供了额外的验证层。然而,临床参与的水平和质量各不相同,有些研究依赖单一专家或多个专家,其他研究使用结构化评分系统,或间接使用病理学家标注。
在XAI开发中利用专家的这些差异突出了需要增强临床医生参与作为XAI开发的一个组成部分,而不是背景角色。在没有临床医生引导的解释和循环反馈机制的情况下,XAI输出可能在技术上连贯但临床无意义。此外,缺乏研究解决XAI中的观察者间变异性,可能导致在理解模型决策过程时的不一致。特别是,单一专家意见具有高度依赖风险,可能在对XAI方法性能和可解释性方面产生错误信心。多个观察者可能缓解此类偏差。这可能需要在评估XAI方法时采用具有多个观察者和特定标准的标准化评估方法。量化和解决这种变异性与多观察者评分系统对于提高AI在广泛临床采纳中的可信度是必要的。
关于影响XAI的属性,如共病、复杂组织模式、影像伪影和其他肺部病变,可能通过捕获或转移模型的注意力而降低AI模型的可解释性。大多数被检查的研究专注于模型设计和XAI技术的工程部分,而较小数量解决了这些医学属性。当代最先进的方法针对具有干净影像数据的策划数据集进行了优化,而不是异质性的“真实世界”临床站点。可解释性技术对这些混淆因素具有韧性可能代表向适合临床设置的可靠可部署XAI系统的重要进步。
可解释性对于确保AI驱动决策系统的临床接受度和可信度至关重要,特别是在像医学这样的高风险领域。虽然在肺癌模型中应用XAI已经取得了实质性进展,但当前研究仍然由事后、基于梯度的方法主导,这些方法缺乏因果和临床相关解释。迫切需要XAI技术的标准化和系统评估框架,结合定性和定量指标,在开发和验证中更深入的临床参与,以及更清晰理解特定医学属性(如共病、图像伪影和观察者间变异性)如何影响可解释性。新兴的混合和因果增强方法可能在XAI方面提供进展,但当前可重复性和严格的临床验证应该是焦点。通过因果知情和领域感知系统解决这些方法学和转化挑战,对于将XAI从视觉解释工具增强为精确肿瘤学中临床可靠的硅基专家至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号