编辑推荐:
这篇综述聚焦乳腺 X 线摄影在乳腺癌筛查中的应用,探讨可解释人工智能(XAI)技术。分析多种 XAI 技术的优劣,指出其在评估方面的不足,提出未来研究方向,对推动 AI 辅助乳腺癌诊断有重要意义。
1. 引言
乳腺癌是全球女性中常见且致命的癌症。早期通过乳腺 X 线摄影筛查对提高生存率至关重要。近年来,人工智能(AI)和深度学习在医学成像领域取得进展,卷积神经网络(CNNs)应用于乳腺癌检测,提升了准确性和效率,但因其复杂性导致缺乏透明度和可解释性。本综述旨在探讨适用于乳腺癌检测的 XAI 方法,关注诊断准确性和模型透明度,推动 AI 驱动的乳腺 X 线摄影发展,改善乳腺癌诊断。
2. 背景
2.1 乳腺癌筛查和乳腺 X 线摄影
乳腺癌由异常生长的细胞引发,可侵袭和转移。其风险因素众多,早期常无症状,因此定期筛查极为关键。乳腺 X 线摄影是常用的早期检测手段,能发现微小肿瘤。然而,该技术存在局限性,如放射科医生解读存在差异,易出现假阳性和假阴性结果,且乳腺图像复杂,受乳腺密度等因素影响,增加了解读难度。
2.2 AI 在乳腺 X 线摄影中的应用
CNNs 在医学图像分析中表现出色,可自动提取特征,提高肿瘤检测的准确性和效率。但它也面临挑战,如需要大量标注数据,计算成本高,且预测结果缺乏清晰解释,这在医疗领域可能影响临床验证和患者信任。
2.3 可解释人工智能(XAI)
XAI 旨在使 AI 模型的决策过程透明、可理解。它可分为事后解释方法和内在可解释模型。事后解释方法如显著性图、梯度加权类激活映射(Grad-CAM)、局部可解释模型无关解释(LIME)和夏普利加性解释(SHAP)等,能在不改变模型架构和训练过程的情况下解释预测结果;内在可解释模型如决策树和基于规则的模型则本身易于理解。在医学成像中,XAI 技术有助于提高诊断的可解释性和可信度,满足监管要求。
2.4 XAI 在医学成像中的研究综述
现有研究存在两大不足:一是对乳腺 X 线摄影特定的可解释性需求关注不足,多针对更广泛的放射学或医学成像应用;二是缺乏标准化、定量的评估指标,难以衡量解释质量、临床可靠性和决策影响,阻碍了 XAI 在临床的实际应用。
3. XAI 方法在乳腺癌筛查中的应用
将 XAI 方法整合到乳腺癌筛查,尤其是乳腺 X 线摄影中,对提高 AI 模型的可解释性和临床医生的信任至关重要。XAI 技术可根据解释范围(全局与局部)和模型兼容性(特定模型与模型无关)进行分类。
3.1 全局与局部解释
全局解释提供 AI 模型在整个数据集上的决策过程洞察,如决策树和基于规则的系统可揭示乳腺癌预测的关键特征。局部解释聚焦于单个预测,LIME 和 SHAP 常用于乳腺 X 线摄影的单实例解释,识别影响特定诊断预测的特征。
3.2 模型特定与模型无关方法
模型特定方法依赖于特定 AI 模型的内部结构生成解释,模型无关方法则可应用于不同的 AI 架构。
- 3.2.1 模型特定方法:在乳腺 X 线摄影中,CNNs 常用,一些技术如各类类激活映射(CAM)技术用于解释其预测。以 Grad-CAM 为例,它通过计算梯度信息,突出影响 CNN 分类结果的医学图像区域,生成热图,帮助放射科医生理解和信任 AI 辅助诊断。
- 3.2.2 模型无关方法:
- 局部可解释模型无关解释(LIME):通过在单个实例附近局部近似黑箱模型的行为,LIME 可突出影响模型评估病变良恶性的图像部分,使用可解释的代理模型和扰动输入图像的方式生成解释。
- 夏普利加性解释(SHAP):基于合作博弈论,SHAP 通过计算特征的边际贡献,提供数学上可靠的模型预测理解方式,可聚合多个案例的结果,帮助检测模型偏差或模式。
- 基于案例的推理(CBR):通过比较当前案例与数据库中的相似案例,CBR 系统在乳腺 X 线摄影中检索类似的过往病例,辅助医生决策。
4. 乳腺 X 线摄影中 XAI 方法的评估
研究显示,XAI 在乳腺 X 线摄影中的应用多样,涉及多个数据集、AI 架构和评估方法。评估主要涉及人类可解释性、临床相关性、性能与可解释性的权衡以及评估过程中的挑战。
4.1 人类可解释性和临床相关性
XAI 方法的临床适用性取决于其能否帮助放射科医生做出诊断决策。多项研究表明,如 Layered Grad-CAM、注意力引导的 Grad-CAM 等技术,通过可视化感兴趣区域、与已知病理特征对应等方式,增强了临床医生对 AI 系统的信任,支持了更协作的诊断过程。还有研究采用因果图与 TabNet 结合等方式,强调特征重要性,提供透明的推理路径,有助于建立信任。
4.2 性能与可解释性的权衡
复杂的 AI 架构可提高诊断准确性,但可能影响可解释性;简化模型以增强可解释性又可能降低诊断准确性。一些聚焦局部区域以提高可解释性的模型检测性能较低,但也有研究表明,通过合理设计模型架构和采用合适的 XAI 技术,如结合注意力机制与强大的特征提取模型,可在提高可解释性的同时保持高准确性。
4.3 评估中的挑战
XAI 输出的解释具有主观性,不同经验的医生对其依赖程度不同,需要定量评估框架。虽然已有一些定量评估方法,如 Hausdorff 测度、Pointing Game 分数、IoU 和 Dice 相似系数(DSC)等,但这些方法存在未被普遍采用、结果不一致等问题,难以客观评估 XAI 方法的效用,未来需探索更完善的评估框架。
5. 乳腺 X 线摄影中 XAI 的当前局限性
5.1 医学数据的复杂性
乳腺 X 线摄影图像复杂,XAI 方法难以准确捕捉和表示其特征。深度学习模型提取的高级特征难以解释,XAI 技术生成的热图定位不准确。图像的可变性、重叠组织和致密乳腺组织等因素也增加了解释难度,且现有 XAI 技术难以传达临床推理所需的上下文和关系信息。
5.2 可解释性与信任
可解释性并不等同于信任。临床医生可能因 AI 解释与自身知识经验不符、自动化偏差、XAI 方法复杂、缺乏标准化输出和不确定性指标等因素,对 AI 输出产生不信任,影响 AI 在临床的应用。
5.3 监管和伦理考量
不透明的 AI 模型在医疗领域引发伦理和监管问题,如可能延续或加剧医疗偏见,难以确定责任归属,影响患者自主权和知情同意。当前 XAI 技术可能无法满足监管要求,未来需开发更符合伦理和监管标准的 XAI 方法。
6. 未来方向
6.1 改进医疗领域的 XAI 技术
开发更直观、交互式的 XAI 工具,使其符合临床推理和诊断过程。例如,创建允许医生与 AI 模型互动的系统,结合领域知识,使用先进可视化技术,如交互式 3D 热图和分层叠加,帮助医生更好地理解 AI 输出。
6.2 将 XAI 集成到临床工作流程
将 XAI 工具无缝集成到放射科医生的日常工作流程中,开发现有放射学软件的插件模块,促进 AI 开发者与医疗机构的合作,确保 XAI 工具满足临床需求。
6.3 生成模型用于数据增强和模态合成
生成对抗网络(GANs)和去噪扩散概率模型(DDPM)等生成模型可用于数据增强和模态合成,提高 AI 模型的泛化能力,减少数据偏差,但使用合成数据时需谨慎验证,确保不影响诊断准确性。
6.4 多模态 XAI 方法
结合文本、视觉等多种解释方式,融入患者数据和病史,开发交互式对话和音频解释等功能,使 AI 解释更全面、易懂,符合临床工作流程,提高医生决策的准确性。
6.5 纵向和真实世界研究
开展纵向和真实世界研究,让临床医生参与评估过程,收集反馈,监测 XAI 工具的长期使用效果,评估对患者结果的影响,与监管机构合作制定标准和指南,确保 XAI 技术安全有效地应用于医疗领域。
7. 结论
本综述全面探讨了乳腺 X 线摄影中的 XAI 方法。虽然 XAI 技术取得了进展,能提供与临床推理相符的视觉解释,部分模型诊断性能较高,但仍存在诸多问题,如缺乏标准化评估指标、难以融入临床决策等。未来应着重开发适合乳腺 X 线摄影的 XAI 技术、建立评估标准、加强临床整合、开展纵向研究并确保合规,以提高早期乳腺癌检测水平和患者预后。