综述:放射学中的对抗性人工智能:攻击、防御和未来考量

【字体: 时间:2025年05月22日 来源:Diagnostic and Interventional Imaging 4.9

编辑推荐:

  本文聚焦放射学中对抗性人工智能(AI),阐述其攻击类型、临床影响与防御策略。介绍对抗攻击原理、机器学习模型脆弱性,分析各任务受攻击风险及后果,综述现有防御手段,指出挑战与未来方向,助力构建可靠 AI 系统。

  

1. 引言


放射学正经历人工智能(AI)快速融入带来的深刻变革。借助机器学习(ML)尤其是深度学习(DL)的突破,AI 系统在众多明确的放射学任务中展现出色能力,应用广泛,从计算机辅助检测关键图像发现,到用于手术规划和定量分析的精确图像分割,再到通过自动图像分类和优先级排序实现的工作流优化,以及使用自然语言处理和大型语言模型(LLMs)生成报告等。这些技术有望提升诊断准确性、改善工作流效率、减轻放射科医生工作量,最终有助于更好的患者预后。

然而,对复杂 AI 模型日益增长的依赖引入了一类不同于传统网络安全的新威胁,即对抗性 AI,其专注于研究和利用 AI 系统可能被有意操纵以产生错误或不可靠行为的方式。在放射学中,这些攻击可能涉及对图像、医学数字成像和通信(DICOM)元数据或临床文本进行细微更改,旨在欺骗模型,同时对包括放射科医生在内的人类观察者几乎不可察觉。

尽管撰写本文时,尚无正式记录的针对临床放射学 AI 系统成功部署对抗性攻击的案例,但在医学成像和其他领域(包括自动驾驶汽车和更广泛的科技领域)的研究环境中已展示了许多示例场景。此外,传统网络安全攻击在医疗保健领域仍然常见且持续增加。这些发展凸显了对抗性威胁的重要性日益增长,特别是随着放射学中的潜在攻击面不断扩大,包括基于成像的 DL 模型、整合成像与电子健康记录数据的多模态系统,以及正被探索用于临床记录和决策支持的日益普及的 LLMs。

尽管 AI 模型开发和临床部署的监管批准取得重大进展,但在放射学的特定背景下,对对抗性风险的系统理解、评估和缓解仍是关键发展领域。许多基础对抗性研究利用自然图像数据集,虽然核心原理适用,但医学图像的独特特征和医疗保健的安全关键性质需要专门研究和定制解决方案。

本文旨在通过概述基本概念,为从事医学领域的放射科医生、临床医生和 AI 研究人员提供针对对抗性 AI 的结构化和全面介绍。它通过描述不同类型的对抗性攻击如何影响 AI 应用并讨论潜在的下游临床后果,强调临床风险和影响。还综述了当前的防御和缓解策略、关键挑战和实际考虑因素,以指导未来的研究和 AI 的安全集成。

2. 对抗性人工智能的基本概念


2.1 理解对抗性攻击


对抗性攻击是指旨在故意欺骗 AI 模型以产生不正确或不安全输出,或从模型中提取敏感信息的策略,通常不会提醒人类用户。这些攻击旨在利用构成许多现代放射学 AI 应用基础的 ML 和深度神经网络(DNNs)的漏洞。例如,对抗性攻击可能在扫描中引入不可察觉的扰动,导致训练用于检测蛛网膜下腔出血的 AI 系统将病理性扫描错误分类为正常。表 1 对对抗性 AI 和传统网络安全攻击进行了高层比较。

2.2 机器学习模型的脆弱性


ML 模型易受对抗性扰动影响源于多个相互关联的因素,包括高维输入空间、局部线性行为、非鲁棒和捷径学习以及规格不足。表 2 提供了这些脆弱性因素的结构化概述,描述了其潜在机制、它们如何导致对抗性易感性以及它们在放射成像中的特定相关性。

2.3 对抗性攻击的分类


对抗性攻击代表了一系列旨在损害 AI 系统的技术。为了更好地理解这一领域,攻击可以根据几个关键维度进行分类,包括攻击者对目标系统的了解、攻击者的目标、攻击目标输出的特异性以及攻击频率。

2.3.1 基于攻击者的知识

根据攻击者对目标 AI 模型的信息掌握程度(如架构、参数、训练数据、防御)进行分类,包括白盒攻击、黑盒攻击和灰盒攻击。白盒攻击中攻击者拥有目标 AI 模型的完全访问权和知识;黑盒攻击中攻击者对目标模型的内部运作知之甚少或一无所知,通常只能像用户一样通过提供输入和观察相应输出来与模型交互;灰盒攻击则介于白盒和黑盒场景之间,攻击者拥有关于目标模型或其环境的部分信息,但非完整知识。

2.3.2 基于攻击者的目标

根据攻击针对 AI 生命周期的阶段及其预期效果进行分类,包括训练时攻击和测试时攻击。训练时攻击旨在在 AI 模型的训练过程中损害它,最广泛研究的类型是中毒攻击;测试时攻击针对完全训练好的 AI 模型在推理或部署时,不改变模型的内部参数,而是操纵模型接收的输入以影响其输出,包括逃避攻击、隐私攻击等。

2.3.3 基于攻击的目标输出

主要适用于逃避攻击,描述操纵的预期结果,包括无目标攻击和有目标攻击。无目标攻击中攻击者的目标是使 AI 模型输出任何不正确的预测,不同于真实分类;有目标攻击中攻击者旨在迫使模型输出特定的、预先确定的错误预测。

2.3.4 基于攻击频率

根据生成对抗性扰动的频率或步骤数进行分类,包括一次性 / 单步攻击和迭代攻击。单步攻击如快速梯度符号法(FGSM),在单次计算中生成对抗性扰动;迭代攻击如投影梯度下降(PGD)等,通过多个小步骤细化对抗性扰动,通常在每次迭代中重新计算梯度并调整扰动,同时将其保持在允许的约束内。

3. 临床风险和影响


3.1 任务级干扰


3.1.1 图像分类和检测

针对图像分类和检测 AI 模型的对抗性攻击已被证明会导致重大诊断错误。这些系统易受假阴性(细微扰动导致恶性或异常发现被漏诊)和假阳性(攻击导致模型标记不存在的病理)的影响。例如,Rao 等人的研究评估了几种基于梯度的对抗性攻击方法对各种训练用于常见胸部疾病多标签分类的 DL 架构的影响,发现强大的白盒攻击会严重降低诊断性能。

3.1.2 图像分割

近期文献表明,对抗性攻击可用于破坏图像分割任务。针对分割的对抗性技术通常旨在操纵特定像素或区域的预测标签,导致不准确的边界描绘或结构误识别。例如,Paschali 等人研究了应用于全脑 MRI 分割的不同分割架构的鲁棒性,使用密集对抗生成攻击,使干净数据上的平均 Dice 重叠分数降低。

3.1.3 图像重建和篡改

新兴文献表明,对抗性攻击还可损害图像重建过程和扫描协议系统。Morshuis 等人证明,最先进的基于 DL 的 MRI 重建算法易受对抗性扰动(包括 k 空间噪声和几何旋转)的影响,以至于诊断相关特征可能丢失。类似地,Mirsky 等人表明,对抗性攻击可用于在 CT 扫描上添加或删除肺癌证据,改变临床解释。

3.1.4 报告生成和临床决策支持

尽管对基于图像的模型研究较多,但近期工作强调,用于放射学报告生成和决策支持的生成式 AI 系统也易受对抗性利用。例如,Shen 等人引入了对抗性域对齐(ADA-STEAL)方法,仅使用非医疗查询图像即可窃取用于放射学报告生成的医疗多模态 LLMs。

3.2 下游临床和操作后果


3.2.1 患者安全影响

最重大的下游影响是对患者造成伤害的可能性。当对抗性操纵导致 AI 系统产生不正确输出时,无论是通过忽略关键发现还是暗示虚假发现,由此产生的诊断不准确可能导致有害的临床决策。即使 AI 仅用作决策支持工具,对抗性改变的输出也会影响临床判断。

3.2.2 操作和财务影响

除了患者安全问题,对抗性攻击可能导致重大的操作中断并给医疗机构带来财务负担。在对抗性 AI 的背景下,这种人为诱导的发现可能通过用假警报淹没放射科医生而进一步加剧效率低下。对抗性操纵的其他后果可能直接转化为资源效率低下,包括浪费的扫描仪时间、不必要的后续研究和延迟的护理协调。

3.2.3 信任丧失和医疗法律责任

此外,对抗性攻击的成功执行有可能削弱临床医生、患者和公众对 AI 技术的信任。这种信心下降可能会破坏对其他有益工具的采用,并阻碍 AI 融入常规临床工作流程。除了声誉后果,此类事件还引发了关于当患者因受对抗性错误影响的 AI 系统而受到伤害时的责任和问责制的复杂医疗法律和伦理问题。

4. 防御和缓解策略


4.3.1 对抗性防御策略概述


对抗性防御包括一系列旨在缓解 AI 生命周期中攻击的策略。这些策略可分为在模型推理前修改或分析输入以阻止对抗性数据的防御、修改模型本身以提高鲁棒性的防御、提供模型在定义扰动下稳定性的正式保证的认证防御,以及通过安全开发、监控和监督增强系统弹性的更广泛的生命周期和操作保障。

4.3.2 修改或分析输入的防御


输入级防御策略旨在在潜在的对抗性数据到达 AI 模型之前检测、修改或过滤它们。通过在管道的早期进行干预,这些方法试图消除威胁或降低操纵输入被处理的可能性,包括输入预处理和对抗性检测。

4.3.3 修改模型的防御


这些策略旨在通过修改模型的训练过程或架构来增强模型对对抗性扰动的内在鲁棒性,包括对抗性训练和鲁棒训练技术与架构。对抗性训练是目前应用最广泛的经验防御,涉及将对抗性示例集成到训练数据中,迫使模型学习对干净和对抗性输入的正确分类。

4.3.4 可证明鲁棒性的认证防御


与前面描述的经验防御不同,认证防御提供了数学保证,即模型的预测对于定义范围内的任何扰动输入将保持不变,旨在提供鲁棒性的正式保证,无论攻击者的策略如何,包括随机平滑和其他形式方法。

4.3.5 更广泛的生命周期和操作保障


除了技术防御,更广泛的生命周期和操作策略可能旨在提高 AI 系统的弹性。这些方法通常侧重于在开发、部署和维护管道中嵌入鲁棒性和安全考虑,包括安全 AI 开发生命周期、持续监控和事件响应规划、数据治理等。

5. 挑战、考虑和未来方向


5.1 对抗性防御的持续挑战


尽管 AI 和对抗性防御最近取得了进展,但在实现能够抵御恶意操纵的强大、有弹性的系统方面仍存在担忧。从技术角度来看,设计能够在不同威胁模型和临床环境中通用的防御是一个重大障碍。许多当前的防御策略也存在内在的权衡,如对抗性训练通常会带来巨大的计算需求,并可能降低模型在非对抗性输入上的性能。替代防御方法同样受到限制,认证防御提供了鲁棒性的正式保证,但仅在有界扰动约束内,可能无法充分反映临床上合理的对抗性操纵的全部范围。

5.2 实际考虑因素


除了技术限制,几个实际因素影响放射学中对抗性 AI 的现实风险状况。尽管对抗性攻击很少见,但风险格局并非没有动机。潜在的对抗性攻击驱动因素包括经济激励、竞争破坏和国家资助的活动。这些风险强化了文献中日益增长的共识,即实际安全不能仅仅依赖技术模型的鲁棒性,而是需要一种全面的、深度防御的方法,针对医疗保健环境的独特操作、伦理和安全需求。

5.3 未来方向


放射学 AI 的长期安全性和信任将取决于解决现有技术限制和部署风险的针对性研究。一个明确的需求是开发特定于医学成像的标准化鲁棒性基准。未来的研究还应侧重于提高防御策略的通用性和效率,如使对抗性训练减少计算强度,并更好地平衡鲁棒性与性能权衡。随着更新的系统(如 LLMs 和多模态架构)被引入放射学工作流程,它们的特定漏洞需要系统研究。最后,未来的工作应优先考虑教育和公众意识举措。

6. 结论


对抗性攻击对放射学中 AI 系统的安全性和可靠性构成了独特威胁,在一系列临床任务中具有潜在后果。本综述概述了此类攻击的机制和分类、它们对放射学工作流程的影响以及当前的防御和缓解策略。尽管现实世界的事件仍然罕见,但临床决策的高风险需要持续关注技术鲁棒性和更广泛的操作保障。正在进行的研究、标准化工作和跨学科合作对于支持放射学中安全和可信的 AI 集成至关重要。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号