编辑推荐:
医学人工智能(AI)模型有望改善全球范围内高质量诊断的可及性。然而,这些模型背后的训练数据通常包含敏感的患者信息,这些信息可能通过隐私攻击被泄露。先前的研究主要是在数据集中所有记录的总体层面上量化这些攻击的成功率。因此,对于个体患者所面临的隐私风险,理解尚不充
医学人工智能(AI)模型有望改善全球范围内高质量诊断的可及性。然而,这些模型背后的训练数据通常包含敏感的患者信息,这些信息可能通过隐私攻击被泄露。先前的研究主要是在数据集中所有记录的总体层面上量化这些攻击的成功率。因此,对于个体患者所面临的隐私风险,理解尚不充分,这些患者通常向训练数据集中提供多个相似的记录。本研究首次对医疗诊断应用的人工智能模型进行了患者级隐私审计。研究人员重点关注成员推断攻击(MIAs),该攻击旨在确定特定个体的数据是否被用于训练模型。研究人员在多种医疗数据集上证明,即使总体攻击性能并未显著偏离随机猜测,MIAs 对个体患者也能达到接近完美的成功率。研究人员进一步发现,具有高攻击成功率的患者数量随着模型容量的增加而大幅增加,并且代表性不足的群体——按疾病状态、自我报告的种族、保险、性别或成像方案进行分层——面临着不成比例的高攻击成功率。总之,研究结果表明,总体隐私指标可能严重低估个体隐私风险。研究人员观察到的差异性风险概况是否会扩展到 MIAs 之外的其他攻击,仍是一个悬而未决的问题,这促使研究人员进一步开发适用于所有数据贡献患者的风险评估和缓解技术。
**研究背景与问题**
医学人工智能(AI)在改善健康结果方面具有巨大潜力,特别是在缺乏专业医疗资源的地区。然而,AI也带来了新的挑战和风险,包括模型部署时产生的安全漏洞。能够访问AI模型的不受信任用户,仅通过观察其预测,就可能窃取其参数或执行隐私攻击,从而提取用于模型训练的数据中的敏感细节。针对AI模型的隐私攻击,例如成员推断攻击(MIA),可以推断出特定患者的数据是否被包含在模型的训练数据集中。对于基于特定疾病或中心队列训练的模型,成功推断成员身份可直接作为敏感医疗信息的代理。随着基于敏感患者数据训练的医学AI模型加速部署,进行严格的隐私风险评估变得至关重要。然而,先前的研究主要是在训练数据集中所有记录的总体层面上量化MIA的成功率,这隐含地将风险在记录间平均化,从而掩盖了记录级和患者级攻击成功率的重要信息。因此,个体患者因向AI训练数据集贡献个人数据(通常是多个记录)而面临的风险,尚未得到充分理解。鉴于医疗数据是网络犯罪分子的主要目标,且仅靠假名化越来越被认为不足以防止个体在大型高维数据集中的再识别,因此有必要提高对AI隐私攻击对个体患者构成威胁的认识。
**研究内容与意义**
本研究发表在《Nature》上,旨在揭示部署未经保护的医学AI模型可能对个体数据贡献患者构成重大的隐私风险。研究人员通过对执行标准诊断(监督分类)任务的AI模型进行隐私审计,量化了最先进的MIA在个体数据贡献者层面的成功率。研究使用了七个包含真实世界临床数据的大型数据集,涵盖多种类型的医学影像、心电图和电子健康记录。研究发现,MIA的成功率在数据贡献患者中分布不均,这种差异存在于两个层面:个体患者层面,部分患者遭受近乎完美的攻击成功率,而其他患者基本不受影响;群体层面,在训练数据集中代表性不足的患者群体,往往在MIA最易受攻击的记录中占比过高。研究结果表明,针对AI模型的隐私攻击在损害个体数据贡献者隐私方面可能比先前认为的更为有效。这表明当前AI隐私风险报告实践可能低估了个体层面的风险,因此,研究人员建议将差分隐私(DP)等可数学验证的风险缓解策略整合到医学AI模型开发工作流程中。
**关键技术方法**
研究人员主要采用了基于似然比的成员推断攻击(LR-MIAs)方法,包括似然比攻击(LiRA)和改进的鲁棒成员推断攻击(RMIA)。攻击者通过查询目标模型获得预测置信度,并将其与通过参考模型获得的置信度分布进行比较,从而推断目标记录是否为训练集成员。为了评估患者级风险,研究人员提出了一种估计记录级和患者级MIA成功率的技术。该方法通过训练大量目标模型(N=200),为每个训练记录估计在LR-MIAs中零假设和备择假设下目标模型置信度的抽样分布,并据此计算记录级攻击成功率。患者级得分则取给定患者所有记录级得分的最大值。研究使用了来自多个公开数据集的真实临床数据,包括CheXpert(胸部X光片)、MIMIC-CXR(胸部X光片)、Fitzpatrick-17k(皮肤病学图像)、FairVision(眼科图像)、EMBED(乳腺X光片)、PTB-XL(心电图)和MIMIC-IV-ED(电子健康记录)。模型训练采用了数据增强、权重衰减和学习率调度等先进技术,并采取措施防止过拟合。
**研究结果**
1. **攻击开源模型**:研究人员对TorchXrayVision库中的开源胸部X光片模型(CheXpert和MIMIC-CXR)进行了现实场景下的攻击演示。使用仅需一个预训练参考模型(PadChest)的RMIA方法,在离线攻击设置下,对两个模型分别取得了0.61和0.65的总体攻击成功率,表明攻击具有实际可行性。
2. **部分患者的近乎完美成功率**:在多个数据集上,研究人员发现一小部分患者对LR-MIAs高度易感。患者级MIA AUC得分的经验生存函数显示,存在患者得分接近1.0(完美攻击)。然而,总体攻击成功率的受试者工作特征曲线及其对应的AUC得分并未显著偏离随机猜测基线,这表明平均情况下的攻击成功率指标不适合衡量隐私风险,因为它们无法准确反映部分记录或患者高度易感而绝大多数并非如此的事实。
3. **更大模型,更大风险**:研究发现,MIA成功率(包括总体和患者级)随着模型容量的增加而增加。对于皮肤病学数据集(Fitzpatrick-17k)和胸部X光片数据集(CheXpert),使用更大容量的模型(如更宽的残差网络和视觉变换器)时,高度易受MIA攻击的患者相对比例大幅增加,有时甚至增加一个数量级。这表明在追求更高诊断性能的同时,患者隐私风险也随之上升。
4. **攻击成功率因亚组而异**:研究发现在按疾病状态、自我报告的种族、性别、成像方案或医疗保险分层的患者亚组之间,极端MIA风险(99
th记录级MIA AUC百分位数)的分布存在显著差异。代表性不足的群体(如数据集中的少数群体)在最易受攻击的记录中出现频率往往高于预期。例如,在MIMIC-IV-ED中,黑人患者、拥有医疗补助保险的患者或诊断为癌症的患者在最易受攻击的记录中出现的频率分别比总体数据集高出31%、126%和18%。事后检验分析表明,观察到的风险差异至少部分是由训练数据中群体规模的差异驱动的。
**讨论与结论**
本研究首次提供了医学AI模型患者级隐私审计的数据。研究结果证实了早期关于MIA风险异质性的观察,并在三个关键维度上推进了先前的AI隐私审计工作:转向患者级风险评估、揭示总体成功率低估真实风险、以及证实MIA漏洞在大型代表性临床数据集中存在且更为关键。
**讨论要点包括**:
* **审计报告标准需改变**:标准评估协议在记录层面总体衡量攻击成功率,即使以极低的假阳性率评估,也无法充分捕捉MIAs对个体患者能达到近乎完美成功率的事实。因此,AI隐私审计的报告标准需要改变,应报告个体数据贡献者层面的攻击成功率。
* **模型规模与隐私的权衡**:患者高度易受MIA攻击的数量随着模型增大而急剧增加。理论研究表明,对于长尾数据分布,拟合尾部的非典型记录对于在测试时获得对未见数据的最佳性能是必要的。研究结果为此提供了进一步的实证支持,并表明患者隐私和模型性能之间的权衡是不可避免的,特别是对于罕见疾病。研究人员建议仔细评估更大模型带来的性能提升是否必要。
* **差异性风险与健康公平**:研究发现极端MIA风险在不同患者亚组中出现的频率存在显著差异,且这些差异至少部分由训练数据中的群体规模差异驱动。代表性不足的群体往往在最易受MIA攻击的记录中占比过高。这一发现——即AI隐私风险的负担不成比例地落在代表性不足的群体身上——补充了关于健康不平等的现有文献。研究结果表明,当前医学AI开发和部署的趋势可能会加剧这些健康不平等。
* **对生成式AI的潜在影响**:由于MIAs有助于针对生成式AI模型的数据提取攻击,本研究结果对生成式AI隐私风险评估可能具有深远意义。未来研究的一个有趣方向是将本研究提出的估计记录级和患者级MIA成功率的方法应用于生成式模型。
* **风险缓解策略**:要充分释放医学AI的潜力,需要在庞大的医疗数据集上训练模型,这取决于获得并维护数据贡献患者的信任。为此,差分隐私等可数学验证的风险缓解方法正成为最有前景的解决方案。DP通过在模型训练或微调期间用白噪声仔细扰动参数更新,限制任何个体数据对参数更新以及最终模型的贡献,从而可证明地保护任何数据贡献患者的隐私。实验数据证实,更强的DP保护水平能有效降低所有数据贡献患者的MIA成功率。然而,研究也观察到,缓解MIAs需要比先前认为更强的DP保护水平。具体而言,研究结果表明,要为所有数据贡献患者完全缓解MIAs,需要在患者层面而非记录层面实施DP保护。近期研究表明,在实践中,可以在保证强隐私的前提下训练AI模型,且与无隐私模型相比,预测性能的下降最小。
**研究结论**:研究人员提供了证据表明,成员推断攻击(MIAs)在损害个体数据贡献患者的隐私方面可能非常有效。鉴于这种脆弱性,应对医学AI模型及其部署环境进行评估,以确定攻击者通过成功推断训练数据集成员身份可能获得的敏感信息。为防止隐私损害,研究人员建议通过可验证的风险缓解策略和/或严格的访问控制来保护易受攻击的模型。