编辑推荐:
为解决 AI 在乳腺癌筛查中因校准人群与目标人群不匹配导致性能差异的问题,研究人员开展 “Simulating mismatch between calibration and target population in AI for mammography the retrospective VAIB study” 研究,发现多种不匹配会显著影响癌症检测率(CDR)和假阳性率(FPR),强调校准人群代表性对 AI 临床应用的重要性。
在乳腺癌筛查领域,人工智能(AI)的应用逐渐广泛。它就像一个 “数字侦探”,帮助医生更高效地发现乳腺病变。然而,目前 AI 在实际应用中却面临着诸多挑战。一方面,不同的 AI 模型在不同数据集上表现差异较大,一些模型在特定数据集上表现出色,但在临床实际应用或独立外部数据集验证时,性能却大打折扣。另一方面,由于缺乏合适的评估方法和统一标准,难以确定哪种 AI 算法最适合特定的临床环境。这些问题严重限制了 AI 在乳腺癌筛查中的有效应用,也让人们对 AI 筛查的准确性和可靠性产生了疑虑。
为了攻克这些难题,来自瑞典多个研究机构(包括 Karolinska Institutet、Lund University、Link?ping University 等)的研究人员开展了一项名为 “Simulating mismatch between calibration and target population in AI for mammography the retrospective VAIB study” 的研究 。他们通过模拟校准人群和临床目标人群之间的多种不匹配情况,深入探究其对 AI 性能的影响。研究结果发表在《npj Digital Medicine》上,为 AI 在乳腺癌筛查中的合理应用提供了关键依据。
研究人员采用了多种技术方法来开展此项研究。首先,他们建立了 VAIB 平台,收集了来自瑞典三个地区的大量筛查乳腺 X 光片数据。通过该平台,获取了病例对照数据集和队列数据集,这些数据集涵盖了不同年龄、乳腺密度、癌症特征以及不同影像设备制造商的数据 。其次,研究中使用了三种 AI 系统(Lunit INSIGHT MMG、Vara 和 Therapixel MammoScreen)对乳腺 X 光片进行分析,获取预测癌症可能性的分数。在数据处理阶段,运用 R 语言进行数据质量控制和统计分析,通过绘制受试者工作特征(ROC)曲线、计算曲线下面积(AUC)等指标评估 AI 性能,还对 AI 阈值进行校准,以比较不同数据集和不同 AI 系统之间的性能差异 。
研究结果如下:
- 研究人群:最终病例对照数据集包含 6028 名癌症确诊参与者的 7790 次检查和 27422 名健康参与者的 38509 次检查;队列数据集包含 864 名癌症确诊参与者的 867 次检查和 39986 名健康筛查参与者的 40022 次检查 。
- 验证误差:研究人员计算并比较了不同验证误差下整体 VAIB 数据与错误选择数据的 AUC、临床影响(如 CDR 和 FPR)。结果显示,各种验证误差对 AI 性能影响显著。
- 随访期和参考标准:研究发现,随访期对 AI 和放射科医生的性能评估有重要影响。当随访期设为 36 个月时,AI 系统性能与放射科医生双读性能一致;随访期缩短,放射科医生表现更优,AI 系统若要达到同等水平,会大幅提高 FPR 。
- 时间选择:选择不同时间段的病例和对照数据会显著影响 AI 系统性能。例如,早期病例和晚期对照数据会降低 AI-1 和 AI-3 的 CDR 和 FPR,增加 AI-2 的 CDR 和 FPR;早期对照和晚期病例数据则会使 AI 系统的 CDR 和 FPR 增加 。
- 人群特征:年龄和乳腺密度:AI 系统在不同年龄组和乳腺密度组表现不同。年龄较大的参与者(70 岁以上)和乳腺密度较低(A 类)的乳房,AI 系统性能更好。使用不具代表性的年龄或乳腺密度数据校准 AI 阈值,会改变 CDR 和 FPR 值 。
- 癌症特征:不同 AI 系统对原位癌和浸润性癌的检测性能存在差异。使用仅包含原位癌或浸润性癌的数据校准 AI 阈值,会导致 CDR 和 FPR 变化,其中 AI-1 受影响最小 。
- 图像采集:AI 系统在不同制造商(GE 和 Philips)的成像设备上性能差异显著。用错误设备制造商的数据校准 AI 系统,会使 CDR 和 FPR 大幅改变。不同地区使用相同设备(如 GE),AI 性能仍有差异,可能与成像设置和图像处理不同有关 。
- 统计分析和报告指标:结果表明,上采样和自举重采样是调整病例对照数据集准确性指标的可行方法,二者结果与队列数据相似,但自举重采样的置信区间更宽。1:5 和 1:1 病例对照比数据集的结果也相似,1:1 数据集的 95% 置信区间更宽 。
研究结论和讨论部分指出,多种数据选择和校准验证误差对 AI 在乳腺癌筛查中的应用有显著临床影响。设备制造商差异对 AI 性能影响最大,不同的设备会导致 AI 的 ROC-AUC、校准阈值改变,进而使 CDR 和 FPR 大幅变化。这凸显了使用反映目标临床环境的数据进行本地验证和校准的重要性。
在评估 AI 系统时,参考标准的定义至关重要。以往许多研究未充分考虑随访期对 AI 性能评估的影响,不同随访期会导致结果偏差,影响对 AI 系统的准确评估。因此,未来研究应更谨慎地选择随访期,确保评估的准确性和公正性。
收集回顾性数据时,要平衡研究日期、病例和对照数量,避免时间选择偏差。使用不具代表性的数据集会使 AI 性能评估出现偏差,影响校准准确性,可能降低癌症检测率、增加假阳性率,加重放射科医生工作负担。此外,筛查参与者的年龄、乳腺密度、癌症特征以及成像设备制造商等因素,都对 AI 性能有重要影响,在验证和校准 AI 系统时,必须确保这些因素的代表性 。
虽然使用病例对照数据集结合统计方法可有效验证 AI 系统,但本研究存在一定局限性。例如,受 36 个月随访期限制,未纳入最新数据;未全面研究所有潜在影响因素;未详细分析 AI 模型间差异;研究结果主要适用于瑞典或类似筛查系统;仅纳入两种成像设备制造商的数据 。尽管如此,该研究仍具有重要意义。它为 AI 在乳腺癌筛查中的安全有效应用提供了关键指导,有助于优化 AI 系统的校准和验证,减少因 AI 应用不当对患者造成的伤害,推动乳腺癌筛查技术的进步 。