编辑推荐:
为解决乳腺癌 HER2评分难题,研究人员评估 AI 性能,发现其在识别 HER2-low 患者上有潜力。
乳腺癌是全球女性健康的 “头号杀手”,每年都有大量女性深受其害。在乳腺癌的众多指标中,人表皮生长因子受体 2(HER
2)的表达情况尤为关键。HER
2是一种跨膜酪氨酸激酶受体,存在于乳腺癌细胞中,它一旦被激活,就像给癌细胞注入了 “兴奋剂”,会疯狂促进细胞增殖。过去,HER
2阳性(免疫组化(IHC)评分 3+,或 2 + 且原位杂交(ISH)基因扩增)的转移性乳腺癌患者,才推荐使用抗体药物偶联物如曲妥珠单抗德鲁昔康(T-DXd) 。但 DESTINY-Breast04 试验带来了新的曙光,研究发现 T-DXd 能显著改善 HER
2低表达患者的无进展生存期和总生存期,这使得准确区分 HER
2评分变得至关重要。
然而,传统的 IHC 视觉评分方式却问题重重。它不仅耗时费力,还容易受到不同观察者主观因素的影响,导致评分结果差异很大。就好比不同的人看同一幅画会有不同的理解,不同的病理学家对 HER2的评分也可能大相径庭。在这样的背景下,人工智能(AI)和深度学习(DL)技术的发展为解决这一难题带来了新的希望。
来自英国中央兰开夏大学医学院、曼彻斯特大学等机构的研究人员 Daniel Arruda Navarro Albuquerque、Matheus Trotta Vianna 等,开展了一项诊断性 Meta 分析。他们旨在评估 AI 在乳腺癌 IHC 中对 HER2评分分类的性能,研究成果发表在《npj Digital Medicine》上。
为了开展这项研究,研究人员进行了一系列关键操作。他们首先按照严格的纳入和排除标准,在 MEDLINE、EMBASE、Scopus 和 Web of Science 等数据库中进行全面的文献检索,筛选出符合要求的研究。然后从这些研究中提取相关数据,包括研究特征、参与者细节、索引测试、参考标准以及 2×2 列联表数据等。在统计分析方面,运用双变量随机效应模型计算合并敏感性和特异性,通过亚组分析和 Meta 回归探索异质性来源,还进行了敏感性分析和发表偏倚评估 。
研究结果如下:
- 研究选择和特征:最初检索到 1581 条记录,去除重复项和不符合要求的研究后,最终纳入 13 项研究进行 Meta 分析。这些研究涵盖 1285 例病例、168 张全切片图像(WSI)和 24626 个图像块,研究中使用的算法大多基于深度学习,部分研究使用了 HER2评分竞赛(HER2SC)数据库的数据。
- AI 的综合性能和异质性:当将阳性阈值设定为 1+、2 + 或 3+(0 分为阴性)时,Meta 分析显示 AI 的合并敏感性为 0.97(95% 置信区间 0.96 - 0.98),合并特异性为 0.82(95% 置信区间 0.73 - 0.88),曲线下面积(AUC)为 0.98(95% 置信区间 0.96 - 0.99)。在区分 1+、2 + 和 3 + 分数时,AI 的表现随着 HER2评分的升高而提升。不过,研究结果存在显著异质性,Higgins 不一致性指数统计值(I2)在敏感性和特异性分析中均在 94% - 98% 之间。
- 亚组分析和 Meta 回归:Meta 回归发现,使用深度学习、较大样本量和以图像块为数据单元,对 AI 性能有积极影响;而外部验证和使用商业算法的研究,AI 性能表现较差。
- 发表偏倚和敏感性分析:Deek 漏斗图不对称性检验表明研究存在低发表偏倚可能性,敏感性分析显示 1+/2+/3 + 与 0 的 Meta 分析性能估计无显著变化。
- 质量评估:使用 QUADAS-AI 工具评估发现,部分研究在 “患者选择” 和 “索引测试” 领域存在高偏倚风险,部分研究还存在适用性问题。
在讨论部分,研究人员指出,AI 在区分 HER2评分 1+/2+/3 + 与 0 方面表现出色,尤其在高评分(如 3+)时,与病理学家视觉评分几乎完美一致。深度学习能显著提高识别 T-DXd 治疗合格患者的敏感性,不过其自动化需要大量数据和高性能计算基础设施。以图像块为分析单位和大样本量的研究,特异性更高,但实际应用中图像块得分聚合存在问题。外部验证和商业算法虽敏感性较低,但在实际应用中具有更好的泛化性和可靠性。
总体而言,这项研究表明 AI 在准确识别 HER2-low 个体方面有很大潜力,为 T-DXd 治疗的临床决策提供了重要参考。不过研究也存在局限性,如部分研究数据缺失影响结果,AI 缺乏标准化等。未来的 AI 验证研究应聚焦于提高 0 - 1 + 范围内的准确性,并详细报告临床和分析前数据。随着 DL 技术的不断发展,病理学家也需要适应并将其更好地融入实践,为乳腺癌患者带来更精准的诊断和治疗。