数字图像分析在HER2低表达乳腺癌判读中的应用:专家病理学家与Visiopharm HER2 APP的一致性研究
《The Journal of Pathology: Clinical Research》:Inter-rater agreement of HER2-low scores between expert breast pathologists and the Visiopharm digital image analysis application (HER2 APP, CE2797)
【字体:
大
中
小
】
时间:2025年10月19日
来源:The Journal of Pathology: Clinical Research 3.7
编辑推荐:
本文推荐一篇关于HER2低表达乳腺癌判读的重要研究。研究比较了16位乳腺病理专家与Visiopharm数字图像分析应用(HER2 APP, CE2797)在HER2评分中的一致性。结果显示,数字图像分析(DIA)与专家共识在73.5%的病例中一致,Fleiss' kappa为0.433(中等一致性)。在一致性高的病例中,DIA表现优异(kappa=0.916,几乎完全一致)。研究表明,DIA可减少HER2 2+的误判,降低基因扩增检测(FISH)的转诊率,提高HER2低表达评分的可重复性,对指导抗体药物偶联物(ADC)如曲妥珠单抗-deruxtecan(T-DXd)的治疗选择具有重要意义。
随着DESTINY-04乳腺癌试验的发布以及抗体药物偶联物曲妥珠单抗-deruxtecan(T-DXd)作为治疗转移性HER2低表达乳腺癌的治疗药物获得批准,对适合该新疗法患者的筛选需求急剧增加。欧洲肿瘤医学学会(ESMO)专家共识指出,改善病理学家间HER2评分的一致性是一个关键未满足的需求,人工智能(AI)驱动的HER2分析可能有助于通过减少HER2低表达病例的观察者间变异性来实现一致的HER2表达水平评估。
研究病例包括50个乳腺癌样本(1个切除样本和49个核心活检),选自英国一家大型NHS信托细胞病理学部门的常规临床病例,旨在富集HER2低表达范围(0、1+和2+)的肿瘤。样本使用PATHWAY 4B5 assay(Roche)进行染色。全幻灯片图像(WSI)使用Aperio AT2幻灯片扫描仪(Leica Biosystems)在×40放大倍数下获取,并由16位英国和爱尔兰的乳腺病理专家根据英国HER2评分指南(2023更新)进行评估。
本研究使用相同的WSI集,比较了数字图像分析应用(Visiopharm HER2 APP,CE-IVD认证)与专家病理学家组的性能。VP APP是一种自动化单细胞方法软件应用,用于HER2免疫组化(IHC)量化和0、1+、2+和3+分类,使用符合ASCO/CAP HER2 IHC指南的算法。
使用Fleiss'多评分者kappa统计量(κ)评估评分者间一致性。使用Cohen's加权kappa系数评估个体评分者(病理学家和VP APP)与共识评分之间的一致性。分析针对所有病例以及一致性水平(LoA)至少高(>75%)的病例子集。第二个分析子集包括所有HER2低表达病例(共识评分为1+或2+)。第三个子集包括一致性水平至少高的HER2低表达病例。HER2 0评分包括HER2-超低(>10%细胞中弱/微弱染色)和HER2 Null(无染色)组。
VP APP的图像处理步骤和输出数据通过图形说明。视觉表示底层分析步骤,增加了对最终结果的信心。WSI分析的第一步是自动肿瘤识别,该步骤结果经过手动质量控制检查后,由APP进一步处理,生成每个HER2类别细胞数量的读数和最终HER2分类。
比较病理学家共识HER2评分与Visiopharm HER2 APP(VP APP)产生的评分,36/49(73.5%)病例一致,13/49(26.5%)不一致。在一个病例(#31)中,病理学家评分在1+和2+之间平均分配,无法指定共识评分,因此比较总数为49。
在13个不一致病例中,9个(69.2%)发生在一致性水平(LoA)为差或低的病例中,4个(30.8%)发生在一致性水平高的病例中。在一致性水平差的病例中,以及病理学家在HER2评分中一致的病例(绝对一致性水平)中,没有显示该评分与VP APP评分之间的不一致。在不一致的病例中,VP APP评分比专家病理学家更少的病例为 equivocal(2+):分别为3例 versus 7例。
在7个病理学家共识评分为2+但被VP APP评估为1+的病例中,5个在原始诊断时有FISH结果记录,所有(100.0%)均为非扩增,支持这些病例通过视觉评估被过度评分的假设。
如前所述,VP APP评分在13/49(26.5%)病例中与病理学家共识评分不一致。在那些病例中,添加VP APP数据并未改变共识评分。在13例中的5例(38.5%)中,它改变了病例被分类的一致性水平类别;3例从低变为差,2例从高变为低。在之前无法指定共识评分的病例中添加VP APP评分时,它被分类为1+。
Fleiss' kappa统计量提供了使用分类量表评估的两个或多个评分者之间一致性的度量。16位病理学家评分所有50个病例的总体一致性为0.433(95%置信区间[CI]:0.417–0.449)。当加入VP APP的评分时,结果几乎未变,为0.433(95% CI:0.418–0.448)。κ值在>0.40至0.60范围内表示中等一致性。
个体HER2类别内一致性的κ值在单独病理学家结果与病理学家加VP APP结果比较时非常相似。HER2 0和HER2 2+类别的配对结果分别为0.437和0.444,以及0.431和0.424;两者都接近总体一致性的kappa值,均表示中等一致性。然而,HER2 1+类别的配对结果显著较低(0.292和0.296),表示仅公平一致性(κ值范围>0.20至0.40)。相比之下,HER2 3+类别评分一致性的结果为0.803和0.808,均表示几乎完全一致(κ值范围>0.80至1.00)。
使用Cohen's加权kappa统计量比较个体评分者评分(病理学家和VP APP)与每个病例的共识评分之间的一致性水平。当考虑全部50个病例时,kappa分数范围在0.854和0.412之间;VP APP在17位评分者中排名第12,kappa分数为0.638,表示实质性一致性。
当仅包括至少17位评分者中13位同意共识评分(高一致性)的24个病例时,kappa分数范围为1.000至0.664,VP APP得分为0.916,表示几乎完全一致(在17位评分者中排名第8)。
分析那些共识评分将其置于HER2低或超低子集,即0、1+或2+(N=44病例)的病例,kappa分数范围为0.823–0.295。VP APP得分为0.535,表示中等一致性(在17位中排名第12)。
将HER2低表达病例集限制在共识HER2评分一致性高的病例(N=20病例),kappa分数范围为1.000–0.506。VP APP得分为0.860,表示几乎完全一致(在17位评分者中排名第8)。
除了分配HER2类别评分外,VP APP还生成关于从0到3+每个HER2类别中特征化浸润肿瘤细胞比例的数据。该应用的算法评估膜完整性和染色强度,以得出任何给定病例的最终类别评分。
图表描绘了VP APP为每个病例分配给每个HER2类别的细胞比例。病例根据其总体共识HER2类别评分分组。
HER2 0共识评分病例:7个病例被共识分类为HER2 0;所有病例均被VP APP显示由缺乏HER2表达的肿瘤细胞(HER2 0)组成,范围从83.8%到99.1%。VP APP将其中5个分类为HER2 0(一致);在这些病例中,>10%的浸润肿瘤细胞群未证明其他类别的HER2表达。在两个不一致的病例中,两者均被VP APP分类为HER2 1+,分别有11.2%和14.9%的细胞被评估为以1+水平表达HER2。
HER2 1+共识评分病例:这是最大的组,24个病例被共识分类为HER2 1+。VP APP HER2类别在21个病例中一致;在该组中,分类为HER2 1+的肿瘤细胞比例范围从20.5%到85.4%。在大多数这些病例中,存在的HER2 2+细胞比例非常低(范围:0.1–3.0);例外是两个病例,其中肿瘤细胞群的5.2%和8.7%以2+水平表达HER2。在任何病例中均未见3+细胞。
两个病例被VP APP分类为HER2 2+,两者均显示2+比例高于所需的10%切点(分别为16.8%和20.7%)。相反,一个病例被分类为HER2 0。在该病例中,1+细胞比例为7.4%,因此未达到所需的10%切点。
HER2 2+共识评分病例:14个病例被共识分类为HER2 2+。VP APP将这些分为7个HER2类别评分一致的病例,和7个被评估为1+的病例。一致病例中2+比例范围为10.3%至57.7%,不一致病例中为1.0%至8.3%。在所有病例中,3+细胞比例在0.0%至1.2%之间。
对于12个病例,有HER2基因扩增结果可用,显示3个扩增,9个非扩增。在9个非扩增病例中的4个,VP APP返回HER2 1+评分;所有这三个病例在病理学家中显示2+评分的高一致性水平。该应用返回所有三个基因扩增病例的HER2 2+评分。因此,如果该应用用于辅助初步评估,FISH工作量将减少33.3%(4/12病例),而不影响检测需要通过FISH测试确认其HER2状态的病例。
HER2 3+共识评分病例:5个病例被共识分类为HER2 3+。在其中4个病例中,VP APP数据表明浸润肿瘤细胞群的大部分以3+水平表达HER2(范围:33.6–90.7%)。在其余病例中,被VP APP分类为HER2 2+,3+细胞比例为1.8%,大多数细胞(64.9%)被分类为2+。
随着DESTINY 01–03试验确立T-DXd在转移性HER2阳性(HER2 3+)乳腺癌中的疗效,进一步试验检查了其在低水平HER2表达肿瘤中的作用。DESTINY-04试验检查了HER2低表达乳腺癌患者的疗效,并首次显示HER2低表达肿瘤患者的临床显著益处。结果导致T-DXd在美国和欧洲批准用于治疗转移性HER2低表达乳腺癌。
最近报道的DESTINY-Breast06试验结果显示在HER2超低表达乳腺癌中有类似的显著临床益处,以及美国和欧洲批准该药物用于这些超低表达肿瘤。
因此,选择HER2低和超低乳腺肿瘤患者对指导患者管理至关重要。已制定指南以强调当前区分IHC评分0和1+(当前指定为阴性)的需要,并完善识别低水平HER2表达乳腺癌的标准。
多项研究强调了HER2低表达免疫组化评分中高观察者间变异性的问题。涉及的各种问题包括HER2表达的异质性、背景/细胞质染色,以及通过目测确定 positivity(10%)切点附近HER2染色精确百分比的困难。
其他文献报告表明病理学家面临的困难包括:中国国家能力测试计划显示少数机构在评分HER2 0、1+和2+/FISH阴性时存在系统偏倚,准确性水平不令人满意(低于59%);此外,HER2 0病例的一致性率仅为78.1%,表明这对病理学家是一个具有挑战性的领域。一项日本研究对20个浸润性乳腺癌由144位病理学家评分,显示测试组与七位专家参考病理学家组的平均百分比一致性仅为63.4%。一项澳大利亚研究对来自三个实验室的60个乳腺癌核心活检由九位经验丰富的乳腺病理学家评估,显示肿瘤细胞稀少(<20%)表达蛋白质的HER2低表达癌症具有最低的一致性水平。最后,一项最近研究对50个病例由6位病理学家评分与数字图像分析比较,显示后者在96%病例中与病理学家评分高度一致,表明它可能增强HER2表达的标准化和量化,特别是对于IHC评分0和1+。
因此,使用数字病理学和人工智能算法标准化报告已成为优先事项。然而,这需要为一致性比较建立基本事实。
在本报告中,我们比较了商业可用数字图像分析算法(Visiopharm的VP APP)产生的HER2类别评估结果与一组专家乳腺病理学家在临床环境中执行此任务产生的结果。
该研究的优势主要在于病理学家生成的HER2评估数据的稳健性,如原始研究中所发布。还在于,由于源自16位评分者的共识,可以为每个评估样本的评分赋予高度确定性。
此外,来自同一研究的病例集,包括50个临床来源的诊断活检标本,特意富集了属于新定义的HER2超低和低类别的病例,即HER2 0、1+和2+/FISH阴性病例。该集进一步选择包括代表被强调为评估困难主要贡献者的染色模式的病例,即肿瘤异质性和差定位。因此,对于几个评估的病例,一致性水平低并不令人惊讶。当表达HER2染色的肿瘤比例接近关键切点时,这一点尤其明显。这是预期的,因为对于多种生物标志物,已反复证明给定类别中肿瘤比例的估计高度不可靠。作为一个范例,国际Ki-67在乳腺癌工作组(IKWG)的论文很好地证明了这一点,该组进行了一系列超过10年的研究,旨在描述该生物标志物变异性的主要贡献者。他们得出结论,关于Ki-67%标记指数的评估,只有非常低(≤5%)和非常高(≥30%)的值可以通过视觉评分IHC染色样本可靠地分类为低或高,并且除非使用某种形式的正式计数或图像分析,否则在该范围之间观察到显著的观察者间/实验室变异性。
如果考虑VP APP产生的HER2类别评分与共识评分的一致性,VP APP软件表现中等,软件性能在17位评分者中排名第12,如Cohen's加权kappa分数0.638所示。但更公平的比较可能是VP APP的结果与病理学家评分在显示高一致性的病例中的比较。这里kappa分数为0.916。
对共识与应用之间存在差异的病例的详细检查揭示了一些一致的解读模式,病理学家在做出HER2类别诊断决策时似乎依赖这些模式。例如,在分配2+类别时,被共识评分为如此的14个病例均包含2+细胞群。但存在的2+细胞百分比对一致性水平有显著影响;在所有2+细胞百分比高于13%的病例中,存在高水平一致性,并且仅需存在的2+细胞百分比为1–2%即可考虑HER2 2+评分,尽管是由较低多数的评分者。病理学家可能不会将如此低百分比群体误认为高于所需的10%切点,而是被 swayed 给予“疑点利益”,因为知道基因扩增的反射测试将确保肿瘤不显示基因扩增的患者不会被错误地指定为有资格接受靶向治疗。
有趣的是,被VP APP评分为 equivocal(2+)的病例比例明显低于病理学家。可以推测,人眼被幻灯片中的阳性区域吸引,导致对表达百分比的高估。因此,使用算法将导致更少的FISH测试并促进改善的周转时间。
这项研究清楚地证明了数字图像分析在改善HER2类别评估的标准化和可重复性方面可以发挥的宝贵作用,特别是在HER2低表达背景下。其准确测量每个HER2类别中染色肿瘤细胞比例的能力对于显示结果接近决策相关切点的病例尤为重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号