
-
生物通官微
陪你抓住生命科技
跳动的脉搏
对Kumar等人的回应
《Clinical Dysmorphology》:Response to Kumar et al
【字体: 大 中 小 】 时间:2025年12月31日 来源:Clinical Dysmorphology 0.5
编辑推荐:
本研究通过纳入17项超过10,500例的随机对照试验,首次对GI-Genius、CAD-EYE等5款商业AI系统进行网络meta分析,评估其腺瘤检出率(ADR)和高级别病变检出率(APC)。通过严谨的间接比较、异质性检验及CINeMA证据等级评估,明确AI辅助肠镜的适用场景,强调现有证据的互补性而非重复,并指出需更多跨国对照试验验证。
我们感谢Marlicz和Koulaouzidis(1)对我们文章(2)的关注。尽管我们重视他们的观点,但我们认为他们的某些批评误解了本研究的新颖性、方法论和临床意义。我们在下面提供以下澄清。
以往的网络荟萃分析(NMAs)主要评估了人工智能辅助结肠镜检查与非人工智能辅助手段(例如,第二观察者、Endocuff、高清成像)之间的效果。这项直接的综合分析为临床医生提供了关于不同人工智能平台相对性能的实际见解——这是早期研究中缺乏的信息。通讯作者认为这项工作重复了现有的NMAs,但之前的NMAs主要比较的是:人工智能与第二次观察者的结肠镜检查、人工智能与黏膜暴露设备,以及人工智能与高级成像模式。
本研究首次在单一的NMAs框架内评估并排名了市面上可获得的人工智能系统(GI-Genius、CAD-EYE、Endo-AID、EndoAngel、EndoScreener),并进行了杠杆分析和茎分析。这种针对特定平台的评估对于实践内镜医生和寻求证据以指导系统采用的决策者来说非常相关。
系统的搜索范围扩展到了2025年3月,纳入了几项之前NMAs未包含的大型随机对照试验(RCTs)。这一扩展的证据基础——17项RCTs涵盖了超过10,500名患者——使得效果估计更加精确,同时降低了小样本偏差的风险。重要的是,纳入的试验之间的异质性较低,进一步增强了研究结果的有效性。该研究首次纳入了COLO-DETECT试验——一项重要的多国试验,表明GI Genius显著提高了腺瘤/息肉的检测率(3)。它也是首次纳入EndoScreener数据的试验,并扩展了EndoAngel数据的证据基础。
尽管ENDOANGEL在ADR改善方面的SUCRA得分最高(0.9),但作者报告称“各系统之间的差异不大,置信区间有所重叠”。直接对比有限,因此应谨慎解读其优越性声明,研究中也提到了这一点。尽管如此,分析显示ENDOANGEL相对于其他人工智能平台呈现出一致的优势趋势,为后续评估提供了基于证据的基准。与之前的综述不同,这项NMAs纳入了几项2023年至2025年新发表的RCTs,这些RCTs在之前的分析中并未包含。例如,关于EndoAngel和EndoScreener的新RCTs扩展了证据基础。2024年底发表的最大规模的多国GI-Genius试验为其汇总估计增加了可靠性。
这一扩展的证据基础使得首次能够在NMAs中评估较新的平台(EndoAID、EndoScreener)。
需要指出的是,ENDOANGEL的证据基础目前仅限于在中国进行的试验。正如报告中所反映的,这在CINeMA评估中表现为中等程度的间接性评分。尽管如此,相对效应大小在不同人群中是可转移的,即使绝对ADR存在差异。同时,GI Genius、CAD-EYE和EndoAID也在多国RCTs中进行了评估,从而增强了分析的总体可靠性。因此,该研究提供了关于系统性能的全球和地区性见解。
通讯作者提到的2021年至2024年的NMAs关注了不同的临床问题(人工智能与第二次观察者、暴露设备或高级成像)。Kumar等人的研究则探讨了哪种人工智能系统在整合到常规实践中可能表现最佳。我们认为这些分析是互补的,而不是重复的,每个分析都揭示了结直肠癌预防策略的不同方面。
我们同意所有纳入的比较都是将各个人工智能系统与传统结肠镜检查进行对比,这反映了迄今为止缺乏直接的人工智能之间的对比试验。这种设计并非特有,而是在缺乏直接对比试验时的标准和公认方法。在这些情况下,只要满足传递性假设,SUCRA值仍然是一个有效的概率排名指标。为了解决这个问题,确保了研究之间试验人群、干预措施和结果的可比性。此外,结论非常谨慎,指出系统之间的差异不大,并提醒应谨慎解读优越性声明。
认为Kumar等人的网络荟萃分析“仅限于成对比较”是具有误导性的。当所有可用的RCTs都将人工智能辅助结肠镜检查与传统结肠镜检查进行比较时,星形网络是自然且被接受的设计。在这样的场景中,SUCRA排名被广泛用于比较性综合分析,前提是满足传递性假设——我们对此进行了严格的验证。明确指出,排名代表的是相对概率,而不是绝对的层级关系,并提醒不要过度解读置信区间之间的重叠。现有文献支持在缺乏直接比较时考虑间接比较(4)。
确实,ENDOANGEL的证据基础目前仅限于来自中国的2项RCTs,这些试验的基线ADR略低于西方试验。然而,相对效应估计(比值比)与绝对基线检测率无关,因此在不同环境中仍然具有普遍性。此外,GI Genius、CAD-EYE和EndoAID也在多国RCTs中进行了评估,这增加了分析的总体可靠性。因此,该研究提供了关于系统性能的全球和地区性见解。
通讯作者提到的2021年至2024年的NMAs关注了不同的临床问题(人工智能与第二次观察者、暴露设备或高级成像)。Kumar等人则探讨了哪种人工智能系统在整合到常规实践中可能表现最佳。我们认为这些分析是互补的,而不是重复的,每个分析都揭示了结直肠癌预防策略的不同方面。
我们同意所有纳入的比较都是将个别人工智能系统与传统结肠镜检查进行对比,这反映了目前缺乏直接的人工智能之间的对比试验。这种设计并非特有,而是在缺乏直接对比试验时的标准和公认方法。在这些情况下,只要满足传递性假设,SUCRA值仍然是一个有效的概率排名指标。为了解决这个问题,确保了研究之间试验人群、干预措施和结果的可比性。此外,结论非常谨慎,指出系统之间的差异不大,并提醒应谨慎解读优越性声明。
认为Kumar等人的网络荟萃分析“仅限于成对比较”是具有误导性的。当所有可用的RCTs都将人工智能辅助结肠镜检查与传统结肠镜检查进行比较时,星形网络是自然且被接受的设计。在这样的场景中,只要满足传递性假设,SUCRA排名被广泛用于比较性综合分析——我们严格验证了这一假设。明确指出,排名代表的是相对概率,而不是绝对的层级关系,并提醒不要过度解读置信区间之间的重叠。现有文献支持在缺乏直接比较时考虑间接比较(4)。
确实,ENDOANGEL的证据基础目前仅限于来自中国的2项RCTs,这些试验的基线ADR略低于西方试验。然而,相对效应估计(比值比)与绝对基线检测率无关,因此在不同环境中仍然具有普遍性。此外,CINeMA评估指出ENDOANGEL的间接性为中等,这一点已透明报告。随着更多多国试验的出现,未来的分析将进一步细化这些估计。认为ENDOANGEL的排名无效是因为其RCTs来自中国的观点忽略了两个事实:首先,相对效应大小(比值比)在不同环境中是稳定的;其次,CINeMA分析透明地将ENDOANGEL评为中等间接性,以反映这些担忧。同时,其他系统如GI Genius、CAD-EYE和EndoAID也有多国RCTs的支持,使得数据集具有广泛的代表性。仅基于地理位置否定ENDOANGEL的表现可能会将试验来源与试验的有效性混为一谈。批评者指出,Kumar等人研究中包含的许多EndoAngel试验来自中国,基线ADR较低。然而,在NMAs中使用相对效应大小(ORs)本质上已经考虑了基线差异。此外,基于地理位置限制证据会引入选择偏差。我们的发现反而强调了需要对有前景的平台(如EndoAngel)进行多国验证的必要性。
我们感谢关于排行榜中OR与HR术语的评论。所有ADR和APC的效应大小都是从比值比或平均差异得出的;HR标签是一个意外的排版错误,现已更正。重要的是,这并不改变统计结果。
尽管某些系统的试验数量较少,但使用I2和贝叶斯残差图正式评估了异质性,两者都表明不一致性较低。此外,基于CINeMA的确定性分级考虑了不精确性和研究内的偏差,确保了对证据的保守解读。批评者认为没有进行敏感性分析或偏差评估是不准确的。Kumar等人进行了漏斗图分析、杠杆图和残差图分析、亚组分析以及6个领域的CINeMA评估。异质性始终较低,并非由于“统计功效不足”,而是通过贝叶斯残差拟合得到了确认。当无法进行亚组分析(例如,息肉亚型、地理分层)时,是由于试验报告不足——这是主要文献的局限性,而不是研究方法本身的问题。
与批评相反,确实进行了敏感性和发表偏倚的评估。亚组分析(例如,APC与ADR结果)、漏斗图(图S6–S7)、杠杆图(图S1)和CINeMA偏差风险评估都包含在补充材料中。虽然我们同意进一步按息肉亚型或试验质量进行分层分析会提供更多信息,但这些数据在试验间的报告不一致,且在不引入额外偏差的情况下无法综合。
确实,人工智能经常能检测到微小的息肉。然而,ADR是一个公认的质量指标,也是结直肠癌(CRC)预防的可靠替代指标。大型队列研究表明,ADR每增加1%,CRC发病率降低3%,CRC相关死亡率降低5%(Corley等人,NEJM 2014)。因此,即使ADR的提高幅度不大,在临床上也是有意义的,无论息肉的大小如何。此外,最近的RCTs和荟萃分析表明,人工智能还提高了静止锯齿状病变和平坦腺瘤的检测率,这些病变具有显著的恶性潜力。
许多纳入的RCTs是在不同的实践环境中进行的,这些环境的肠道准备质量、退出时间和操作者经验各不相同。尽管现实世界中的挑战(如准备不足和疲劳)可能会减弱效果,但人工智能通过减少人为错误和认知负担,在这些环境中起到了保护作用。关于假阳性,非肿瘤切除的增加被增强的腺瘤检测所抵消;重要的是,大多数研究并未报告手术时间显著延长。
我们同意经济评估、手术效率以及CRC发病率和死亡率等硬终点是未来的关键考虑因素。然而,这些结果需要大规模、长期的随访,超出了我们当前研究的范围,我们的研究重点是比较ADR和APC的表现。研究中也特别指出了这一局限性,并强调了进一步的多中心试验和纵向分析的必要性。
我们完全同意需要进行健康经济分析、纵向结果(CRC发病率、死亡率)和实施挑战的进一步研究。这些不是遗漏,而是有意识的范围决策:该研究旨在回答一个特定的比较有效性问题,而不是提供成本效益建模或数十年的结果数据。这些差距也在讨论部分明确指出。
虽然一些研究表明,一旦ADR的提高超过10%,收益就会减少,但这一阈值在不同环境中尚未得到明确验证。事实上,人工智能在操作者之间标准化性能的一致能力在社区和非三级医疗机构中可能特别有价值,因为这些机构的基线ADR通常较低。
认为ADR和APC排名之间的差异揭示了“脆弱性”这种说法是误解了这些指标。ADR——每次手术至少检测到一个腺瘤——是迄今为止最有效的结直肠癌发病率和死亡率预测指标。APC提供了补充信息,但不是一个等效的终点。ENDOANGEL在ADR方面排名最高,而EndoAID在APC方面表现优异,这反映了算法优势的不同,而不是分析上的弱点。
总之,Kumar等人和其他作者的网络荟萃分析既不冗余也不脆弱。这是迄今为止最大、最全面的综合分析,纳入了17项RCTs和超过10,500名患者,比较了5个市面上可获得的人工智能平台。我们核实了研究结果的透明报告、对局限性的承认以及对SUCRA排名的谨慎解读。虽然我们欢迎进行大规模的多国直接对比试验,但正是因为缺乏这样的试验,这项NMAs才提供了及时的、具有临床相关性的指导。尽管我们承认存在一些小的排版错误,但研究的核心方法论和结果仍然稳健。Kumar等人和其他作者的网络荟萃分析提供了迄今为止最全面和最新的关于人工智能辅助结肠镜检查平台的综合分析。不应将其视为一个确定的层级关系,而应作为一个基于证据的比较框架,补充之前的NMAs,并随着更多直接对比和多国试验的出现而不断完善。
文章的担保人: Mohammad Jawwad, MD。
具体作者贡献: H.A.:概念构思、手稿起草、关键修订、监督。M.T.K.和A.Y.:文献回顾、写作——审阅与编辑。B.K.:概念构思、方法学和临床内容审阅、关键修订。A.P.:手稿和参考文献审阅、编辑。W.M.:文献支持、初稿审阅、格式调整。N.K.:概念输入、统计和技术准确性审阅。S.Z.:手稿审阅、监督、最终批准。R.S.:文献回顾、校对、参考文献验证。M.H.I.:手稿编辑、一致性检查、校对。M.J.:总体监督、最终关键审阅和手稿批准。
财务支持:无需要报告。
潜在的利益冲突:无需要报告。