基于监管机构批准的深度学习系统在糖尿病视网膜病变筛查中的诊断准确性:系统评价与荟萃分析

《npj Digital Medicine》:Systematic review and meta-analysis of regulator-approved deep learning systems for fundus diabetic retinopathy detections

【字体: 时间:2025年12月21日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对全球糖尿病视网膜病变(DR)筛查覆盖率不足的难题,首次系统评价与荟萃分析了25种监管机构批准的深度学习(DL)系统。结果显示,这些AI系统在患者水平和眼水平均表现出高准确性(敏感度0.92-0.93,特异度0.90-0.93),性能堪比专家,但存在显著的异质性。研究明确了DR严重程度分级、国家收入水平、图像可分级性等关键影响因素,为AI-DR系统在全球范围内的安全、公平部署提供了关键证据。

  
糖尿病视网膜病变(Diabetic Retinopathy, DR)是工作年龄成年人可预防性失明的主要原因之一。全球糖尿病患病率持续上升,预计到2045年将达到7.83亿人,与之相关的DR患者数量也将大幅增加。虽然及时筛查和治疗可以预防高达90%的严重视力丧失,但现实世界的筛查覆盖率并不理想:高收入国家约为66%,而中低收入国家仅为39%左右。障碍包括认知有限、出行成本以及训练有素的阅片师和眼科医生持续短缺,尤其在资源有限的环境中。
近年来,人工智能(AI)和深度学习(Deep Learning, DL)为这一挑战提供了可扩展的解决方案。自2018年美国食品药品监督管理局(FDA)首次批准自主DR筛查设备(IDx-DR)以来,多种AI系统相继获得FDA、欧盟CE标志或其他监管机构的批准。然而,监管批准只是确保安全、公平应用的关键里程碑,而非最终步骤。这些已获批的AI系统在真实世界中的诊断性能如何?其性能是否受到疾病严重程度、成像协议、人群差异等因素的影响?目前尚缺乏针对所有已获批AI系统的综合性能评估。
为此,研究人员在《npj Digital Medicine》上发表了这项系统评价与荟萃分析,旨在:(1)编目目前市面上所有经监管机构批准的AI系统;(2)量化它们在独立验证和真实世界实施研究中的汇总诊断准确性;(3)探究可能影响诊断准确性的研究水平和设备水平因素。
研究人员系统检索了PubMed、Embase和ClinicalTrials.gov数据库(截至2025年4月3日),最终纳入了82项符合条件的研究(覆盖887,244次检查),涉及25种获批的DL系统,在28个国家进行评估。研究采用分层双变量随机效应模型进行荟萃分析,并通过元回归探讨异质性来源。
主要技术方法包括:系统检索多个数据库获取相关研究;使用预定的电子提取表提取数据;采用QUADAS-2工具评估研究方法学质量;使用分层双变量随机效应模型计算汇总敏感度和特异度;通过单变量和多变量元回归分析探讨影响性能的调节因素(如DR严重程度、国家收入水平、图像可分级性、瞳孔散大等);使用Deeks‘漏斗图检验评估发表偏倚。
研究结果
研究识别与特征概述
PRISMA流程图显示了研究筛选过程。最终纳入的82项研究在2016年至2025年间进行,覆盖30个国家,约三分之二来自高收入经济体。研究设计多样,超过一半为前瞻性真实世界或临床试验。所有临床相关终点(任何DR、需转诊DR和视力威胁性DR)均有覆盖。44%的研究使用了至少一个完全外部的测试集进行验证。
监管批准与DL架构概览
研究汇总了25种主要商业DL算法的监管和技术现状。例如,EyeArt是唯一同时获得FDA批准和欧盟MDR IIb级认证的产品。技术层面,生态系统仍由Inception系列主干网络主导,较新的产品越来越多地采用EfficientNet以提高参数效率。集成学习策略被广泛用于提高鲁棒性。
质量评估
根据QUADAS-2标准,在患者选择、指标测试、参考标准和流程及时性方面,分别有56.1%、57.3%、52.4%和41.5%的研究被评为低偏倚风险。流程和时序仍然是常见问题。适用性担忧普遍较小。
患者水平DL系统的总体荟萃分析
双变量随机效应模型显示研究间存在高度异质性。多变量调整后,汇总敏感度为0.93(95% CI 0.91-0.95),汇总特异度为0.90(95% CI 0.87-0.92)。Deeks‘漏斗图检验显示存在边际发表偏倚证据。
患者水平DL系统的元回归分析
单变量元回归显示,几个预先设定的调节因素显著贡献于研究间的异质性。多变量元回归证实了DR类别、国民收入水平、诊断标准、参考图像模态和图像可分级性对诊断性能的独立贡献,显著改善了模型拟合度。
眼水平DL系统的总体荟萃分析
汇总敏感度为0.92(95% CI 0.89-0.94),汇总特异度为0.93(95% CI 0.91-0.94)。Deeks’漏斗图检验未发现发表偏倚证据。
眼水平DL系统的元回归分析
多数调节因素仅导致诊断准确性的 modest 变化。多变量元回归纳入了经济状况、DR类别、瞳孔散大、参考图像模态和图像可分级性五个调节因素,显著改善了模型拟合度。
讨论
本研究首次系统评价和荟萃分析了专门针对监管机构批准的AI系统用于DR筛查的证据。结果显示,这些系统达到了专家级的准确度,但其性能并非一成不变,而是深受背景因素影响。疾病严重程度阈值、国家收入水平、图像可分级性、供应商参与度等因素共同解释了约一半的观察到的异质性。
研究强调了在真实世界部署中考虑这些背景因素的重要性。例如,针对“任何DR”的筛查任务、在低收入环境中或使用低可分级性图像数据集时,预计会出现更高的假阳性率,需要相应的分流和工作流程调整。相反,使用便携式相机和视网膜专家判读的研究显示出更高的特异性。
本研究也存在一些局限性,如图像可分级性报告不一致、软件版本信息不完整、可能遗漏了未发表研究的算法等。未来的研究应包括头对头试验、实施研究以及标准化审计管道的开发。
结论
总体而言,监管机构批准的深度学习系统在DR筛查中表现出高诊断准确性,性能可与专家相媲美。然而,其性能受到多种因素影响。成功的全球部署需要稳健的质量保证循环、协调的监管监督和公平的报销模型。通过这种方式,自主AI可以将高质量的DR筛查扩展到目前缺乏服务的数百万人群,有助于在全球范围内预防可避免的视力丧失。这项研究为临床医生、支付方和政策制定者提供了关于已获批AI工具性能的坚实证据,并为指导其安全、公平和有效的实施提供了重要见解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号