
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能辅助治疗监测在新生血管性年龄相关性黄斑变性中的双中心外部验证研究
【字体: 大 中 小 】 时间:2025年09月21日 来源:Eye 3.2
编辑推荐:
为解决英国NHS眼科服务中新生血管性年龄相关性黄斑变性(nAMD)治疗监测的临床需求与容量失衡问题,研究人员开展了一项人工智能(OCT)图像分析系统的多中心验证研究。结果表明AI系统通过优化视网膜内液(IRF)和视网膜下液(SRF)的定量阈值,使阴性预测值达到95.3%,显著降低了治疗不足风险,为改善nAMD医疗服务质量与效率提供了新方案。
随着人口老龄化加剧,新生血管性年龄相关性黄斑变性(nAMD)已成为全球致盲的主要原因之一。在英国国家医疗服务体系(NHS)中,nAMD的治疗监测占据了眼科门诊需求的相当大部分,临床容量难以满足日益增长的需求。这种治疗监测依赖于对视网膜光学相干断层扫描(OCT)成像的解读,而人工智能(AI)技术有望重新平衡临床需求与容量之间的关系。然而,目前缺乏关于AI在nAMD治疗监测中安全性和有效性的证据。眼科医生短缺、工作负荷过重以及治疗延误导致的视力丧失风险,使得寻找高效、准确的解决方案变得尤为迫切。
nAMD患者通常需要每年接受4-12次治疗,最常见的治疗范式是"治疗与扩展"(TEX)协议。治疗间隔的确定主要基于OCT中的生物标志物,如视网膜内液(IRF)、视网膜下液(SRF)和视网膜下高反射物质(SHRM)。然而,当前医疗系统中存在明显的治疗不足和过度治疗问题。研究表明,真实世界临床评估的阴性预测值(NPV)仅为81.6%,阳性预测值(PPV)为41.5%,这意味着相当一部分患者可能面临视力威胁风险或不必要的治疗负担。
为了解决这一问题,研究人员开展了一项开创性的多中心研究,旨在验证AI驱动的nAMD治疗监测系统在真实世界环境中的效果。该研究最近发表在《Eye》杂志上,代表了首项将自主AI治疗监测决策与两个不同NHS服务的标准护理进行比较的研究。
研究采用了来自纽卡斯尔眼科中心(NEC)和摩尔菲尔德眼科医院(MEH)的521对连续就诊的nAMD患者OCT图像数据。通过独立的眼科阅读中心参考标准,研究人员比较了真实世界二元评估与AI系统评估的表现。AI系统能够进行视网膜OCT分割分析,应用IRF和SRF的阈值来生成二元评估。研究计算了AI与真实世界评估的相对阴性预测值(rNPV),并使用Clopper-Pearson方法推导了95%置信区间。
主要关键技术方法包括:使用经过验证的AI系统进行视网膜OCT分割分析;从两个NHS服务中心收集521对连续就诊的OCT图像;通过独立的摩尔菲尔德眼科阅读中心建立参考标准;应用一系列基于临床实践的IRF和SRF变化阈值;使用机器学习方法(岭正则化逻辑回归和随机森林)进行比较分析。
研究结果
真实世界评估表现
在两个中心的数据中,真实世界对nAMD活动性的评估显示NPV为81.6%(57.3-81.6%),PPV为41.5%(17.8-62.3%)。这表明当前临床实践中存在相当程度的治疗不足和过度治疗。
AI系统优化阈值
通过系统探索不同阈值规则集,研究发现使用绝对而非比例阈值对于IRF和SRF变化能获得更优性能。最优规则集R9(两次就诊间IRF增加>10μm3或SRF增加>2×10?μm3)在聚合数据中实现了95.3%(85.5-97.9%)的NPV和57.8%(29.4-76.0%)的PPV。
机器学习模型比较
随机森林和逻辑回归模型无法在任何阈值下同时超越R9规则的PPV和NPV性能,表明简单的启发式阈值规则在这一应用中具有优势。
相对预测性能
使用最简单的疾病活动性阈值(IRF、SRF或SHRM的任何增加)时,AI决策的rNPV为1.17(1.12-1.22),rPPV为0.942(0.75-1.19)。应用R9阈值后,rNPV保持在1.17(1.11-1.23),而rPPV改善至1.39(1.10-1.76)。所有规则集的估计都满足了主要终点,证明AI决策的视力威胁性治疗不足水平非劣于甚至优于真实世界护理。
错误分析
在521对就诊中,使用R9产生了15个假阴性输出(NEC 5个,MEH 10个)和84个假阳性输出(NEC 53个,MEH 31个)。错误分布在不同年龄、性别、种族或糖尿病状态的亚组间没有显著差异。
图像质量影响
对57个案例的审查显示,成像质量问题是导致错误的主要原因。在NEC数据集中,48.6%的错误涉及非解剖学分割,均发生在至少有一个B扫描成像质量欠佳的情况下。MEH数据集中的错误主要来自弥漫性视网膜增厚区域IRF分配的变异性。
讨论与结论
这项研究首次提供了关于AI启用nAMD治疗监测相对于当前NHS服务的效果和效率的见解。研究发现,在两个独立的NHS中心中存在类似且重大的改善机会,可以减少nAMD护理中疾病活动性评估带来的治疗不足和过度治疗。
与更广泛文献的比较表明,当前市场上已有的医疗人工智能设备(AIaMD)产品均未获得自主使用监管批准,这意味着nAMD治疗监测的AI启用医疗路径必须保留合适合格的医疗专业人员作为负责的临床决策者。本研究强调,需要对OCT生物标志物变化应用非零决策阈值,这与nAMD护理中现有的定性OCT解读范式不同。
研究的局限性包括回顾性设计的固有限制,以及无法测量AI启用护理的时间节省效益。此外,验证数据的种族多样性仍然有限,缺乏高度近视的标签也限制了研究对稳健性能的保证。
进一步的研究方向包括在不同中心进行复制研究以确认普遍性,研究不同AIaMD产品的价值主张差异,以及进行干预性研究以了解人机交互和认知偏差对临床影响的影响。
最终,这项研究强调了在NHS nAMD服务中减少临床需求的同时不损害疾病活动检测准确性的可复制机会。如果AI启用的nAMD治疗监测要改善NHS服务的质量和效率,将取决于对OCT分割输出应用定量决策阈值,这些阈值应抓住安全增加治疗间隔扩展频率的机会。这种方法可能通过现有的AIaMD实现,但需要进一步证据,并且未来具有明确监管批准用于自主使用的AIaMD可能更有益处。
这项研究为改善nAMD护理质量和效率提供了重要见解,为AI技术在眼科医疗中的临床应用奠定了坚实基础,也为解决医疗需求与容量不平衡这一全球性挑战提供了新思路。
生物通微信公众号
知名企业招聘