《European Radiology》:The current state of demographic subgroup reporting for commercially available AI for radiology: a scoping review
编辑推荐:
目的:尽管亚组性能报告有助于确保人工智能(artificial intelligence, AI)产品的安全性,但此类报告的范围尚不明确。本范围综述旨在识别验证商用AI产品的研究,并报告性别、年龄和种族/民族人口统计学亚组性能报告的趋势。材料与方法:研究人员于
目的:尽管亚组性能报告有助于确保人工智能(artificial intelligence, AI)产品的安全性,但此类报告的范围尚不明确。本范围综述旨在识别验证商用AI产品的研究,并报告性别、年龄和种族/民族人口统计学亚组性能报告的趋势。材料与方法:研究人员于2024年11月29日从Health AI Register和PubMed数据库收集了2010年后发表的商业产品同行评审验证研究。采用回归分析绘制性别、年龄和种族/民族报告趋势。研究人员应用Wilson置信区间(confidence interval, CI)方程估算哪些结核病检测研究在亚组元分析中统计效力不足。结果:在验证252个产品的545项研究中,392项报告了上述三个亚组中任一亚组的人口统计学数据,仅77项呈现了亚组性能结果。骨骼系统(20/88)和肺部(30/139)研究,以及采用胸部X线摄影(24/79)和骨骼X线摄影(19/63)的研究最常报告亚组性能数据。研究人员未发现近期研究(OR: 1.039 [95% CI: 0.959–1.127])或企业赞助(OR: 1.010 [95% CI: 0.492–1.920])会提高亚组报告率。研究表明21个结核病数据集中有14个可能在事后亚组元分析中统计效力不足。结论:本范围综述量化了商业验证领域的碎片化程度,显示人口统计学和按亚组性能报告均不足以评估亚组偏倚。这一系统性问题需要研究人员至监管机构等所有利益相关方的共同努力,鼓励完善报告和商业产品验证,以支持医师和患者对医疗AI产品的信任。
## 研究背景与问题
人工智能(artificial intelligence, AI)作为医疗软件产业的重要组成部分,在放射学领域的应用日益广泛。近年来,多项评论和综述指出,医疗AI中的算法偏倚(algorithmic bias)可能对基于人口统计学特征、社会经济因素或地理因素区分的患者亚群构成风险。当模型应用于与高度筛选的测试队列人口统计学特征不同的外部队列时,这些偏倚可能被放大。尽管外部验证可以识别广泛的性能差异,但此类研究仍缺乏揭示不同患者人口统计学亚群之间性能差异的分辨率。迄今为止,关于商业医疗AI中是否存在亚群偏倚的证据鲜有报道,亦未能证明面向患者的模型在最常见的患者人口统计学亚群(如性别、年龄和种族/民族)中运行处于合理范围内。
已知AI能够在有或没有专门训练的情况下识别患者人口统计学亚群,且算法可能利用这些亚群作为捷径而非执行预期任务,但针对此问题的规则或法规仍付阙如。美国食品药品监督管理局(Food and Drug Administration, FDA)的批准或欧盟医疗器械法规(EU Medical Device Regulation, EU MDR)下的CE标志仅表明产品已证明适用于预期用途,而非对特定人群亚群安全无偏倚。此外,现行法规不要求提交用于商业AI审批的证据必须经过同行评审并发表。随着医疗AI模型日益深度化和复杂化,算法偏倚可能在监管机构提供的基本性能测试中并不明显。
目前,由于可用信息有限,评估临床使用的医疗AI产品中算法偏倚的最佳实践仍不明确。监管机构和患者倡导团体正着手制定识别和量化算法偏倚的解决方案,但此类组织同样苦于商业医疗AI数据的普遍匮乏。这种"无规制因无数据、无数据因无基线规制"的恶性循环,使临床医师担忧相关产品潜藏有害偏倚。
## 研究目的
研究人员开展此项范围综述旨在:(a)识别验证商用AI产品的研究;(b)评估年龄、性别和种族/民族人口统计学的报告频率,以及是否报告了按人口统计学亚群划分的性能;(c)提供改进此类报告以支持未来算法偏倚元分析的实用建议。
## 主要技术方法
本研究遵循PRISMA-ScR指南及澳大利亚乔安娜·布里格斯研究所(JBI)更新后的范围综述方法学指导。数据来源为Health AI Register数据库和PubMed数据库,检索日期为2024年11月29日,纳入2010年1月1日后发表的文献。商业可用性通过FDA的AI/机器学习(machine learning, ML)赋能医疗器械数据库或EUDAMED数据库确认。采用二项式逻辑回归模型分析发表年份与人口统计学数据或亚群性能报告的关系,多变量二项式逻辑回归控制时间趋势分析企业赞助或作者关联是否预测报告行为。研究人员提出最小亚群性能(S
min)估算方程:S
min = 1 ? [(1 ? S
overall)/x],其中x为亚群在测试数据集中的流行率;并应用Wilson置信区间方程估算亚组分析所需样本量,以结核病(tuberculosis, TB)检测产品验证研究为例进行示范。
## 研究结果
**纳入研究概况**。从PubMed收集868条记录,从Health AI Register提取678条记录,最终纳入545项验证研究。392项研究报告了任一亚组的人口统计学数据,仅77项同时呈现了人口统计学详情和亚组分析结果,涉及38家制造商的52个商用产品。单个产品的验证研究数为1至34项,9个产品有10项及以上验证研究。评估最多的产品为Lunit Insight CXR,其34项研究中有16项包含任一亚组性能。
**时间趋势**。尽管近年包含亚组评估的研究数量较多,但近期研究并未显著更可能包含亚组分析(OR: 1.039 [95% CI: 0.959–1.127], p = 0.347),此趋势适用于所有亚组。
**人口统计学特征与性能报告**。在453项非性别特异性研究中,366项(81%)记录了测试集的性别信息,其中59项(16%)提供了性亚组性能数据。545项研究中,79项(14%)按两个及以上年龄组记录患者年龄信息;67项报告了分层年龄组的产品性能,但27项未包含各年龄组患者数。仅40/79项研究(51%)同时提供了报告性能指标的年龄组患者数。45项(8%)研究报告了种族/民族比例,12项承认队列主要由单一种族/民族组成;8/45项同时报告了各族群患者数及模型性能。任一人口统计学亚组的性能报告率,在各放射学亚专科(0%–23%)和成像模态(0%–30%)中均未超过30%。
**资金或利益冲突对亚组分析的影响**。458项研究描述了资金细节,其中78项(17%)由被验证产品制造商赞助。研究人员未发现企业赞助与亚组结果报告之间的显著关联(OR: 1.010 [95% CI: 0.结交–1.92])。269项研究的作者与被调查产品的制造商存在直接关系,但与制造商的直接关系与亚组结果报告无显著关联(OR: 0.736 [95% CI: 0.437–1.23])。
**最小亚群性能估算**。亚群性能的理论范围与亚群占全队列比例呈逆向关系。以Lunit Insight CXR产品为例,27项研究平均敏感度为84%,女性患者平均占47%时,女性亚群敏感度可低至65.96%而维持总体84%的敏感度。对于种族/民族亚群,典型数据集中白种人占64.8%,亚裔患者仅占归一化中位数14%,以此替换分母将使亚裔亚群的潜在性能范围急剧扩大至0%。
**亚组分析所需患者数估算**。假设疾病流行率10%、目标敏感度约90%(世界卫生组织推荐)、精确度5%、检验效能80%、半宽5%,Wilson CI公式显示每性别亚组需至少139例TB阳性患者,即每性别亚组需1399例患者或总计2798例患者。以此标准,21个数据集中14个(67%)在性别亚组分析中可能统计效力不足;16项评估Delft Imaging CAD4TB产品的研究中,仅6项在两性亚组中达到此阈值。
## 讨论与研究结论
研究人员指出,测量和缓解算法偏倚固然重要,但首要任务是提供支撑此类讨论的相关数据。本综述收集的545项研究覆盖了252个商用AI产品,仅14%(77/545)包含三大常见人口统计学亚群中任一亚群的AI产品性能,且近年来人口统计学亚组的性能报告并未因众多呼吁而增加。
研究人员提出四项即时改进建议:其一,即使变异性不被预期,也应报告人口统计学数据,因AI模型不一定按人类预期的方式学习偏倚;其二,建议转向鼓励发表商用模型验证研究,无论资金来源如何,均应采用FUTURE-AI、MAIC-10、TRIPOD-AI和预期的PROBAST-AI等最新报告标准;其三,当本地队列缺少人口统计学数据时,作者可通过按Wilson CI公式确定大小的基准数据集进行二次验证测试;其四,作者应使用清晰具体的稿件关键词以促进这些商业产品验证研究的发现和元分析,如产品或制造商名称、"商业产品"或"FDA批准"等通用术语。
本综述的局限性包括:仅限于放射学领域;未量化产品间或产品类别间的性能差异;未比较各产品的使用范围;由单一作者执行可能导致选择偏倚;样本量估算旨在鼓励进一步讨论的示例,未必推广至所有临床场景和AI产品。
研究结论表明,算法偏倚的关键障碍并非统计评估方法或数据策展,而是验证研究中未能披露年龄、性别和种族/民族等关键患者人口统计学信息。有效的透明报告是确认医疗AI产品在所有患者亚群中安全无偏倚性能的必要第一步,也是提升医师和患者对医疗AI产品信任的基础。