基于169万次全球验证的皮肤病AI算法性能评估及皮肤疾病全球分布模式研究

《npj Digital Medicine》:Planet-wide performance of a skin disease AI algorithm validated in Korea

【字体: 时间:2025年10月09日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对皮肤病AI在真实临床环境中性能评估的挑战,开发了一种创新评估方法:利用韩国大型医院数据集(NIA)评估敏感性,通过全球网络应用数据评估特异性。研究显示该AI算法在皮肤癌检测中达到78.2%的敏感性和88.0%的特异性,并首次揭示了皮肤病类型在全球228个国家的分布差异,为AI辅助全球皮肤病监测提供了重要依据。

  
在数字医疗快速发展的今天,皮肤病学领域的人工智能应用面临着独特挑战。与放射学和眼科学不同,皮肤病学AI模型在临床实践中尚未取得显著成功,这背后存在多重原因。皮肤病诊断不仅依赖于图像信息,还需要结合患者的具体临床表现和病史等上下文信息。此外,真实世界中的图像质量参差不齐,大多由非专业相机或智能手机拍摄,导致频繁出现分布外情况,严重影响AI性能。
以往的研究往往高估了AI在皮肤病诊断中的表现,因为这些研究通常在受控环境下使用预处理的数据集进行。历史教训如MelaFind算法,虽然获得FDA批准但因高假阳性率最终退出市场,凸显了在真实世界应用中保持算法性能稳定的重要性。另一个关键问题是,大多数测试数据集不能反映真实世界的疾病流行情况,良性病变与恶性病变的比例通常低于10:1,而真实数据还受到肤色和种族皮肤类型广泛变化的复杂影响。
针对这些挑战,研究人员开展了一项规模空前的全球性研究,评估了一个开放获取的全球皮肤病AI服务的真实临床使用情况。该研究分析了来自228个国家的169万次评估,旨在提供关于AI算法在真实世界环境中性能的可靠证据。
研究主要采用了三种关键技术方法:首先利用韩国国家信息社会机构的大型医院数据集(NIA数据集,包含152,443张图像,覆盖70种疾病)评估算法敏感性;其次通过全球网络应用(https://modelderm.com)收集的1,691,032次请求数据评估特异性;最后使用集成ResNet变体的深度学习架构,采用R-CNN方法处理分布外数据。
NIA和SNU数据集分析
在恶性肿瘤二元分类方面,算法在NIA数据集上达到了0.946的AUC值。基于三种鉴别诊断(Top-3)计算的敏感性和特异性分别为78.2%和93.0%。在SNU测试数据集上,AUC为0.958,敏感性和特异性分别为87.5%和91.0%。
在多类别分类方面,算法在NIA数据集上的微平均Top-1和Top-3准确率分别为43.3%和66.6%。在SNU测试数据集上,相应准确率为63.3%和83.2%,与之前研究中2名皮肤科医生和2名皮肤科住院医生的表现相当。
在全球读者测试中,来自138个国家的61,066次评估显示,全球用户的平均敏感性和特异性分别为55.2%和84.3%,显著低于算法在同一数据集上的表现(86.8%和91.0%)。
全球用户性能
全球使用统计数据显示出明显的区域差异。使用量分布为:欧洲(47.9%)、亚洲(31.5%)、北美(10.1%)、南美(5.7%)、非洲(2.9%)和大洋洲(1.9%)。使用量前五位的国家是韩国(22.6%)、意大利(9.0%)、美国(6.2%)、德国(5.9%)和法国(4.0%)。
算法预测显示出明显的区域诊断趋势。良性肿瘤预测比例最高的是亚洲(55.5%),最低的是非洲(22.4%)。恶性预测比例最高的是北美(2.6%),最低的是非洲(0.9%)。传染病预测在非洲和南美最为普遍,分别为17.1%和14.8%。
十大最常见预测疾病包括:黑色素细胞痣(20.9%)、脂溢性角化病(4.6%)、樱桃状血管瘤(2.2%)、皮肤纤维瘤(2.1%)、毛囊炎(2.0%)等。毛囊炎在中东和东南亚更为普遍,而光化性角化病在美洲和澳大利亚更常见。
基于Top-3预测的恶性诊断率在韩国为12.0%,全球为10.0%。假设所有算法的恶性诊断都是假阳性,估计的特异性在韩国为88.0%,全球为90.0%。
研究结论与讨论
本研究首次提供了关于皮肤病AI全球真实临床使用的大规模评估。通过分离评估敏感性和特异性的创新方法,研究人员估计该算法在韩国皮肤癌诊断中的性能为78.2%的敏感性和88.0%的特异性。与世界卫生组织结核病筛查指南(90%敏感性和70%特异性)和乳腺癌监测联盟基准(86.9%敏感性和88.9%特异性)相比,该算法表现出良好的筛查潜力。
使用统计数据揭示了算法预测疾病类型的显著区域差异。亚洲、欧洲和北美更常预测肿瘤性疾病,而澳大利亚和北美光化性角化病等癌前病变观察率较高。与此一致的是,来自欧盟、北美和大洋洲的用户在全球读者测试中表现出更高的敏感性。相比之下,传染病在北非和中东等地区更常见。这些区域差异反映了疾病流行率、用户年龄结构以及各地区用户特别关注的疾病类型的差异。
本研究存在若干局限性。首先,研究第一部分主要限于韩国占绝大多数的III型和IV型皮肤类型患者,未能提供按种族和皮肤类型分层的数据。其次,NIA数据集未包含除四种主要类型之外的不常见皮肤癌症。第三,全球研究缺乏金标准来计算敏感性和特异性。第四,非洲、南美和大洋洲的数据相对不足。
尽管该算法被设计为优先考虑高特异性,但从最大化敏感性的角度来看可能显得不足。在可能被非专业人士频繁使用且缺乏临床监督的AI工具背景下,不足的特异性可能会加剧过度诊断和不必要的焦虑。因此,专注于特异性的设计与对过度诊断和误报的担忧是一致的。
总之,这项研究强调了AI算法提供皮肤病全球视角的潜力,通过基于AI的大数据分析提供了区域差异的定量反映。需要进一步研究以确定AI能有效改善临床结果的临床环境,同时必须强调在非洲和南美等代表不足地区进行随机对照试验和验证的必要性,以确保算法在不同人群中的有效性和普适性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号