多类卷积神经网络 vs. 96名皮肤科医生在皮肤病变诊断中的表现:一项国际研究
《JDDG: Journal der Deutschen Dermatologischen Gesellschaft》:Multiclass convolutional neural network vs. 96 dermatologists in skin lesion diagnosis, an international study
编辑推荐:
摘要
背景与目的:人工智能(AI)已被证实可提升皮肤癌检测的诊断准确性。目前大多数临床获批模型仅提供“良性/恶性”二分类,而多类(multiclass)预测可能具备更高的临床实用价值。然而,多类卷积神经网络(CNN)与皮肤科医生之间的对比研究仍较为稀缺。
方法
摘要
背景与目的:人工智能(AI)已被证实可提升皮肤癌检测的诊断准确性。目前大多数临床获批模型仅提供“良性/恶性”二分类,而多类(multiclass)预测可能具备更高的临床实用价值。然而,多类卷积神经网络(CNN)与皮肤科医生之间的对比研究仍较为稀缺。
方法:研究人员开展了一项国际网络阅片研究,96名皮肤科医生和一款原型多类CNN(FotoFinder Systems, Germany)对100例皮肤病变进行诊断,采用九大疾病类别(黑色素瘤;基底细胞癌;鳞状细胞癌;上皮内癌;色素痣;良性角质细胞病变;皮肤纤维瘤;血管病变;“其他”)。主要结局指标为皮肤科医生与多类CNN的总体平均灵敏度(微平均正确诊断百分比)。
结果:仅使用皮肤镜影像(水平-I)时,皮肤科医生的总体平均灵敏度(95% CI)为69.4%(68.4%–70.3%);提供完整临床信息(水平-II)后提升至76.0%(75.2%–76.9%)。CNN首选预测类别的总体平均灵敏度为82.0%(73.3%–88.3%)。除在水平-II下的皮肤镜专家组(总体平均灵敏度81.1%[79.9%–82.3%],pequivalence=0.0085)外,CNN显著优于所有皮肤科医生亚组。
结论:多类CNN预测在诊断准确性上优于大多数皮肤科医生,支持其在增强临床决策制定中的潜力,尤其在皮肤科专科资源有限的环境中。
论文解读:多类卷积神经网络 vs. 96名皮肤科医生在皮肤病变诊断中的表现
一、研究背景与意义
全球皮肤癌发病率持续上升,对皮肤检查的需求不断增长。与此同时,皮肤科专科医生,尤其是偏远地区存在明显短缺。非专科医务人员承担皮肤病变初诊的角色日益重要,但其诊断准确性高度依赖培训与经验,通常在24%–70%之间波动。远程皮肤病学可提供一定支持,而近年来图像人工智能(AI)的进展为“人机协作”提供了新路径。深度卷积神经网络(CNN)已在皮肤癌二分类中达到或超过皮肤科医生水平,并逐步走向临床获批。然而,临床实际决策常需区分类别,例如将上皮内癌(日光性角化病、鲍温病)与黑色素瘤同归为“恶性”会混淆治疗优先级。因此,多类(multiclass)AI系统被认为更贴合真实临床管理需求。本研究由研究人员开展并发表于《JDDG: Journal der Deutschen Dermatologischen Gesellschaft》,旨在国际尺度上对比多类CNN与96名皮肤科医生在九分类皮肤病变诊断中的表现。
二、主要关键技术方法概览
研究人员设计了一项国际网络阅片研究。测试集(Test set)包含100例患者的100处皮肤病变(60%良性、40%恶性),参考诊断以组织病理(85%)或专家共识+≥2年无事件随访(15%)确定。另有两大外部验证集:Memorial Sloan Kettering(MSK-1, 1,100例)与Heidelberg validation set(HVS-1, 2,125例),训练/验证/测试完全隔离。96名皮肤科医生按皮肤镜经验分层(初学者<2年、熟练2–5年、专家≥5年),依次在水平-I(仅皮肤镜图)和水平-II(加宏观图及文本临床信息)下从9类诊断下拉菜单中选择。使用的原型多类CNN(FotoFinder Systems, Germany)输出9类概率,取最高概率为诊断。主要评价指标为微平均灵敏度(overall mean sensitivity),辅以平衡准确率、宏F1、κ-特异性(κ-specificity,类比Cohen's kappa修正多类特异性)。等价性采用Farrington-Manning TOST检验(±10%界值),统计工具含SAS 9.4与R(boot、irr包)。
三、研究结果
Characteristics of test cases and dermatologists(测试病例与皮肤科医生特征)
测试集覆盖多谱系病变,患者平均年龄48.4±23.0岁,男性占54%,浸润性黑色素瘤平均Breslow厚度1.5 mm。96名参与者中专家(n=40, 41.7%)、熟练(n=29, 30.2%)、初学者(n=17, 17.7%),10人未报告层级。
Sensitivity, precision and F1-values of dermatologists and CNN(皮肤科医生与CNN的灵敏度、精确率与F1值)
水平-I下皮肤科医生总体平均灵敏度为69.4%(68.4%–70.3%),水平-II升至76.0%(75.2%–76.9%)(p<0.0001)。按经验分层,水平-I至II的灵敏度分别:初学者60.5%→69.2%,熟练67.8%→74.5%,专家75.1%→81.1%。CNN总体平均灵敏度为82.0%(73.3%–88.3%),仅水平-II专家皮肤科医生与之等价(pequivalence=0.0085)。宏F1分别为73.5%(水平-I)、77.9%(水平-II)与81.6%(CNN);平衡准确率与微平均灵敏度接近。
Performance of dermatologists and CNN within diagnostic categories(各诊断类别内的表现)
良性病变中,水平-I皮肤科医生正确诊断率最高为血管病变VASC 84.6%,其后BKL 70.9%、DF 69.2%、NV 63.9%;水平-II全面提升,NV增至75.7%。CNN最高为DF 100%,其后BKL 90.0%、NV 80.0%、VASC 80.0%。恶性病变中,水平-I皮肤科医生MEL 80.1%最高,其后BCC 73.8%、SCC 67.7%、AKIEC 55.4%;水平-II MEL升至87.4%。CNN以BCC 90.0%最高,其后MEL 80.0%、AKIEC 80.0%,SCC仅40.0%。
Specificity and κ-specificity(特异度与κ-特异度)
多类设定下单类特异度易被高估。水平-I皮肤科医生κ-特异度范围31.8%(MEL)至90.8%(DF),MEL低值提示非黑素瘤常被误判为黑色素瘤。水平-II κ-特异度近似,MEL仍最低。CNN各品类κ-特异度总体更高,但部分类别因样本少置信区间宽。
Evaluation of CNN performance in two larger data sets(CNN在两大外部集的表现)
MSK-1集(n=1,100)CNN总体平均灵敏度66.8%(64.0%–69.5%),AKIEC骤降至11.1%、BKL 42.4%、SCC 42.9%,MEL仍82.1%。HVS-1集(n=2,125)总体平均灵敏度83.0%(81.4%–84.6%),与测试集相近;NV升至87.7%,但SCC 35.1%、AKIEC 54.5%。成对κ-特异度在HVS-1更优,说明误分减少。微平均灵敏度与平衡准确率在异质类别分布下存在差距(MSK-1:66.8% vs.59.8%; HVS-1:83.0% vs.70.5%)。
四、讨论与结论总结
研究人员指出,皮肤癌早诊需求与资源缺口扩大使AI辅助决策支持系统日益重要。本研究采用9类CNN(含新增SCC与OTH以贴近临床),发现初学者在皮肤镜两步法第一步(黑素细胞vs.非黑素细胞)尤为吃力,单张皮肤镜图下各类灵敏度多位于50%–70%,误分散布于两大家族;而多类CNN不仅单类精度更高,且能更好区分两大谱系。多类预测对管理优先级具实义,如浅表BCC可首选外用非手术,而黑色素瘤需积极干预,单纯良/恶二分不足以指导分流。
跨数据集看,CNN对SCC识别均<50%,测试集/HVS-1中部分SCC被预测为AKIEC(疾病进展连续体),反映真皮镜SCC训练数据稀缺(ISIC归档中仅0.5%为SCC)。AKIEC在测试集约80%但在外部集下滑,临床差异显著(AKIEC多用外用/非手术,SCC首选切除),作者认为当前需扩充训练数据再用于分流决策。
局限包括测试集约为100例导致患病率微偏、缺乏深肤色(Fitzpatrick V–VI)及回顾性设计可能低估医生现场面诊表现。
结论翻译:
多类CNN预测在诊断准确性上优于大多数皮肤科医生,支持其在增强临床决策制定中的潜力,尤其在皮肤科专科资源有限的环境中。多类CNN辅助最有益于经验较少的医生与非专科医务人员,提升具体病种诊断有望优化管理决策与治疗优先级分流。