多类卷积神经网络 vs. 96名皮肤科医生在皮肤病变诊断中的表现：一项国际研究

《JDDG: Journal der Deutschen Dermatologischen Gesellschaft》：Multiclass convolutional neural network vs. 96 dermatologists in skin lesion diagnosis, an international study

【字体：大中小】 时间：2026年06月10日 来源：JDDG: Journal der Deutschen Dermatologischen Gesellschaft 3.8

编辑推荐：

　　摘要背景与目的：人工智能(AI)已被证实可提升皮肤癌检测的诊断准确性。目前大多数临床获批模型仅提供“良性/恶性”二分类，而多类(multiclass)预测可能具备更高的临床实用价值。然而，多类卷积神经网络(CNN)与皮肤科医生之间的对比研究仍较为稀缺。方法

摘要背景与目的：人工智能(AI)已被证实可提升皮肤癌检测的诊断准确性。目前大多数临床获批模型仅提供“良性/恶性”二分类，而多类(multiclass)预测可能具备更高的临床实用价值。然而，多类卷积神经网络(CNN)与皮肤科医生之间的对比研究仍较为稀缺。方法：研究人员开展了一项国际网络阅片研究，96名皮肤科医生和一款原型多类CNN(FotoFinder Systems, Germany)对100例皮肤病变进行诊断，采用九大疾病类别(黑色素瘤；基底细胞癌；鳞状细胞癌；上皮内癌；色素痣；良性角质细胞病变；皮肤纤维瘤；血管病变；“其他”)。主要结局指标为皮肤科医生与多类CNN的总体平均灵敏度(微平均正确诊断百分比)。结果：仅使用皮肤镜影像(水平-I)时，皮肤科医生的总体平均灵敏度(95% CI)为69.4%(68.4%–70.3%)；提供完整临床信息(水平-II)后提升至76.0%(75.2%–76.9%)。CNN首选预测类别的总体平均灵敏度为82.0%(73.3%–88.3%)。除在水平-II下的皮肤镜专家组(总体平均灵敏度81.1%[79.9%–82.3%]，pequivalence=0.0085)外，CNN显著优于所有皮肤科医生亚组。结论：多类CNN预测在诊断准确性上优于大多数皮肤科医生，支持其在增强临床决策制定中的潜力，尤其在皮肤科专科资源有限的环境中。

论文解读：多类卷积神经网络 vs. 96名皮肤科医生在皮肤病变诊断中的表现

一、研究背景与意义

全球皮肤癌发病率持续上升，对皮肤检查的需求不断增长。与此同时，皮肤科专科医生，尤其是偏远地区存在明显短缺。非专科医务人员承担皮肤病变初诊的角色日益重要，但其诊断准确性高度依赖培训与经验，通常在24%–70%之间波动。远程皮肤病学可提供一定支持，而近年来图像人工智能(AI)的进展为“人机协作”提供了新路径。深度卷积神经网络(CNN)已在皮肤癌二分类中达到或超过皮肤科医生水平，并逐步走向临床获批。然而，临床实际决策常需区分类别，例如将上皮内癌（日光性角化病、鲍温病）与黑色素瘤同归为“恶性”会混淆治疗优先级。因此，多类(multiclass)AI系统被认为更贴合真实临床管理需求。本研究由研究人员开展并发表于《JDDG: Journal der Deutschen Dermatologischen Gesellschaft》，旨在国际尺度上对比多类CNN与96名皮肤科医生在九分类皮肤病变诊断中的表现。

二、主要关键技术方法概览

研究人员设计了一项国际网络阅片研究。测试集(Test set)包含100例患者的100处皮肤病变(60%良性、40%恶性)，参考诊断以组织病理(85%)或专家共识+≥2年无事件随访(15%)确定。另有两大外部验证集：Memorial Sloan Kettering(MSK-1, 1,100例)与Heidelberg validation set(HVS-1, 2,125例)，训练/验证/测试完全隔离。96名皮肤科医生按皮肤镜经验分层(初学者<2年、熟练2–5年、专家≥5年)，依次在水平-I(仅皮肤镜图)和水平-II(加宏观图及文本临床信息)下从9类诊断下拉菜单中选择。使用的原型多类CNN(FotoFinder Systems, Germany)输出9类概率，取最高概率为诊断。主要评价指标为微平均灵敏度(overall mean sensitivity)，辅以平衡准确率、宏F1、κ-特异性(κ-specificity，类比Cohen's kappa修正多类特异性)。等价性采用Farrington-Manning TOST检验(±10%界值)，统计工具含SAS 9.4与R(boot、irr包)。

三、研究结果

Characteristics of test cases and dermatologists（测试病例与皮肤科医生特征）

测试集覆盖多谱系病变，患者平均年龄48.4±23.0岁，男性占54%，浸润性黑色素瘤平均Breslow厚度1.5 mm。96名参与者中专家(n=40, 41.7%)、熟练(n=29, 30.2%)、初学者(n=17, 17.7%)，10人未报告层级。

Sensitivity, precision and F1-values of dermatologists and CNN（皮肤科医生与CNN的灵敏度、精确率与F1值）

水平-I下皮肤科医生总体平均灵敏度为69.4%(68.4%–70.3%)，水平-II升至76.0%(75.2%–76.9%)(p<0.0001)。按经验分层，水平-I至II的灵敏度分别：初学者60.5%→69.2%，熟练67.8%→74.5%，专家75.1%→81.1%。CNN总体平均灵敏度为82.0%(73.3%–88.3%)，仅水平-II专家皮肤科医生与之等价(p_equivalence=0.0085)。宏F1分别为73.5%(水平-I)、77.9%(水平-II)与81.6%(CNN)；平衡准确率与微平均灵敏度接近。

Performance of dermatologists and CNN within diagnostic categories（各诊断类别内的表现）

良性病变中，水平-I皮肤科医生正确诊断率最高为血管病变VASC 84.6%，其后BKL 70.9%、DF 69.2%、NV 63.9%；水平-II全面提升，NV增至75.7%。CNN最高为DF 100%，其后BKL 90.0%、NV 80.0%、VASC 80.0%。恶性病变中，水平-I皮肤科医生MEL 80.1%最高，其后BCC 73.8%、SCC 67.7%、AKIEC 55.4%；水平-II MEL升至87.4%。CNN以BCC 90.0%最高，其后MEL 80.0%、AKIEC 80.0%，SCC仅40.0%。

Specificity and κ-specificity（特异度与κ-特异度）

多类设定下单类特异度易被高估。水平-I皮肤科医生κ-特异度范围31.8%(MEL)至90.8%(DF)，MEL低值提示非黑素瘤常被误判为黑色素瘤。水平-II κ-特异度近似，MEL仍最低。CNN各品类κ-特异度总体更高，但部分类别因样本少置信区间宽。

Evaluation of CNN performance in two larger data sets（CNN在两大外部集的表现）

MSK-1集(n=1,100)CNN总体平均灵敏度66.8%(64.0%–69.5%)，AKIEC骤降至11.1%、BKL 42.4%、SCC 42.9%，MEL仍82.1%。HVS-1集(n=2,125)总体平均灵敏度83.0%(81.4%–84.6%)，与测试集相近；NV升至87.7%，但SCC 35.1%、AKIEC 54.5%。成对κ-特异度在HVS-1更优，说明误分减少。微平均灵敏度与平衡准确率在异质类别分布下存在差距(MSK-1:66.8% vs.59.8%; HVS-1:83.0% vs.70.5%)。

四、讨论与结论总结

研究人员指出，皮肤癌早诊需求与资源缺口扩大使AI辅助决策支持系统日益重要。本研究采用9类CNN(含新增SCC与OTH以贴近临床)，发现初学者在皮肤镜两步法第一步(黑素细胞vs.非黑素细胞)尤为吃力，单张皮肤镜图下各类灵敏度多位于50%–70%，误分散布于两大家族；而多类CNN不仅单类精度更高，且能更好区分两大谱系。多类预测对管理优先级具实义，如浅表BCC可首选外用非手术，而黑色素瘤需积极干预，单纯良/恶二分不足以指导分流。

跨数据集看，CNN对SCC识别均<50%，测试集/HVS-1中部分SCC被预测为AKIEC(疾病进展连续体)，反映真皮镜SCC训练数据稀缺(ISIC归档中仅0.5%为SCC)。AKIEC在测试集约80%但在外部集下滑，临床差异显著(AKIEC多用外用/非手术，SCC首选切除)，作者认为当前需扩充训练数据再用于分流决策。

局限包括测试集约为100例导致患病率微偏、缺乏深肤色(Fitzpatrick V–VI)及回顾性设计可能低估医生现场面诊表现。

结论翻译：

多类CNN预测在诊断准确性上优于大多数皮肤科医生，支持其在增强临床决策制定中的潜力，尤其在皮肤科专科资源有限的环境中。多类CNN辅助最有益于经验较少的医生与非专科医务人员，提升具体病种诊断有望优化管理决策与治疗优先级分流。

热点排行