《JID Innovations》:Artificial Intelligence in dermatology: a literature review of current evidence and clinical implementation
编辑推荐:
人工智能(AI)正在成为一项变革性且快速发展的技术,对包括皮肤科在内的医疗保健领域影响日益增长。研究人员使用PubMed和EMBASE进行了文献综述。纳入的研究主要关注AI在基于图像的分类中的应用。这些AI系统在受控环境中表现出色,甚至在某些特定狭窄任务中达到
人工智能(AI)正在成为一项变革性且快速发展的技术,对包括皮肤科在内的医疗保健领域影响日益增长。研究人员使用PubMed和EMBASE进行了文献综述。纳入的研究主要关注AI在基于图像的分类中的应用。这些AI系统在受控环境中表现出色,甚至在某些特定狭窄任务中达到皮肤科医生水平的准确性。发现了几个常见限制,包括数据集大小有限、诊断多样性有限、潜在的选择偏倚以及模型评估中的不一致性。临床实施应仔细关注验证严谨性、数据集多样性、实施策略、伦理考虑以及真实世界影响的证据。
**人工智能在临床背景中**:人工智能(AI)涵盖机器学习(ML)和自然语言处理(NLP)等领域。ML的子领域深度学习(DL)通过人工神经网络模拟人类神经生物学处理,可识别复杂模式。卷积神经网络(CNN)是特别适用于图像分析的DL模型,通过多层滤波器高亮基本特征并组合为更复杂特征。NLP包括自然语言理解(NLU)和自然语言生成(NLG),例如大语言模型(LLM)的发展。
**机器学习训练**:模型训练可通过监督学习、无监督学习或强化学习进行。监督学习使用带标签数据,无监督学习使用无标签数据识别隐藏结构,强化学习通过奖惩反馈提升性能。零样本学习和少样本学习为标记数据缺乏的情况提供替代方案,前者基于预训练知识分类未见类别,后者仅需少量示例。
**卷积神经网络的使用**:皮肤科依赖视觉模式识别,CNN在图像分类和分割中潜力巨大。CNN可支持二分类或多分类任务,并分离图像中有意义区域,例如从周围皮肤中识别痣。
**AI模型的性能评估**:性能指标包括准确率、敏感性、特异性及受试者工作特征曲线下面积(AUC)。准确率可测为top-1准确率(最可能诊断)或top-3准确率(正确诊断位居前三的可能性)。
**方法 - 纳入标准**:纳入评估皮肤科AI应用的原研究和临床实施研究,排除综述、会议摘要和观点文章。
**方法 - 检索策略与数据提取**:在PubMed和EMBASE中检索2015年1月至2025年6月间英文研究,使用AI与皮肤科相关标题词。两名独立评审者提取数据,通过共识解决分歧。
**结果 - AI模型开发与训练**:共41项回顾性、单中心研究(2017-2025年),多数构建CNN模型用于特定皮肤病变的二分类或多分类。数据集大小120至235,268张图片,主要为摄影或皮肤镜图像。模型在不同数据集上表现不一,外部测试时性能下降。评估常用准确率、敏感性、特异性或ROC曲线。
**结果 - AI与医生诊断性能比较**:18项研究比较AI与医生,多数覆盖少于14种疾病,依赖图像。AI通常表现与医生相当或更优。例如,一项研究中CNN模型与280名医生表现相当;另一研究AI模型(Xy-SkinNet)在6类诊断中与31名医生平均准确率相当,但速度快约121倍。分层分析显示,AI优于全科医生和皮肤科住院医师,但未超过经验丰富的皮肤科专家。
**结果 - 用于临床辅助的AI模型**:AI辅助可提升医生诊断能力。例如,AI辅助使初级皮肤科医生在红斑狼疮等疾病诊断准确率从66.9%升至81.3%;对于生殖器皮肤病,经验<3年的医生AI辅助后精确度提升17%。
**结果 - 无医生比较的独立AI模型诊断性能**:23项研究开发AI模型用于诊断分类、图像处理、分割或数据库创建。模型性能随诊断建议数量增加而提升,例如26种皮肤病的top-1准确率0.71、top-3准确率0.93。联邦学习可提升模型准确率(从81.2%至94.1%)。
**结果 - 公开可用的AI模型比较**:11项研究评估公开模型,包括CNN、大语言模型(LLM)和多模态模型。ChatGPT v4在诊断准确率上常优于旧版本,但结果不一致。例如,ChatGPT v4在36例病例中准确率56%,优于非专科医生(36%),但低于皮肤科专家(83%)。
**结果 - 用于诊断的AI移动健康应用**:4项研究开发AI移动应用,例如AIDDA平台区分健康皮肤与银屑病/湿疹,准确率达95.8%;另一应用对5种皮肤病准确率94.76%。一项应用在生殖器疾病分类中优于初级保健医生(PCP),与皮肤科医生相当。
**结果 - AI在皮肤科应用的局限性**:常见局限包括数据集规模小、诊断范围有限、皮肤类型覆盖不全(如Fitzpatrick 6型皮肤top-5准确率仅17%,而Fitzpatrick 1-2型皮肤为69.9%),训练、验证和测试常在同一数据集,导致性能高估。图像标准化不足,部分研究缺乏临床元数据,分类任务限于二分类,参考标准可能不准确。
**讨论 - 构建代表性数据集、诊断标签与真实标签**:数据集质量、规模和多样性是主要限制因素。需平衡代表性数据(如Diverse Dermatology Images数据集和国际皮肤成像合作(ISIC)库)以减少偏倚。联邦学习可克服隐私障碍,随参与机构数量增加模型准确率从81.2%提升至94.1%。真实标签的建立需明确参考标准,理想情况下应基于活检或结合临床数据,并考虑不确定性量化。
**讨论 - 标准化评估方法的需求**:模型评估方法差异显著,测试集外部验证应作为重要标准。使用大型、易于访问的验证数据集(如含组织病理学确认的皮肤类型和疾病覆盖面广的数据集)可促进跨研究比较。与医生比较时需在同一图像集、明确条件下进行,并报告医生资历和专科,以定位AI最佳辅助范围。
**讨论 - 评估公开AI系统**:对ChatGPT等公开模型的评估结果不一,诊断准确率在56%-70%之间。ChatGPT v4优于非专科医生但不及经验丰富的皮肤科医生。新版本持续改进。大语言模型(LLM)在皮肤科的角色不同于卷积神经网络(CNN)图像分类器,其优势在于综合临床病史、生成鉴别诊断和支持患者沟通,而非图像解释本身。
**讨论 - 临床背景与实施路径**:应增加对临床相关性的关注,明确AI模型预期临床用途并提供实施建议。AI辅助可提升初级医生诊断准确率,并提高初级保健医生(PCP)诊断信心。已获FDA批准的临床决策支持工具强调安全而非最优诊断平衡,实践中特异性有限。不同AI架构(如卷积神经网络(CNN)适合单病灶分类,多模态模型或大语言模型(LLM)适合泛发性皮病)需根据任务选择。分割模型可用于面积评分(如银屑病面积与严重程度指数(PASI))。未来研究应探索最适合每种诊断范式的方法。
**讨论 - 面向未来研究的框架**:未来研究应致力于共享方法学标准,包括大规模、多样化数据集(含Fitzpatrick所有皮肤类型)、组织病理学确认的诊断、外部验证、与医生比较时标准化流程、公开代码和模型权重、明确局限性,以及将AI性能置于临床背景下描述。
**结论**:本综述强调AI在皮肤科图像诊断和临床决策支持中的潜力,同时指出临床实施面临的关键障碍。未来研究应优先开发多样化数据集、外部真实世界验证、整合临床病史与图像分析,以及透明过程解释诊断建议。只有解决这些基础挑战,AI的理论承诺才能转化为皮肤科实践的实际改进。