基底细胞癌诊断的一致性:建立合适的标准参考体系以训练人工智能工具

《SKIN RESEARCH AND TECHNOLOGY》:Concordance in Basal Cell Carcinoma Diagnosis. Building a Proper Standard Reference to Train Artificial Intelligence Tools

【字体: 时间:2025年10月24日 来源:SKIN RESEARCH AND TECHNOLOGY 3.2

编辑推荐:

  人工智能辅助诊断中,皮肤镜基底细胞癌(BCC)特征标注存在主观差异。本研究通过四位皮肤科医师标注1230张BCC皮肤镜图像,构建共识参考标准(MV和EM方法),并对比训练数据集的AI模型性能。结果显示,共识标准使AI模型在特征识别准确率(82%)和一致性(Hamming距离降低37%)方面显著优于单医师标注。讨论指出,多专家标注可减少个体偏差,提升AI可解释性,对临床决策支持系统开发具有重要价值。

  ### 解读:构建可靠标准参考(SR)以提升AI在基底细胞癌(BCC)诊断中的可解释性与临床适用性

#### 背景与研究意义

在当今医学领域,人工智能(AI)技术正逐步成为辅助诊断的重要工具。尤其是在皮肤科,AI的应用已经展现出显著的潜力,尤其是在基底细胞癌(BCC)的识别与分类中。BCC是全球最常见的非黑色素瘤皮肤癌类型,占所有皮肤癌病例的70%以上。传统的皮肤癌诊断依赖于肉眼观察和医生的临床经验,而随着医学影像技术的发展,特别是皮肤镜(dermoscopy)的应用,医生们能够更准确地识别皮肤病变的特征,从而提高诊断的可靠性。

然而,皮肤镜下的诊断仍然存在一定的主观性,不同医生对于同一皮肤病变的识别标准可能不一致。这种不一致性对AI模型的训练和评估构成了挑战,因为AI模型通常需要明确的标签来学习和识别特定的特征。为了克服这一问题,研究者们开始探索如何从多个专家的诊断意见中推导出一个更加可靠和具有代表性的标准参考(Standard Reference, SR)。这一标准参考不仅有助于减少个体医生的主观偏差,还能提升AI模型的可解释性,使其在临床环境中更具实用价值。

#### 方法与数据来源

本研究的数据来源于西班牙塞维利亚的“医院圣玛卡雷纳”(Hospital Universitario Virgen Macarena)的皮肤镜图像库。该图像库包含了两个数据集,分别用于训练和测试AI模型。其中,训练数据集包含1230张皮肤镜图像,均来自2019年至2021年间通过远程皮肤科(teledermatology)平台收集的初级医疗中心。这些图像由四位独立的皮肤科医生进行标注,分别指出每张图像中是否包含基底细胞癌的特定皮肤镜特征。这些特征包括色素网络(Pigment Network, PN)、溃疡(Ulceration, UL)、蓝灰色卵圆形巢(Blue-gray Ovoid Nests, BO)、多发蓝灰色球形结构(Multiple Blue-gray Globules, MG)、枫叶状区域(Maple Leaf, ML)、辐条轮结构(Spoke-wheel, SW)以及树枝状毛细血管扩张(Arborizing Telangiectasia, AT)。

为了验证AI模型的性能,研究者还收集了204张新的皮肤镜图像作为测试集。这些图像在训练模型之后才被采集,因此能够用于评估不同标准参考对AI诊断性能的影响。此外,研究还采用了两种方法来构建SR:一种是传统的多数投票(Majority Voting, MV),另一种是基于期望最大化(Expectation Maximization, EM)的统计推断方法。EM方法特别之处在于它不仅考虑了多数意见,还考虑了每位医生的标注质量,从而生成一个更全面、更可靠的标准参考。

#### 专家之间的共识评估

在评估四位皮肤科医生的诊断一致性时,研究发现他们在判断某皮肤病变是否为BCC方面表现出高度一致。具体而言,四位医生的Kappa值达到了0.9079,表明他们的诊断结果几乎完全一致。此外,正预测值(Positive Predictive Value, PPV)也高达0.9670,说明他们的诊断与组织病理学结果之间具有很高的匹配度。

然而,在具体的皮肤镜特征识别方面,专家之间的共识则显得较为有限。例如,关于辐条轮结构(SW)的识别,Kappa值仅为0.2031,表明存在较大的分歧。这种分歧可能源于几个因素:一是辐条轮结构在皮肤镜图像中出现的频率较低,仅在12张图像中出现,因此偶然一致的可能性增加;二是该特征可能与其他BCC特征共存,导致医生在判断时优先关注更明显的特征,而忽略了细微的差异。这种现象说明,虽然专家在总体诊断上高度一致,但在具体特征的识别上仍存在较大的主观差异。

为了进一步量化这种差异,研究使用了汉明距离(Hamming distance)这一指标。汉明距离衡量的是两个二进制向量在对应位置上的不同数目。在本研究中,每个皮肤科医生的标注都被编码为一个七位二进制向量,每位医生的标注结果分别对应不同的皮肤镜特征。结果显示,四位医生之间的平均汉明距离在0.7892至1.9314之间,表明他们在某些特征的识别上存在较大的不一致。相比之下,当使用MV或EM方法生成的SR进行评估时,汉明距离显著降低,分别为0.5588和0.4363,说明这些共识方法能够有效减少标注的不确定性。

#### AI模型的性能比较

研究还比较了两种不同标准参考下的AI模型性能。一种是基于单一皮肤科医生的标注(D1)训练的模型,另一种是基于四位医生共识(EM方法)训练的模型。AI模型的训练过程采用了相同的神经网络结构和超参数设置,以确保公平比较。

结果显示,基于EM方法生成的SR训练的AI模型在BCC与非BCC分类任务中的准确率达到96.7%,而基于D1标注的模型则表现出类似的准确率。然而,在具体皮肤镜特征的识别任务中,两种模型的准确率出现了明显差异。例如,在辐条轮结构(SW)的识别上,基于D1的模型准确率为82%,而基于EM方法的模型则在该特征上表现出更高的稳定性。此外,研究还通过麦纳马尔检验(McNemar's test)分析了两种模型在特定特征上的表现差异,发现某些特征如蓝灰色卵圆形巢(BO)和树枝状毛细血管扩张(AT)的识别结果存在显著差异,这表明单一医生的标注可能无法准确反映整体专家意见。

#### 结论与临床价值

本研究的结论强调了构建可靠标准参考在AI辅助诊断中的重要性。通过比较多数投票和期望最大化两种共识方法,研究发现,EM方法在减少标注偏差和提高AI模型的可解释性方面具有显著优势。此外,研究还指出,AI模型在BCC与非BCC分类任务中的表现优于在具体特征识别任务中的表现,这可能与分类任务的不平衡性有关。在BCC特征识别任务中,某些特征的出现频率较低,导致模型在这些特征上的识别能力受限。

然而,这一研究也揭示了一些重要的临床意义。首先,尽管专家在总体诊断上高度一致,但在具体特征的识别上仍存在较大差异,这表明在缺乏组织病理学验证的情况下,构建一个全面且准确的SR仍然是一个挑战。其次,通过使用共识方法,AI模型的输出更加稳定和可靠,有助于提高临床决策的透明度和可解释性。这不仅能够增强医生对AI诊断结果的信任,还能够帮助患者更好地理解医生的判断依据。

#### 未来展望与挑战

尽管本研究取得了一定的成果,但仍存在一些局限性。首先,数据集在某些皮肤镜特征上的分布不均,例如辐条轮结构(SW)仅出现在12张图像中,这可能会影响模型在这些特征上的学习效果。其次,皮肤科医生在判断某些特征时的主观性较强,尤其是在特征的识别上,这可能导致SR的构建存在一定的偏差。此外,研究还指出,皮肤镜图像的采集过程中,皮肤类型对特征识别的影响尚未被充分探讨。由于数据集主要来自安达卢西亚地区,该地区的患者多为白种人和拉丁裔,因此可能无法充分反映其他皮肤类型(如深色皮肤)在BCC诊断中的表现。

未来的研究可以进一步探索如何优化数据集的多样性,以确保AI模型能够适应不同皮肤类型和病变特征。此外,结合自然语言处理(NLP)技术,如利用大语言模型(如ChatGPT)对皮肤镜描述进行分析,可能有助于提升AI模型的可解释性。这种多模态的方法可以将皮肤镜图像的特征识别与文本描述相结合,从而为医生提供更全面的诊断依据。

总的来说,本研究为AI在皮肤科的应用提供了重要的理论支持和实践指导。通过构建更加可靠和具有代表性的标准参考,AI模型能够更好地模拟专家的诊断过程,提高其在临床环境中的适用性和可信度。未来,随着数据集的扩展和方法的优化,AI在皮肤癌诊断中的作用将更加显著,为患者提供更精准、更透明的诊断服务。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号