编辑推荐:
在医学影像人工智能领域,深度学习模型的算法不公平性备受关注。为探究捷径学习对光声断层成像(PAT)中性别偏见的影响,研究人员以周围动脉疾病(PAD)诊断为切入点展开研究。结果显示,基于 PAT 数据训练的 CNN 模型存在性别偏见。这为医学领域公平准确模型的开发提供了重要参考。
在医学影像的人工智能(AI)领域,深度学习模型正发挥着越来越重要的作用,但它也带来了一些意想不到的问题。卷积神经网络(CNNs)广泛应用于医学图像分析,然而其预测结果可能存在人口统计学偏差,导致不同人群亚组之间的性能差异。其中一个潜在原因便是捷径学习,即模型学习到虚假的相关性或捷径,从而产生不可靠的预测。在常见的医学成像领域,如 X 射线成像、计算机断层扫描(CT)和磁共振(MR)成像中,捷径学习已有所研究,但在新兴的光声断层成像(PAT)领域,这方面的研究还极为匮乏。
PAT 是一种非电离介入成像方式,它巧妙地结合了光学成像的高对比度和超声(US)成像的高分辨率。与基于 “声音进 - 声音出” 原理的超声成像不同,PAT 基于 “光进 - 声音出” 原理,能够利用多种波长实时解析组织的功能特性,比如氧饱和度。现有 PAT 系统常为混合成像系统,可实时联合采集超声和 PAT 图像,在多种介入场景中展现出巨大优势,如光声引导的子宫切除术、针追踪、心血管医学介入引导、手术以及在达芬奇机器人手术中的初步应用等。深度学习在 PAT 中的应用研究也日益增多,但 PAT 中因捷径学习导致的性别偏见问题却一直未得到关注,尽管人们已经意识到 PAT 领域存在性别差异,且此前在 PAT 相关文献中,皮肤色调对成像的影响是主要关注的偏差来源。此外,周围动脉疾病(PAD)作为一种常见的循环系统疾病,早期准确诊断对预防严重并发症至关重要,而性别对 PAD 的表现有着显著影响,因此以 PAD 诊断为样本研究 PAT 中深度学习模型的性别偏见问题具有重要意义。
为了解决这些问题,德国癌症研究中心(German Cancer Research Center,DKFZ)等机构的研究人员开展了相关研究。他们假设基于 PAT 数据训练的 CNN 模型可能因捷径学习而表现出性别偏见,进而影响神经网络的可靠性和公平性。为此,研究人员提出了一系列研究问题,并设计了相应实验进行探究。
研究人员用到的主要关键技术方法如下:
- 数据采集:使用 CE 认证的 MSOT Acuity Echo 系统,从 147 名个体的小腿肌肉采集 2D 光声图像,数据来自德国埃尔兰根大学医院血管外科的两项临床研究(NCT05373927 和 NCT05773534)12。
- 模型构建与训练:采用预训练于 ImageNet 的 EfficientNetV2_B0 进行分类任务,以交叉熵为损失函数。对在平衡数据集(PR = 1)上训练的 PAD 分类器手动进行一次超参数优化,优化后的超参数应用于其他模型3。
- 实验设计:设计四个实验来回答研究问题,包括性别分类实验、探究性别特异性患病率(PR)变化对 PAD 诊断性能影响的实验、分析性别间漏诊差异的实验以及研究特征表示相似性的实验。实验中每个分类器由 10 个模型组成的集成模型训练,采用分层引导法(niter = 1000)评估性能并生成 95% 置信区间4。
下面来看具体的研究结果:
- 性别分类在 PAT 中的表现(RQ1):性别分类器能够从小腿肌肉的 PAT 图像中准确分类受试者性别,受试者工作特征曲线下面积(AUROC)达到 0.75,与诊断 PAD 的性能(AUROC 为 0.79)相当。并且,该性别分类器在不同数据集上具有一定的泛化能力,在健康志愿者不同身体部位(小腿、前臂、颈部)的测试集中,均取得了较高的 AUROC 分数56。
- 性别特异性 PR 变化的影响(RQ2):在平衡分布(PR = 1)上训练的模型在所有测试域中表现稳定;而在 PR = ∞(所有患病个体均为男性)上训练的模型,在平衡测试域(PR = 1)上测试时,AUROC 下降了 0.21,性能显著下降。同时,训练期间性别特异性患病率偏差的增加,不仅导致结果不稳定,还会在高 PR 的测试数据集上高估模型性能7。
- 漏诊差异(RQ3):随着训练数据中性别特异性 PR 的增加,性别间的平均和中位数漏诊差异总体呈上升趋势。这意味着,训练数据中性别特异性 PR 越高,模型越容易漏诊在训练数据中患病个体较少的性别8。
- 特征表示相似性(RQ4):通过转移学习实验发现,性别分类器和 PAD 分类器的特征表示具有一定相似性,重新训练用于另一任务时,虽然性能有所下降,但仍显著优于随机猜测。主成分分析(PCA)结果显示,在 PR = ∞训练的模型,其前两个主成分在性别亚组之间的分布差异更大,表明该模型对性别相关特征的编码更强910。
综合研究结果,研究人员得出结论:基于 PAT 数据训练的 CNN 模型可能会通过利用与性别相关的特征进行捷径学习,从而导致有偏差且不可靠的诊断预测。研究还强调,解决人口统计学特定的患病率不平衡问题以及防止捷径学习,对于开发在不同患者群体中既准确又公平的医学领域模型至关重要。
在讨论部分,研究人员进一步指出,他们首次探索了性别和 PAD 共享的特征表示,这可能是 PAT 中捷径学习的潜在原因。性别分类器能有效从 PAT 图像中分类性别,这表明 PAT 图像包含了足以让神经网络区分性别的信息,模型可能会无意中学习和利用这些性别相关特征,导致预测偏差。此外,研究还发现训练数据中性别特异性 PR 不平衡会使模型对不同性别疾病诊断的性能下降,且漏诊差异会随着 PR 增加而增大。同时,研究也存在一定局限性,如样本量相对较小,未明确控制其他混杂因素(如年龄、合并症),仅聚焦于 PAD 诊断,未探索减轻性别偏见的技术等。未来研究可在更大规模、多中心研究中进一步探讨这些问题,并探索将性别作为辅助特征的有效方式,以及开发减少偏见的方法,如数据增强或公平感知学习算法等。
这项研究在《International Journal of Computer Assisted Radiology and Surgery》发表,为医学影像领域深度学习模型的研究提供了重要参考,有助于推动更公平、可靠的医学人工智能模型的发展,使深度学习技术在医学领域的应用更加精准和安全,对改善医疗诊断质量具有重要意义。