编辑推荐:
在数字病理领域,深度学习模型依赖的 TCGA 数据集存在潜在偏差,影响诊断准确性。研究人员围绕此开展对组织病理学数据集潜在偏差因素的研究。结果发现多种偏差因素,如数据采样、切片处理等影响模型性能。该研究为提升模型可靠性和泛化性意义重大。
在人工智能飞速发展的当下,深度学习模型已广泛应用于医疗领域,尤其是数字病理学。它能够精准分析医学图像中的复杂模式,辅助疾病诊断和预后判断。然而,一个隐藏的问题逐渐浮出水面 —— 数据偏差。《癌症基因组图谱》(TCGA)数据集作为深度学习模型训练和验证的重要数据来源,却被发现存在潜在偏差。这一偏差使得模型可能依赖一些非癌症组织学特征的偏倚性特征,进而导致模型性能评估过于乐观。近期研究更是证实,从癌症类型判别中提取的嵌入特征存在位点特异性偏差,模型在判断数据采集位点时表现出过高的准确率。这一现象引发了科学界的担忧,若模型在训练过程中 “误入歧途”,学习到的并非真正的癌症特征,那么在实际应用中,如何能准确地诊断疾病、保障患者的健康呢?在这样的背景下,来自安大略理工大学(Ontario Tech University)、布鲁克大学(Brock University)和威尔弗里德?劳里埃大学(Wilfrid Laurier University)的研究人员展开了深入研究,试图揭开这一现象背后的秘密,其研究成果发表在《Scientific Reports》上。
研究人员采用了多种关键技术方法来开展研究。在数据处理方面,使用了 TCGA 数据集,该数据集包含来自 156 个数据中心的 32,072 个全切片图像(WSIs) ,涵盖 33 种癌症类别。为保证数据质量,去除了低质量、无诊断价值和无形态症状的组织,并排除贡献少于 40 张切片的数据中心。在特征提取阶段,选用了 KimiaNet 和 EfficientNet 两种深度学习模型。KimiaNet 基于 DenseNet 拓扑结构,在 TCGA 数据集上进行了微调、训练和评估;EfficientNet 则通过对选定数据样本进行微调,且针对肺鳞状细胞癌(LUSC)和肺腺癌(LUAD)两种癌症亚型进行研究。此外,研究中还运用了差异分析、互信息(MI) 指标、聚类热图以及 k 近邻(k-NN)分类器等方法对数据和模型性能进行分析。
研究结果如下:
- 数据采样的影响:通过差异分析和 MI 指标对 TCGA 原始数据集进行分析,发现癌症类型和数据采集中心之间存在依赖关系。聚类热图可视化展示了不同癌症类型在各数据中心的分布不均衡,如肺腺癌样本大多来自国际基因组学联盟和克里斯蒂安娜医疗中心。去除相关性后的 MI 分析进一步证实了这种依赖关系的存在,表明数据采样过程会影响模型性能,模型可能捕捉到数据中心的特征而非癌症特异性特征。
- 切片处理的影响:在 KimiaNet 预处理研究中,通过 k-NN 分类器进行不同测试,发现包含共切片补丁(来自同一幻灯片的补丁)时,分类平衡准确率较高;排除共切片补丁后,准确率显著下降。这表明 KimiaNet 分类器可能依赖共切片补丁的特征进行分类,而不是基于癌症和数据中心的通用模式。在 EfficientNet 预处理研究中,由于其采用子补丁级分析,处理共切片补丁的方式不同,“测试 - 测试” 和 “测试 - 训练” 实验结果差异不明显,但也证实了补丁选择策略对模型性能有显著影响。
- 癌症特征中位点特异性模式的存在:对 Rk-NN 分类结果分析发现,同一癌症类型且来自同一中心的补丁特征更为相似,存在位点特异性模式。对不同癌症类型在数据中心判别中的贡献率分析表明,某些癌症类型的形态特征更易被模型学习和识别,如肾透明细胞癌、子宫癌肉瘤等,这些癌症类型的高贡献率会导致模型性能出现偏差。
- EfficientNet 特征偏差的研究:创建公平条件和有意关联的两个数据集训练 EfficientNet,结果显示,有意关联数据集在癌症和数据中心判别上的平衡准确率(95%)显著高于公平数据集(癌症分类 79%,数据中心判别 66%),表明数据集偏差对模型准确性影响重大。在染色效应研究中,通过噪声注入和灰度转换(噪声灰度归一化,NBGN)实验,发现位点特异性染色模式会影响模型预测,去除颜色信息后,数据中心识别准确率下降更明显。与其他染色归一化方法(如 Reinhard 归一化和光密度(OD)转换)比较,NBGN 和 Reinhard 方法在减少偏差和维持癌症检测性能方面表现更优。
研究结论和讨论部分指出,该研究系统地探讨了深度学习模型在组织病理学图像分析中的偏差问题,明确了数据不平衡、预处理步骤和染色变化等因素对模型可靠性和泛化性的影响。虽然研究存在一定局限性,如平衡数据集仅包含两种癌症类型,难以完全识别位点特异性偏差等,但为后续研究提供了重要方向。未来需要创新策略在模型训练阶段检测和纠正偏差,同时不影响对临床相关特征的识别。此外,探索不同神经网络架构、混合模型或应用机器学习的 “遗忘” 方法等,有望解决人工智能模型在组织病理学及其他应用中的偏差问题,为提升 AI 模型在医疗诊断中的可靠性、公平性和泛化性奠定基础。