《Nature Communications》:Understanding pre-training data effects in retinal foundation models using two large fundus cohorts
编辑推荐:
【研究推荐】为解决医学基础模型(Foundation Model)预训练数据如何影响其下游应用中的泛化能力与公平性这一未知问题,研究人员利用英国和中国两个大型独立眼底影像队列,开展了平行模型训练与评估研究。结果表明,模型对不同来源数据具有良好的泛化性,但在年龄亚组中存在公平性差距。研究凸显了针对特定领域、精细化的数据管理对高效开发医学基础模型的重要性。
在人工智能(AI)席卷医疗领域的浪潮中,一种名为“医学基础模型(Foundation Model)”的新范式正崭露头角。与为单一任务“量身定制”的传统模型不同,基础模型像一位“通才”,先在规模庞大、未经标注的通用数据上进行“预训练”,学习广泛的医学表征知识,随后再通过“适应”过程,灵活高效地应用于多种具体临床任务。这种模式展现出强大的性能和卓越的数据利用效率,被寄予厚望。然而,一个核心的“黑箱”问题也随之浮出水面:为模型注入最初智慧的“预训练数据”本身,究竟如何塑造模型的最终行为?特别是,当我们将这些模型部署到全球多样化的患者群体中时,训练数据集的特性会如何影响模型的“泛化性”(即在未见数据上的表现)和“公平性”(即在各个人口亚组间的性能一致性)?这些问题至今仍未得到充分探索。
为了揭开这个谜团,一项发表在《自然通讯》(Nature Communications)上的研究进行了一次精巧的“平行实验”。研究人员将目光投向了视网膜医学影像领域。视网膜,作为人体唯一可直接无创观察血管和神经组织的窗口,其影像(眼底照相)包含着丰富的全身健康信息,是AI应用的绝佳场景。研究团队选取了两个具有代表性的大规模独立队列:一个来自英国穆尔菲尔德眼科医院(Moorfields Eye Hospital, UK),另一个来自中国上海糖尿病预防项目(Shanghai Diabetes Prevention Program, China)。每个队列都包含了超过90万张的眼底照片,为构建稳健的模型提供了坚实基础。
利用完全相同的技术流程,研究人员分别用英国队列和中国队列的数据,训练了两个“平行”的视网膜基础模型。这就像用两套不同的“教材”培养出了两位“AI专家”。随后,他们用来自多个公开数据集以及两个研究地点各自预留的测试数据,对这两个模型在一系列下游任务(如疾病检测)上的表现进行了全面评估。这场“同台竞技”旨在回答:预训练数据的来源和人口学属性,是否会成为模型能力与偏见的根源?
研究发现
- 1.
模型展现出令人鼓舞的泛化能力
尽管预训练数据在来源国和潜在的人群特征上存在显著差异,但两个平行模型在“对方”的数据以及第三方公开数据上,都表现出了有竞争力的性能。这表明,基于大规模高质量数据训练的视网膜基础模型,其学到的视觉表征具有较好的普遍适用性,能够跨越数据收集的地理和机构边界,这为其未来在更广泛场景中的部署奠定了积极基础。
- 2.
公平性缺口在年龄维度显现
虽然模型整体泛化性良好,但深入的公平性分析揭示了一个重要现象:在两个模型上,都观察到了明显的、跨越年龄亚组的性能差异,即存在“公平性差距”。相比之下,性别和种族/族裔亚组之间表现出的影响则微乎其微。这一发现尤为关键,它表明预训练数据中隐含的“人口学属性”对模型公平性的塑造方式是不同的。年龄相关因素(可能与特定年龄段的眼病流行率、影像特征差异或数据集中年龄分布的不均衡有关)成为了影响模型公平性的更敏感维度。
- 3.
预训练数据人口学属性的差异化影响
研究结果清晰地指出,并非所有数据属性对模型公平性的影响权重都相同。预训练数据集的构成(特别是其中的年龄分布特征)以一种精细而具体的方式,直接影响了模型在下游任务中对不同年龄群体的判断公平性。这强调了“一刀切”的数据收集策略可能存在风险。
研究结论与意义
这项研究首次通过精心设计的平行对照实验,实证揭示了预训练数据在塑造医学基础模型,特别是视网膜基础模型,的泛化性与公平性方面的具体作用。其核心结论是:大规模预训练赋予了视网膜基础模型良好的跨数据源泛化潜力,但与此同时,预训练数据中的人口学构成(尤其是年龄结构)会系统地影响模型在不同年龄亚组中的公平性表现。
这项工作的意义深远。首先,它从实证角度回应了AI医学领域对模型可重复性与泛化性的核心关切,为视网膜基础模型的实际应用提供了信心和边界。更重要的是,它像一面“镜子”,清晰映照出数据本身可能携带的“偏见”,并精确指出“年龄”是需要优先关注的公平性风险维度。这打破了以往关于模型偏见来源的模糊认知,将问题具体化。它向整个医学AI研究社区发出强烈信号:在狂热追求更大规模预训练数据的同时,必须同步加强对数据本身“质”的管理——即针对特定领域的、精细化的数据管理。未来,在开发诸如视网膜基础模型这样的医疗AI“基础设施”时,需要有意识地审视和优化预训练数据集的多样性,特别是年龄代表性,以从源头促进更公平、更可信的AI医疗模型诞生,确保技术红利能够公平地惠及所有患者群体。
主要技术方法
本研究采用了标准化的深度学习流程。核心是构建并训练视网膜基础模型,其技术支柱为基于Transformer架构的视觉模型(如ViT)。研究使用来自英国穆尔菲尔德眼科医院(904,170张图)和中国上海糖尿病预防项目(904,170张图)的两个独立大规模眼底影像队列进行预训练,采用掩码自编码(Masked Autoencoding)等自监督学习目标。模型评估阶段,利用多个公开眼底影像数据集(如EyePACS、APTOS等)及两个队列的留出测试集,在多种下游疾病分类任务上进行线性探测(Linear Probing)或微调(Fine-tuning),并系统评估了模型在不同人口学亚组(年龄、性别、种族)上的性能以量化公平性差距。