3DINO:突破医学影像自监督学习的通用三维框架与模型
《npj Digital Medicine》:A generalizable 3D framework and model for self-supervised learning in medical imaging
【字体:
大
中
小
】
时间:2025年11月08日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对3D医学影像自监督学习(SSL)方法通用性差、依赖特定器官或模态数据的问题,提出3DINO框架,基于超大规模多模态数据集(约10万例3D扫描)预训练通用模型3DINO-ViT。结果显示,该模型在多项下游任务(如脑瘤分割、腹部器官分割、脑龄分类等)中均优于现有最优模型,显著降低对标注数据的依赖,推动医学影像AI的广泛应用。
在当今医学影像分析领域,深度学习技术虽在病灶检测、疾病诊断和风险预测等任务中展现出巨大潜力,但其“数据饥渴”特性成为实际应用的瓶颈。尤其对于三维医学影像(如CT、MRI),高质量标注数据的获取既耗时又昂贵。自监督学习通过利用未标注数据预训练模型,有望缓解这一难题。然而,现有3D医学影像SSL方法多局限于单一器官或模态,预训练数据与下游任务分布高度相似,导致模型泛化能力不足。每当面临新的临床任务时,研究人员常需重新预训练模型,造成重复的资源消耗。这一局限在罕见病、高分辨率影像或特殊成像模态中尤为突出。因此,开发一种通用、高效的3D医学影像预训练模型,成为推动AI临床落地的关键。
为解决上述问题,多伦多大学Tony Xu团队在《npj Digital Medicine》发表研究,提出3DINO框架。该工作首次将DINOv2自监督范式适配至3D医学影像,并基于约10万例3D扫描(涵盖10余个器官的MRI、CT及少量PET数据)预训练出通用模型3DINO-ViT。3DINO创新性地结合图像级与patch级学习目标,通过全局与局部裁剪增强特征多样性,并引入3D ViT-Adapter模块提升分割任务性能。
研究团队构建了超大规模多模态预训练数据集(含35个公开与内部研究数据),采用3D自适应数据增强(如随机对比度调整、噪声添加)及高效掩码策略。模型基于ViT-L架构,通过高分辨率适配阶段提升细节特征提取能力。下游任务验证包括脑瘤分割(BraTS)、腹部器官分割(BTCV)、左心房分割(LA-SEG)、乳腺超声肿瘤分割(TDSC-ABUS)、脑龄分类(ICBM)和COVID-19分类(COVID-CT-MD),并采用线性探测与轻量级解码器评估特征质量。
在BraTS和BTCV分割任务中,3DINO-ViT在不同标注数据比例下均优于随机初始化模型及其他SOTA方法。例如,仅使用10%标注数据时,BraTS任务Dice系数达0.90,较随机模型提升13%;BTCV任务中,25%数据下Dice系数为0.77,提升55%。
在线性分类探测中,3DINO-ViT在COVID-CT-MD数据集上AUC平均提升18.9%,对COVID-19患者的分类AUC较次优模型高23%;在ICBM脑龄分类中,AUC平均提升5.3%,对40-50岁人群分类AUC提升13.4%。
在未见过的器官(左心房)和模态(乳腺超声)任务中,3DINO-ViT仅用25%标注数据即实现Dice系数1.8%(LA-SEG)和24%(TDSC-ABUS)的提升,证明其跨分布泛化优势。
通过PCA与多头自注意力可视化,3DINO-ViT能清晰区分影像背景与前景,并聚焦于解剖结构关键区域,如脑瘤边界与器官轮廓。
3DINO框架通过三维自监督预训练突破了传统SSL方法的局限,实现了多器官、多模态医学影像任务的通用表征学习。其核心价值在于:
- 1.1.数据效率提升:仅需10-50%标注数据即可达到SOTA性能,显著降低临床标注成本;
- 2.2.技术通用性:支持分割、分类等多样任务,且适配未见过的影像分布;
- 3.3.基础模型潜力:为3D医学影像基础模型(如3D SAM)提供高质量初始化权重。
该研究为医学影像AI的规模化应用提供了重要工具,尤其适用于标注资源有限的临床场景,推动精准医疗向高效、普惠方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号