
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成式AI赋能超低数据量医学图像分割:多级优化框架GenSeg的创新突破
【字体: 大 中 小 】 时间:2025年07月16日 来源:Nature Communications 14.7
编辑推荐:
本研究针对医学图像语义分割在超低数据量(ultra low-data regimes)下的挑战,提出创新性生成式深度学习框架GenSeg。研究人员通过多级优化(MLO)策略实现端到端的图像-掩模对生成,在11种医学分割任务和19个数据集中验证了其优越性。结果显示:仅需8-20倍少于传统方法的训练样本即可达到相当精度,在相同域和跨域(OOD)场景下绝对性能提升达10-20%。该成果为数据稀缺的医学影像分析提供了高效解决方案,显著降低了标注成本。
医学图像语义分割在疾病诊断和治疗规划中具有关键作用,但现有深度学习方法面临"数据饥渴"困境——标注每个像素需要专业医生投入大量时间,导致超低数据量场景下模型性能急剧下降。传统数据增强方法生成的图像与分割目标脱节,半监督学习又依赖大量未标注数据,在隐私敏感的医疗领域实施困难。
针对这一瓶颈,加州大学伯克利分校(University of California, Berkeley)的研究团队在《Nature Communications》发表突破性成果。他们开发的GenSeg框架创新性地将生成式AI与多级优化相结合:首先生成分割掩模的增强版本,再通过可学习架构的生成器合成对应医学图像,整个过程由分割性能反馈进行端到端优化。这种"以终为始"的设计使生成数据直接服务于提升分割精度,突破了传统方法数据生成与模型训练割裂的局限。
关键技术包括:(1)基于条件生成对抗网络(cGAN)的可微分架构搜索,自动优化生成器卷积核配置;(2)三级嵌套优化:首级训练GAN参数,次级生成合成数据训练分割模型,末级用验证损失优化生成器架构;(3)反向生成机制,先增强掩模再合成图像,确保语义一致性。实验使用来自皮肤镜、超声、OCT等19个公开数据集,涵盖胎盘血管、肺结节等11类分割任务。
研究结果部分显示:
GenSeg enables accurate segmentation in ultra-low data regimes
在仅50个训练样本条件下,GenSeg-DeepLab对胎盘血管分割的Dice分数达到0.51,较基线方法提升20.6%。图2a显示,在皮肤病变、息肉等任务中,绝对性能提升均超过10%。
GenSeg enables robust generalization in out-of-domain settings
图2b展示,当使用ISIC数据集40例样本训练后,在PH2和DermIS测试集上的Jaccard指数分别达0.77和0.65,显著优于传统方法。图3b的视觉对比显示,生成数据能有效捕捉病变形态变异。
GenSeg achieves comparable performance with significantly fewer examples
图4揭示,GenSeg仅需基线方法1/8-1/20的训练数据即可达到相当精度。例如肺部分割任务中,用9个样本实现Dice分数0.93,而UNet需要175个样本。
GenSeg outperforms widely used augmentation tools
图5显示,相比旋转、翻转等传统增强方法,GenSeg在足部溃疡分割任务中将Dice分数从0.66提升至0.74。其优势源于MLO框架使生成数据与分割目标形成协同进化。
结论部分强调,该研究首次实现了生成式数据增强与分割性能的闭环优化。通过可微分架构搜索和三级优化策略,GenSeg在保持模型泛化能力的同时,将医学图像分割的标注成本降低一个数量级。特别值得注意的是,该方法无需额外未标注数据即可超越半监督学习方法(图6),在3D医学影像(图8d)和Transformer架构(图8c)上也展现出色适应性。研究者指出,未来可通过集成扩散模型等新型生成技术(图9a-b)进一步提升数据多样性,同时建议临床应用中结合弹性形变等解剖学约束(图10d)以保证生成合理性。这项技术为医学AI在罕见病和小样本场景的应用开辟了新途径。
生物通微信公众号
知名企业招聘