
-
生物通官微
陪你抓住生命科技
跳动的脉搏
扩散模型增强记忆的类增量学习:利用生成式AI缓解灾难性遗忘
【字体: 大 中 小 】 时间:2025年06月11日 来源:Image and Vision Computing 4.2
编辑推荐:
针对类增量学习(CIL)中的灾难性遗忘问题,研究者创新性地利用预训练扩散模型生成历史类别的合成图像,通过同时优化蒸馏损失和分类损失,在CIFAR100/ImageNet等基准测试中显著提升现有方法性能。该研究首次将文本-图像生成模型应用于大规模CIL任务,为突破外部数据依赖提供了新范式。
在人工智能领域,类增量学习(Class-Incremental Learning, CIL)正面临着一个关键挑战:当模型需要持续学习新类别时,往往会像熊瞎子掰玉米一样,学了新的就忘了旧的——这种现象被形象地称为"灾难性遗忘"。就像人类学习外语时,如果不定期复习,之前掌握的单词就会逐渐模糊。传统解决方案依赖保存少量真实样本的"记忆库",但受限于存储空间和隐私问题,这种"记忆库"往往小得可怜。
为此,来自日本的研究团队在《Image and Vision Computing》发表了一项突破性研究。他们巧妙地将当下最火的文本-图像生成技术——扩散模型(Diffusion Model)引入CIL框架,就像给模型配备了一位"虚拟画师",能随时根据文字描述绘制出过往类别的图像。相比现有方法需要借用其他真实图像数据集(如ImageNet中无关类别),这种"按需生成"的方式不仅能保证图像类别精准对应,还能突破性地将这些合成图像同时用于知识蒸馏(Knowledge Distillation)和分类训练,相当于让模型既能"温故"又能"知新"。
研究团队采用三步走的技术路线:首先建立标准CIL训练流程,将学习过程划分为T个增量步骤;其次利用预训练Stable Diffusion等模型,通过精心设计的文本提示(prompting)生成历史类别的标记图像;最后创新性地将合成数据同时融入蒸馏损失(保持旧知识)和分类损失(优化新任务)。特别值得注意的是,研究者系统考察了生成质量的影响因素,包括引导尺度(guidance scale)、不同扩散模型架构,以及动态网络方法DER/MEMO的兼容性。
研究结果部分显示:在CIFAR100基准测试中,结合扩散模型的方法使准确率提升达8.2%;对于更具挑战性的ImageNet-Subset,生成图像的类别保真度成为关键,通过优化提示工程可将分布差距缩小34%。特别值得关注的是,当骨干网络从ResNet18升级到ResNet50时,性能增益仍保持稳定,证实了方法的可扩展性。
讨论部分揭示了三个重要发现:首先,合成图像在分类损失中的使用贡献了约60%的性能提升,远超仅用于蒸馏的基线方法;其次,适当的图像增强能有效缓解生成图像与真实数据的分布差异;最后,该方法成功突破了传统CIL对真实样本的依赖,为医疗等隐私敏感领域的持续学习开辟了新途径。正如研究者Quentin Jodelet指出:"这就像给模型装上了'人工想象'——不需要保存患者真实CT图像,只需记住'肺部结节'这个描述,就能在需要时生成训练样本。"
这项研究的创新性不仅体现在技术层面,更在于其方法论启示:当大模型时代来临,我们或许不必拘泥于"保存记忆",而可以学会"创造记忆"。正如人类用想象力填补记忆空白,AI也正在掌握这项关键能力。未来,随着多模态大模型的发展,这种"生成式记忆增强"范式有望在机器人持续学习、个性化医疗等场景发挥更大价值。
生物通微信公众号
知名企业招聘