梯度放大:基于梯度匹配的数据集蒸馏新框架提升训练效率与性能

【字体: 时间:2025年07月06日 来源:Neural Networks 6.0

编辑推荐:

  在本文中,研究人员针对大型数据集(Deng et al., 2009; Kirillov et al., 2023)带来的存储负担、训练耗时和隐私风险问题,开展了基于梯度匹配(GM)的数据集蒸馏(DD)研究。通过标签循环移位技术,生成更大、更多样化的梯度,结合提前退出机制和指数移动平均集成策略,显著提升蒸馏效率;同时引入分布匹配(DM)避免过拟合。实验在CIFAR10、CIFAR100等基准数据集上证明,该方法以更少迭代次数超越现有DD方法,为高效模型训练提供新路径。

  在人工智能的黄金时代,深度学习模型如巨人般崛起,却背负着数据洪流的沉重枷锁。想象一下,训练一个模型需要海量数据集——比如ImageNet的千万级图像——这不仅吞噬着宝贵的存储空间,还让训练时间长达数天甚至数周,硬件成本和能源消耗更是天文数字,普通实验室望而却步。更糟的是,隐私泄露风险如影随形,用户数据在公开平台上的滥用已成为社会隐忧。传统的核心集选择算法试图从大数据中筛选代表性样本,却往往陷入NP难问题的泥潭,只能找到局部最优解,效果有限。而数据集蒸馏(Dataset Distillation, DD)作为新兴曙光,旨在将庞大数据集浓缩为小巧精炼的版本,让模型在小数据集上训练后,能达到与原数据集相近的测试精度。然而,现有方法如梯度匹配(Gradient Matching, GM)虽通过监控模型梯度间接优化参数,却只关注正确标签的梯度,忽略了模型对错误答案的“意外”反应,导致性能次优、训练缓慢,甚至自身耗时远超下游任务,形成讽刺性悖论。

为破解这一困局,来自中国国家自然科学基金支持的研究团队(基金号62272164和62306113)在论文《Gradient amplification for gradient matching based dataset distillation》中提出了创新方案,发表于《Neural Networks》。他们发现,梯度匹配的效能取决于梯度的规模与多样性——越大、越丰富的梯度,越能加速匹配并提升泛化性。于是,团队设计了一套融合标签移位、早期退出和集成策略的框架。实验证明,该方法在CIFAR10、CIFAR100、TinyImageNet和ImageNet子集上实现了突破:仅用更少训练迭代,就超越了多数现有DD方法,最高精度提升显著,同

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号