基于小波变换的参数高效微调方法WaveletFT:突破低秩适配的存储与性能瓶颈

【字体: 时间:2025年06月27日 来源:Neurocomputing 5.5

编辑推荐:

  推荐:针对低秩适配(LoRA)在微调大模型时存在的参数存储压力与性能差距问题,研究人员提出基于离散小波变换(DWT)的WaveletFT方法,通过仅学习稀疏小波系数并逆变换重构权重更新ΔW,在自然语言理解(NLU)、图像分类等任务中以9-500倍更少参数达到优于LoRA的效果,为边缘设备部署提供新思路。

  

随着大型基础模型(LFMs)在自然语言处理(NLP)和计算机视觉(CV)领域的广泛应用,全参数微调(Full Fine-Tuning, FT)面临巨大的存储和计算成本。低秩适配(LoRA)通过低秩矩阵分解(ΔW=BA)减少参数,但仍存在性能差距和存储瓶颈——例如扩散模型适配器需40MB内存,对Civitai等社区平台造成带宽压力。更核心的问题是:能否进一步突破参数压缩极限?

芒果TV智能算法中心的研究团队发现,小波变换(WT)在数据压缩中展现出色表现,其高频系数捕捉细节特征、低频系数保留全局信息的特点,恰好契合模型微调中兼顾特定任务学习与通用性保持的需求。受此启发,他们提出WaveletFT方法,将权重更新ΔW视为空间域矩阵,仅学习其4n个稀疏小波系数(含n个低频和3n个高频分量),通过逆离散小波变换(IDWT)重构ΔW。该方法仅需存储4n2坐标参数和4nLN系数参数(LN为模型层数),较LoRA显著降低内存占用。

关键技术包括:1) 采用高效Haar基进行单层小波分解;2) 随机初始化共享的4n系数条目;3) 跨层参数共享机制;4) 基于GLUE、GPT-2等基准的多任务验证体系。

实验结果表明

  1. 在自然语言理解(NLU)任务中,RoBERTa模型仅用LoRA 1/14的参数即达到相当精度;
  2. 指令调优任务参数减少500倍;
  3. 文本-图像生成任务参数压缩16倍,且在Stable Diffusion上保持生成质量;
  4. 参数可扩展性测试显示,当n=300时WaveletFT即超越r=8的LoRA性能。

结论与意义
WaveletFT首次将小波多尺度分析引入参数高效微调(PEFT)领域,揭示了FT与现有方法的核心差异——通过频域稀疏表征实现参数极简与性能平衡。该工作发表于《Neurocomputing》,其价值体现在三方面:1) 为GPU内存受限设备(如笔记本)提供可行微调方案;2) 使Raspberry Pi等边缘设备能部署复杂模型;3) 开辟了频域分析与模型压缩交叉研究的新路径。作者Can Hu在致谢中特别提到其夫人与国家自然科学基金(62276106)的支持,体现了产学研结合的特色。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号