
-
生物通官微
陪你抓住生命科技
跳动的脉搏
层间自适应低秩适应(La-LoRA):动态参数分配优化大模型微调效率与性能
【字体: 大 中 小 】 时间:2025年09月13日 来源:Neural Networks 6.3
编辑推荐:
本文提出La-LoRA(Layer-wise Adaptive Low-Rank Adaptation),通过动态贡献驱动参数预算(DCDPB)和截断范数加权动态秩分配(TNW-DRA)策略,实现分层自适应的低秩参数优化。该方法突破传统LoRA(Low-Rank Adaptation)的均匀秩分配局限,在保持计算效率的同时显著提升下游任务性能,为资源受限场景下的模型微调提供了创新解决方案。
Highlight
• 提出La-LoRA:一种基于动态贡献驱动参数预算(DCDPB)和截断范数加权动态秩分配(TNW-DRA)的直观高效参数高效微调(PEFT)方法,推理阶段无额外成本
• 动态贡献驱动参数预算(DCDPB):根据训练过程中各层的边际贡献潜力动态分配参数预算,早期分配较少预算学习基础特征,后期增加预算捕获复杂特征
• 截断范数加权动态秩分配(TNW-DRA):对低贡献层矩阵进行截断避免过拟合,引入校正因子精确评估截断后层的实际贡献
• 实验表明La-LoRA在多任务中持续超越现有基准
Lottery Ticket Hypothesis
彩票假设(Lottery Ticket Hypothesis)因其对网络训练效率和剪枝策略的启示而备受关注。它提出一个引人入胜的观点:在大型随机初始化网络中嵌入了一个稀疏的高性能子网络(即“中奖彩票”),可以通过最小性能损失高效训练。(Gohil等,2019)通过研究不同架构间中奖彩票的迁移性扩展了该假设
Method
本文提出层间自适应低秩适应(LA-LoRA),在微调过程中动态分配本征秩,综合考虑矩阵截断、增量矩阵相对保真率、动态贡献驱动参数预算(DCDPB)及各层贡献度。整体算法流程见算法1
Experiments
我们通过自然语言理解(NLU)、问答(QA)、文本摘要、图像分类和常识推理等多任务实验验证所提方法。实验基于Huggingface Transformers代码库,在NVIDIA GeForce RTX 4090 GPU设备上完成
Gradually Increasing Current Allocable Rank
为验证逐步增加当前可分配秩(CAR)的有效性(而非直接设置为最大值),我们在多个数据集上微调模型,结果如表10所示
逐步增加CAR能有效利用参数,确保模型初始仅学习最重要特征以避免过拟合。通过控制容量扩展,该方法允许随着训练进程增加秩,促进对更复杂模式的学习
Conclusion
本文提出层间自适应低秩适应(La-LoRA),通过评估各层对整体模型的贡献度自适应分配动态贡献驱动参数预算(DCDPB)。为精确调整各层秩分配,La-LoRA采用截断范数加权动态秩分配(TNW-DRA)。其有效性依赖于逐步增加的可分配秩和各层经校正的贡献度
生物通微信公众号
知名企业招聘