基于贝叶斯优化的最优RoPE扩展方法实现免训练的长度泛化

【字体: 时间:2025年09月01日 来源:AI Open 14.8

编辑推荐:

  为解决大语言模型(LLM)在超出预训练上下文窗口时的性能下降问题,研究人员开展了一项关于Rotary Position Embedding(RoPE)扩展优化的研究。通过贝叶斯优化(BO)方法自动搜索最优频率权重(FW),提出ORoPE方案,在8K/16K/32K长度评估中分别超越基线方法达21.9%/32.1%/41.2%。该研究为LLM的长度泛化提供了免训练的解决方案,具有重要的应用价值。

  

在人工智能领域,大型语言模型(LLM)如GPT系列和Llama系列已经展现出惊人的能力,但一个长期存在的瓶颈问题困扰着研究人员:当输入文本长度超过预训练时的上下文窗口时,模型性能会急剧下降。这就像给一个孩子一本厚厚的书,却只允许他记住最近几页的内容,显然难以把握整体脉络。特别是在处理长对话、复杂代码调试或长篇报告摘要等实际场景时,这种限制严重制约了LLM的应用潜力。

造成这一问题的核心在于位置编码机制。Transformer模型使用的位置嵌入(Position Embedding)为每个token赋予位置信息,其中Rotary Position Embedding(RoPE)因其独特的旋转矩阵设计成为主流方案。然而,RoPE在超出训练长度范围时面临两大挑战:全局分布不匹配和局部分辨率退化。就像用短尺子测量长距离,既难以准确定位远处点,又无法精细区分近处细节。

针对这些问题,已有研究提出了位置外推(PE)、位置插值(PI)、NTK-Aware(NTK)和YaRN等方法,但它们或依赖手动调参,或需要额外训练,都存在明显局限。Xinrong Zhang等研究人员另辟蹊径,提出了一种基于贝叶斯优化(BO)的免训练解决方案——Optimal RoPE(ORoPE)。

研究团队首先通过系统分析,将长度泛化的核心问题归结为"注意力分布不匹配"和"分辨率降低"两个关键约束。他们创新性地将各种RoPE改进方法统一到一个框架中,引入频率权重(FW)作为可优化参数。通过设计合适的代理任务和分段参数搜索策略,利用贝叶斯优化自动寻找最优FW配置,避免了传统方法依赖人工经验调参的局限。

关键技术方法包括:1)构建统一的FW参数化框架,将PI、NTK、YaRN等方法视为特例;2)设计基于人类生成文本的代理任务,准确反映分辨率退化问题;3)采用分段超参数搜索策略,假设FW在位置编码维度上具有连续性;4)应用贝叶斯优化在限定搜索空间内寻找最优FW配置。

研究结果部分展示了ORoPE的卓越性能:

  1. 1.

    方法比较:通过可视化分析不同方法的FW曲线,发现ORoPE具有更宽的参数范围和更精细的分段,这为其优异表现奠定了基础。

  2. 2.

    性能评估:在Llama-2-7b-chat和MiniCPM-2b模型上的实验表明,ORoPE在8K、16K和32K长度评估中全面超越基线方法。特别是在Retrieve.PassKey等需要精确定位的任务中,ORoPE能准确恢复被其他方法丢失的重复数字,显示出解决分辨率退化问题的能力。

  3. 3.

    与训练方法的对比:虽然ORoPE是免训练方案,但在8K长度评估中,其性能甚至可与经过全长度训练的模型(如CodeLlama、LongLoRA等)媲美。随着长度增加,训练方法的优势才逐渐显现。

  4. 4.

    消融研究:通过调整分段数量、代理任务类型和参数边界等,验证了8分段设计、Retrieve.Number代理任务和1.6上界的合理性,为方法优化提供了指导。

在讨论部分,作者指出ORoPE的重要意义在于:首次实现了完全免训练的长度泛化,避免了额外训练带来的计算资源消耗和潜在的性能退化风险。该方法不仅性能优越,还具有通用性,可应用于各类RoPE-based LLM。研究同时揭示了当前方法的局限:随着扩展倍数的增加,优化效率和效果会有所下降,这表明完全的免训练方案在极端长度扩展时可能仍需结合适量训练。

这项发表在《AI Open》的研究为LLM的长度泛化问题提供了创新解决方案,其提出的贝叶斯优化框架和频率权重参数化思路,为后续研究开辟了新方向。未来工作可探索更高效的优化算法、更具代表性的代理任务,以及与其他长度扩展技术的结合,进一步提升大模型处理长文本的能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号