编辑推荐:
为解决 MoE 模型在资源受限环境(尤其是单 GPU 环境)部署困难的问题,研究人员开展关于加速 MoE 语言模型推理的研究。提出 PPLG、LGA 和 SES,实验证明可提升推理效率,对推动 LLMs 本地部署意义重大。
在当今人工智能飞速发展的时代,大语言模型(LLMs)如同一颗颗璀璨的明星,照亮了自然语言处理等诸多领域。其中,混合专家模型(MoE)凭借独特的架构,在不显著增加计算成本的前提下扩充知识容量,备受瞩目。它通过稀疏门控机制,将输入分配到特定的专家网络,实现了模型参数的可扩展,让模型能够存储更多知识,在各类任务中表现卓越,超越了传统的密集模型。
然而,MoE 模型在实际应用中却遭遇了 “成长的烦恼”。其庞大的参数数量导致内存需求极高,即使经过量化处理,存储需求仍然可观。例如,Mixtral - 8x7B 模型以 16 位精度存储权重时需要超 90GB,4 位精度下也超 20GB,这使得在资源有限的环境中,尤其是在消费级 GPU 上部署变得异常困难。虽然量化和卸载技术被用于缓解这一问题,但卸载带来的时间开销却成为了新的瓶颈。像 DeepSpeed 和 Accelerate 不支持 Mixtral - 8x7B 这类模型的量化和卸载技术结合;Mixtral - offloading 和 PreGate 仅提前一层预测后续专家,且对量化比特数和 I/O 带宽要求高,PreGate 还因修改模型结构导致资源需求大增。这些问题严重阻碍了 MoE 模型的广泛应用,也让研究人员和开发者们在探索的道路上举步维艰。
为了突破这些困境,来自未知研究机构的研究人员踏上了探索之旅。他们开展了关于在单 GPU 环境下加速 MoE 语言模型推理的研究,旨在优化 MoE 模型在资源受限环境中的效率。经过不懈努力,研究人员取得了令人瞩目的成果。他们提出的即插即用前瞻门(PPLG)模块、层间门对齐(LGA)技术和推测专家调度(SES)策略,显著提升了 MoE 模型的推理效率。在不同量化条件下,相比 Mixtral - offloading 方法,吞吐量分别提升了 57.72%(4 位量化)、60.00%(3 位量化)和 62.26%(2 位量化)。这一成果为 MoE 模型在资源受限环境中的部署和应用带来了新的曙光,对于推动 LLMs 的本地化部署,让更多用户能够便捷地使用先进的语言模型技术具有重要意义。该研究成果发表在《Computer Standards 》上。
在研究过程中,研究人员主要运用了以下关键技术方法:首先是 PPLG 模块,它利用 token 级信息预测下 M 层专家的使用情况,为专家预取提供支持;其次是 LGA 技术,通过对齐当前层和下 M 层不同知识领域的专家,降低了 PPLG 训练的资源需求;最后是 SES 策略,将当前层专家的计算开销与下 M 层专家的预取 I/O 开销重叠,加速了 MoE 模型的端到端推理过程。
实验部分
研究人员将实验分为两个主要部分。
- PPLG 模块和 LGA 技术的测试与分析:这部分聚焦于对 PPLG 模块和 LGA 技术的训练和验证进行测试与分析,以确保这两项技术的有效性和可行性。
- 端到端推理加速测试:通过将 PPLG 模块与 SES 策略相结合,进行端到端的推理加速测试,验证整体方案对 MoE 模型推理效率的提升效果。
研究结论
研究人员成功解决了在资源受限环境中高效运行大规模 MoE 模型面临的诸多问题。PPLG 模块能够有效预测专家使用情况,提高预测命中率并实现专家预取;LGA 技术在低资源条件下实现了 PPLG 的训练,降低了硬件资源需求;SES 策略与 PPLG 结合,最终实现了 MoE 模型端到端推理过程的加速。
讨论
此次研究成果意义非凡。它为解决 MoE 模型在资源受限环境下的部署难题提供了切实可行的方案,提升了模型的推理效率,降低了部署成本。这不仅有助于推动 MoE 模型在更广泛领域的应用,还使得 LLMs 技术能够惠及更多用户,尤其是那些无法使用高性能 GPU 的用户。未来,随着技术的不断发展和优化,有望进一步提升 MoE 模型的性能,拓展其应用边界,为人工智能领域的发展注入新的活力。