
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于注意力权重各向同性的跨层共享机制(SA)在大型语言模型中的高效计算研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Neurocomputing 5.5
编辑推荐:
为解决LLM推理过程中KV缓存和计算冗余问题,研究者通过实证分析揭示了现代大模型中注意力权重跨层高度相似(isotropy)的现象,提出Shared Attention(SA)机制选择性复用注意力权重,在保持性能的同时显著降低FLOPs和KV缓存需求,为优化注意力计算提供了新范式。
随着大型语言模型(LLM)参数规模指数级增长,推理过程中的计算和内存效率成为制约其落地的关键瓶颈。传统优化方法如多查询注意力(Multi-Query Attention, MQA)和分组查询注意力(Grouped-Query Attention, GQA)通过共享键值对(KV cache)减少存储开销,而交叉层注意力(Cross-Layer Attention, CLA)则进一步实现了跨层KV共享。然而这些方法主要针对内存优化,对计算冗余的关注不足。更早的LazyFormer曾探索过跨层复用注意力权重的可能性,但缺乏对现代LLM中注意力动态特性的系统分析。
日本九州大学的研究团队在《Neurocomputing》发表的研究中,首次对7B-72B规模LLM的注意力权重各向同性(isotropy)现象展开全面实证研究。通过监测预训练过程中注意力分布演变,发现中深层网络存在稳定的跨层相似性模式。基于此提出Shared Attention(SA)机制,在保持模型性能前提下,通过选择性复用高相似层段的注意力权重,显著降低softmax计算量和KV缓存需求。
关键技术包括:1) 采用余弦相似度量化跨层注意力矩阵相似性;2) 跟踪不同预训练阶段注意力分布演变规律;3) 设计分层策略实施权重共享;4) 在多基准测试集验证SA有效性。
【Shared attention】章节阐明SA核心思想:在通过实证分析确定的各向同性层段内,直接复用已计算的注意力权重,而非逐层重新计算。相比KV共享机制,SA直接跳过了重复的softmax运算环节。
【Isotropic attention distribution】通过大规模实验揭示:1) 不同规模LLM的中后层普遍存在>0.85的余弦相似度;2) 各向同性程度随预训练进程增强并最终稳定;3) 深层网络表现出更显著的跨层一致性模式。
【Experimental validation】显示:在Wikitext、LAMBADA等基准测试中,对后24层应用SA的模型仅产生0.3-1.2%的性能下降,同时减少21%的注意力计算FLOPs。特别在长序列任务中,KV缓存需求降低19%。
【Conclusion】部分指出:该研究不仅提供了首个系统性的LLM注意力动态分析框架,更重要的是建立了各向同性现象与计算优化间的定量关系。SA机制作为KV缓存优化的补充策略,为LLM推理加速开辟了新途径。作者特别强调,该方法不改变基础模型架构,可与稀疏化、量化等技术协同使用,具有显著的工程落地价值。研究同时揭示了LLM功能分化的内在规律,为理解Transformer的层级表征提供了新视角。代码已开源在GitHub平台供业界验证。
生物通微信公众号
知名企业招聘