Spectraformer:一种用于Transformer的统一随机特征框架

《ACM Transactions on Intelligent Systems and Technology》:Spectraformer: A Unified Random Feature Framework for Transformer

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  线性化注意力机制在Transformer中应用广泛,但现有方法组合不系统。本文提出Spectraformer框架,统一注意力机制的核近似与核学习方法,实验表明随机特征方法在长距离基准测试中性能接近最优稀疏低秩方法,建立新SOTA,并生成多种变体优化准确率、训练时间和内存消耗。

  

摘要

使用各种核函数近似和核学习技术对注意力机制进行线性化研究已经显示出良好的前景。以往的方法在随机特征范式中仅使用了部分组件函数和权重矩阵的组合。我们认识到有必要系统地比较不同权重矩阵和组件函数组合在Transformer注意力学习中的效果。因此,我们提出了,这是一个用于近似和学习Transformer注意力机制中核函数的统一框架。我们的实证结果首次证明,基于随机特征的方法在具有挑战性的Long Range Arena基准测试中能够达到与高性能的稀疏和低秩方法相当的性能。由此,我们为基于随机特征的高效Transformer建立了新的技术标准。该框架还提供了多种变体,这些变体在准确性、训练时间和内存消耗方面具有不同的优势。我们的代码可在此处获取:https://github.com/cruiseresearchgroup/spectraformer
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号