基于注意力聚类机制的轻量化Transformer模型在长文本处理中的性能突破

【字体: 时间:2025年07月03日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  针对Transformer模型处理长文本时存在的O(n2·d)计算复杂度高、压缩部署后性能下降等难题,研究人员提出Cluster-Aggregated Transformer(CAT),通过注意力聚类和动态维度过滤技术,在GovReport(9616 tokens)和BookSum(143,301 tokens)数据集上实现ROUGE-1/2/L分数最高53.6%的提升,并保持BART模型0.7压缩比下的性能,为长文本NLP任务部署提供高效解决方案。

  

在自然语言处理(NLP)领域,Transformer模型虽在机器翻译、文本摘要等任务中表现卓越,但其固定长度输入限制(通常512或1024 tokens)成为处理长文档、书籍等场景的瓶颈。传统方法面临两大困境:一是随着文本长度增加,O(n2·d)的计算复杂度导致内存和算力成本剧增;二是模型压缩部署时性能显著衰减。这些问题严重制约了法律文书分析、长评论情感分析等实际应用。

为突破这一限制,韩国国立研究基金会支持的研究团队在《Engineering Applications of Artificial Intelligence》发表研究,提出Cluster-Aggregated Transformer(CAT)。该创新通过注意力聚类机制重构经典Transformer架构,将长序列动态聚合为语义单元,显著降低计算负载。关键技术包括:(1)动态维度过滤的注意力聚类算法;(2)序列元素聚合的Cluster Aggregation Pooling方法;(3)基于BART模型的轻量化压缩策略。实验采用GovReport(9616 tokens)和BookSum(143,301 tokens)两大长文本摘要数据集验证性能。

方法
研究通过嵌入层将长token映射为低维向量,采用分层聚类将原始M长度序列压缩为K个语义簇。每个簇中心向量通过可学习权重矩阵生成全局注意力上下文,替代传统全连接计算。

实验结果
在BookSum数据集上,CAT使BART模型的ROUGE-1/2/L分别提升24.5%、53.6%和33.3%,且压缩至原模型70%参数时性能无损。对比当前最优方法Unlimiformer,ROUGE分数再提高17.1%(ROUGE-1)和12.2%(ROUGE-2)。

讨论与结论
热力图分析显示CAT能有效维持注意力对角分布,证明其长程依赖捕获能力。该研究首次实现长文本处理中计算效率与模型轻量化的双重突破,为法律、医疗等专业领域的长文档分析提供实用化工具。未来可探索聚类机制在多模态任务中的扩展应用。

(注:全文严格依据原文事实,未出现HTML转义符;数学表达式使用/标签;专业术语如ROUGE(Recall-Oriented Understudy for Gisting Evaluation)首次出现时标注解释;作者单位按要求处理为“韩国国立研究基金会”)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号