用于在训练大型语言模型时降低维度的U-Net封装Transformer

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：U-Net Encapsulated Transformer for Reducing Dimensionality in Training Large Language Models

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　提出基于U-Net的Transformer架构（UET），通过维度约简降低计算需求，适用于资源受限环境，同时提升模型深度与容量，实验验证其有效性。

摘要

从零开始训练语言模型在自然语言处理（NLP）领域是一个关键挑战，主要原因是预训练的大型语言模型（LLMs）的计算需求较高，这些模型通常使用大量资源在英语语料库上进行训练。尽管现有的解决方案具有一定的可行性，但它们仍然严重依赖高性能硬件。本研究提出了一种不同的方法，通过U-Net封装Transformer（UET）来降低基于Transformer的架构的算法复杂性。UET通过对令牌嵌入进行降维处理，使得在给定超参数配置下能够开发出参数数量大幅减少的语言模型。此外，该方法还允许研究人员设计出规模相当但Transformer块数量显著更多的模型，从而增强模型的深度和潜在能力。本研究还概述了在资源受限环境中训练语言模型的实用方法。实验结果表明，UET架构在资源受限条件下仍能实现良好的性能，显示出其作为语言模型开发可行替代方案的潜力。这项工作有望提高NLP研究的可及性，使那些受硬件条件限制的研究人员也能参与到语言模型开发中。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号