探索大型语言模型的架构及其在多个领域的影响力：一篇综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARTIFICIAL INTELLIGENCE REVIEW》：Exploring the architectures of large language models and impact across multiple domains: a review

【字体：大中小】 时间：2026年06月09日 来源：ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐：

　　摘要大型语言模型（LLMs）由于在各种基于语言的任务中表现出色，已成为自然语言处理研究的主要焦点。这些模型基于Transformer等深度学习方法构建，通过在海量文本数据集上进行训练，能够以令人印象深刻的准确性处理各种语言任务。本文综述了使LLMs如此有效的因素及其在医疗保健、教

摘要

大型语言模型（LLMs）由于在各种基于语言的任务中表现出色，已成为自然语言处理研究的主要焦点。这些模型基于Transformer等深度学习方法构建，通过在海量文本数据集上进行训练，能够以令人印象深刻的准确性处理各种语言任务。本文综述了使LLMs如此有效的因素及其在医疗保健、教育、软件开发和客户服务等多个领域的应用。该综述整合了2017年至2025年间发表的文献，探讨了LLMs从早期的基于Transformer的系统发展到现代模型的过程，包括Transformer的双向编码器表示、生成预训练Transformer以及文本到文本的转换Transformer（T5）。文章还解释了其设计的关键组成部分，如通过预训练学习通用语言模式、针对特定任务的微调、帮助模型关注重要词汇的注意力机制，以及通过人类反馈进行强化学习以使输出符合人类期望。LLMs正在自动化任务，以增强用户交互并利用数据支持更好的决策制定。然而，它们也面临一些挑战，包括数据偏见、错误、伦理问题、隐私风险和高计算成本。本文还提出了一种基于模型容量、信号设计和上下文外化的统一分析框架，用以解释不同LLM范式何时会成功或失败，并提供了比较性的、与任务对齐的矩阵和领域特定的映射，将不同的研究结果转化为可操作的行动计划。本文并不声称LLMs在所有情况下都能取得一致的性能，而是强调结果会因基准测试、数据集和部署环境的不同而有所差异。最后，文章概述了未来在模型效率、基础研究、评估以及负责任部署方面的研究方向，研究人员必须注重保持公平性、清晰性和透明度。

联系信箱：

粤ICP备09063491号

摘要

热点排行