
-
生物通官微
陪你抓住生命科技
跳动的脉搏
像人类的大脑一样,大型语言模型以一种通用的方式对不同的数据进行推理
【字体: 大 中 小 】 时间:2025年02月21日 来源:AAAS
编辑推荐:
麻省理工学院的研究人员发现,大型语言模型处理不同类型的数据,如不同的语言、音频输入、图像等,类似于人类对复杂问题的推理。与人类一样,LLMs将跨模式的数据输入集成到一个中央集线器中,该集线器以输入类型无关的方式处理数据。
早期的语言模型只能处理文本,而当代的大型语言模型现在可以在不同类型的数据上执行高度多样化的任务。例如,LLMs可以理解多种语言,生成计算机代码,解决数学问题,或回答有关图像和音频的问题。
麻省理工学院的研究人员探索了LLMs的内部工作原理,以更好地了解它们是如何处理这些分类数据的,并发现了它们与人类大脑有一些相似之处的证据。
神经科学家认为,人类大脑的前颞叶有一个“语义中枢”,可以整合来自各种形式的语义信息,比如视觉数据和触觉输入。这个语义集线器连接到特定于模态的“辐条”,这些辐条将信息路由到集线器。麻省理工学院的研究人员发现,LLMs使用类似的机制,以一种集中的、一般化的方式抽象地处理来自不同模式的数据。例如,一个以英语为主导语言的模型将依赖英语作为中心媒介来处理日语输入或对算术、计算机代码等进行推理。此外,研究人员证明,即使模型正在处理其他语言的数据,他们也可以通过使用模型主导语言的文本来改变其输出,从而干预模型的语义中心。
这些发现可以帮助科学家培养未来能够更好地处理各种数据的v。
“LLMs是一个大黑盒子。它们取得了令人印象深刻的成绩,但我们对它们的内部工作机制知之甚少。我希望这是更好地了解它们是如何工作的早期步骤,这样我们就可以在需要的时候改进它们,更好地控制它们,”电气工程和计算机科学(EECS)研究生、该研究论文的主要作者吴兆峰说。
他的合著者包括南加州大学(USC)的研究生Xinyan Velocity Yu;南加州大学副教授Dani Yogatama;苹果公司(Apple)研究科学家陆佳森(Jiasen Lu);麻省理工学院EECS助理教授、计算机科学与人工智能实验室(CSAIL)成员、资深作者Yoon Kim。这项研究将在国际学习表征会议上发表。
整合多种数据
研究人员基于先前的研究,暗示以英语为中心的v使用英语进行各种语言的推理过程。
吴和他的合作者扩展了这个想法,对LLMs用来处理不同数据的机制进行了深入研究。
LLM由许多相互连接的层组成,它将输入文本分割成称为令牌的词或子词。该模型为每个标记分配一个表示,这使它能够探索标记之间的关系,并在序列中生成下一个单词。在图像或音频的情况下,这些标记对应于图像的特定区域或音频剪辑的部分。
研究人员发现,该模型的初始层以其特定的语言或模态处理数据,就像人脑中特定模态的辐条一样。然后,当LLM在其内部层中对它们进行推理时,它将令牌转换为与形态无关的表示,类似于大脑的语义中心如何整合各种信息。
该模型为具有相似含义的输入分配相似的表示,而不考虑它们的数据类型,包括图像、音频、计算机代码和算术问题。尽管图像及其文本标题是不同的数据类型,但由于它们具有相同的含义,LLM将为它们分配相似的表示。
例如,一个以英语为主的LLMs在生成中文输出之前,会先“思考”用英语输入的中文文本。该模型对计算机代码、数学问题甚至多模态数据等非文本输入具有类似的推理倾向。
为了验证这一假设,研究人员通过模型传递了两组意思相同但用两种不同语言写成的句子。他们测量了模型对每个句子的表示的相似程度。
然后,他们进行了第二组实验,在实验中,他们用另一种语言(比如中文)输入以英语为主导的模型文本,并测量其内部表征与英语和中文的相似程度。研究人员对其他数据类型进行了类似的实验。
他们一致发现,对于意义相似的句子,模型的表征是相似的。此外,在许多数据类型中,模型在其内层中处理的令牌更像是以英语为中心的令牌,而不是输入数据类型。
吴说:“许多输入数据类型似乎与语言截然不同,所以我们非常惊讶,当模型处理数学或编码表达式时,我们可以探测到英语标记。”
利用语义中心
研究人员认为LLMs可能会在训练中学习这种语义中心策略,因为它是处理各种数据的一种经济方式。
“世界上有数千种语言,但很多知识是共享的,比如常识性知识或事实性知识。该模型不需要跨语言复制这些知识,”吴说。
研究人员还尝试在模型处理其他语言时,使用英语文本干预模型的内层。他们发现他们可以预测地改变模型输出,即使这些输出是用其他语言进行的。
科学家可以利用这一现象来鼓励模型在不同的数据类型中共享尽可能多的信息,从而潜在地提高效率。
但另一方面,有些概念或知识可能无法跨语言或数据类型进行翻译,比如特定于文化的知识。在这些情况下,科学家可能希望llm具有一些特定于语言的处理机制。
“你如何尽可能最大化地分享,同时又允许语言有一些特定于语言的处理机制?这可以在未来的模型架构工作中探索,”吴说。
此外,研究人员可以利用这些见解来改进多语言模型。通常,以英语为主导的模型在学习说另一种语言时,会在英语中失去一些准确性。他说,更好地了解LLMs的语义中心可以帮助研究人员防止这种语言干扰。
###