
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Science子刊:新的、具体化的人工智能揭示了机器人和幼儿是如何学习理解的
【字体: 大 中 小 】 时间:2025年01月24日 来源:AAAS
编辑推荐:
最早的神经网络,后来发展成为彻底改变我们社会的大型语言模型(llm),是为了研究信息在我们的大脑中是如何处理的。具有讽刺意味的是,随着这些模型变得越来越复杂,其中的信息处理途径也变得越来越不透明,今天一些模型具有数万亿个可调参数。但是现在,冲绳科学技术研究所(OIST)的认知神经机器人研究小组的成员已经创建了一个具有新颖架构的具身智能模型,该模型允许研究人员访问神经网络的各种内部状态,并且似乎可以以与儿童相同的方式学习如何进行概括。
我们人类擅长泛化。如果你教一个蹒跚学步的孩子识别红色,给他看一个红色的球,一辆红色的卡车和一朵红色的玫瑰,她很可能会正确地识别出西红柿的颜色,即使这是她第一次看到西红柿。
学习泛化的一个重要里程碑是组合性:将一个整体组合并分解为可重用部分的能力,就像物体的红色一样。我们如何获得这种能力是发育神经科学和人工智能研究中的一个关键问题。
最早的神经网络,后来发展成为彻底改变我们社会的大型语言模型(llm),是为了研究信息在我们的大脑中是如何处理的。具有讽刺意味的是,随着这些模型变得越来越复杂,其中的信息处理途径也变得越来越不透明,今天一些模型具有数万亿个可调参数。
但是现在,冲绳科学技术研究所(OIST)的认知神经机器人研究小组的成员已经创建了一个具有新颖架构的具身智能模型,该模型允许研究人员访问神经网络的各种内部状态,并且似乎可以以与儿童相同的方式学习如何进行概括。他们的研究结果已经发表在《科学机器人》杂志上。“这篇论文展示了神经网络实现组合性的可能机制,”该研究的第一作者Prasanna Vijayaraghavan博士说。“我们的模型不是通过基于大量数据集的推断来实现这一目标,而是通过将语言与视觉、本体感觉、工作记忆和注意力结合起来——就像蹒跚学步的孩子一样。”
大型语言模型建立在一个变压器网络架构上,从大量的文本数据中学习句子中出现的单词之间的统计关系。他们基本上可以接触到所有可能的上下文中的每个单词,并根据这种理解,他们预测给定提示的最可能答案。相比之下,新模型是基于PV-RNN(预测编码启发,变分递归神经网络)框架,通过包含与不同感官相关的三个同步输入的具体交互进行训练:视觉,带有机器人手臂移动彩色块的视频;本体感觉,我们四肢运动的感觉,机器人手臂运动时的关节角度;还有一个语言指导,比如“把红色穿在蓝色上。”然后,该模型的任务是根据语言指令生成视觉预测和相应的关节角度,或者根据感官输入生成语言指令。
该系统的灵感来自自由能原理,该原理表明,我们的大脑根据过去的经验不断预测感官输入,并采取行动,将预测和观察之间的差异最小化。这种差异被量化为“自由能”,是一种不确定性的度量,通过最小化自由能,我们的大脑保持稳定状态。再加上有限的工作记忆和注意力持续时间,人工智能反映了人类的认知限制,迫使它按顺序处理输入和更新预测,而不是像大型语言模型那样一次性完成所有工作。通过研究模型内的信息流,研究人员可以深入了解它是如何整合各种输入来生成模拟动作的。
正是由于这种模块化的结构,研究人员了解了更多关于婴儿如何发展组合性的知识。正如Vijayaraghavan博士所述,“我们发现,模型在不同的语境中接触同一个词的次数越多,它对这个词的学习效果就越好。这反映了现实生活,如果幼儿以不同的方式与各种红色物体互动,她会更快地学习红色的概念,而不是仅仅在多个场合推一辆红色卡车。”
“我们的模型需要更小的训练集和更少的计算能力来实现组合性。它确实比大型语言模型犯更多的错误,但它犯的错误与人类犯错误的方式相似,”Vijayaraghavan博士说。正是这个特征使得该模型对认知科学家以及试图绘制其模型决策过程的人工智能研究人员非常有用。虽然它与目前使用的大型语言模型有不同的目的,因此不能在有效性上进行有意义的比较,但PV-RNN仍然展示了神经网络如何被组织起来,以更深入地了解其信息处理途径:其相对较浅的架构允许研究人员可视化网络的潜在状态——从过去保留下来的信息的不断发展的内部表示,并用于当前的预测。
该模型还解决了刺激贫困问题,该问题假定儿童可用的语言输入不足以解释他们的快速语言习得。尽管数据集非常有限,特别是与大型语言模型相比,该模型仍然实现了组合性,这表明在行为中建立语言基础可能是儿童令人印象深刻的语言学习能力的重要催化剂。
此外,通过提高透明度,并能够更好地理解其行为的影响,这种具体化的学习可以为未来更安全、更道德的人工智能指明道路。像大型语言模型那样,纯粹从语言学的角度来学习“痛苦”这个词,其情感分量要比PV-RNN小,后者通过具体化的经历和语言来学习含义。
“我们正在继续努力提高这个模型的能力,并用它来探索发育神经科学的各个领域。我们很高兴看到我们能在认知发展和语言学习过程中发现什么未来的见解,”该研究部门的负责人、该论文的资深作者Jun Tani教授说。我们如何获得智慧来创造我们的社会是科学中的一个重大问题。虽然PV-RNN还没有回答这个问题,但它为我们的大脑如何处理信息开辟了新的研究途径。Vijayaraghavan博士总结道:“通过观察模型如何学习将语言和行动结合起来,我们可以深入了解人类认知的基本过程。”它已经教会了我们很多关于语言习得中的组合性的知识,它展示了更高效、透明和安全的模型的潜力。”
生物通微信公众号
知名企业招聘