
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在概念表征中的局限性:非感觉运动特征可复现而感觉运动特征缺失
【字体: 大 中 小 】 时间:2025年06月05日 来源:Nature Human Behaviour 22.3
编辑推荐:
本研究探讨了大型语言模型(LLMs)在缺乏多模态 grounding(具身 grounding)条件下对人类概念表征的复现能力。通过对比GPT-3.5、GPT-4、PaLM和Gemini等LLMs与人类在4,442个词汇概念上的多维评分(涵盖非感觉运动、感觉和运动领域),发现LLMs能较好复现情感、抽象性等非感觉运动特征(Rs 0.50),但对嗅觉、触觉等感觉维度及肢体动作相关运动维度表征显著偏离人类(P<0.001)。研究首次系统揭示语言模态的局限性,证明多模态输入(如视觉训练)可提升模型在视觉关联维度(如形象性、触觉)的拟人化表现(R2 =0.70),为认知科学和人工智能的跨模态学习提供重要依据。
在认知科学和人工智能的交叉领域,一个根本性问题持续引发争论:人类复杂的概念表征究竟多大程度依赖于多感官体验?传统具身认知理论(grounded cognition)强调感知运动经验的核心作用,而近期大型语言模型(LLMs)的突破性表现却暗示,仅通过语言模态可能也能构建丰富概念。这种"语言能否替代身体"的争议,因LLMs在语法、推理等任务中展现的拟人化表现而愈演愈烈。
香港理工大学联合巴斯克中心等机构的研究团队在《Nature Human Behaviour》发表的研究,首次通过系统性实验解答了这一争议。研究创新性地对比了人类与两类LLMs(纯文本训练的GPT-3.5/PaLM和多模态训练的GPT-4/Gemini)对4,442个词汇在18个维度的表征差异,涵盖情感价态(valence)、形象性(imageability)等非感觉运动维度,以及嗅觉、手部动作等具体感官运动维度。通过聚合分析、个体层面相关性检验和表征相似性分析(RSA)等方法,揭示了语言模态的固有局限与多模态整合的价值。
关键技术包括:1) 基于Glasgow Norms和Lancaster Norms的人类概念评分数据集(分别来自829名和3,500名受试者);2) 标准化提示工程,使LLMs模拟人类评分流程;3) 四轮重复测试确保模型响应可靠性;4) 采用Spearman秩相关和表征相似性分析(RSA)量化模型-人类对齐程度;5) 通过视觉关联强度分析验证多模态训练效果。
模型-人类表征对齐存在领域特异性
通过维度相关性分析发现,LLMs在非感觉运动领域(如情感价态Rs
=0.93)与人类高度一致,但在感觉领域相关性显著降低(GPT-4的U检验P=0.018,效应量rrb
=0.69),运动领域差异最大(相关性接近零)。个体层面分析显示,GPT-4在7个非感觉运动维度中有7个与人类差异不显著,但在6个感觉维度中仅4个、5个运动维度中仅2个达到该标准(χ2
=15.49, P<0.001)。
视觉训练增强特定维度对齐
回归分析表明,视觉关联强度能显著预测多模态模型相较纯文本模型的改进幅度(GPT-4 vs GPT-3.5:β=0.99, P<0.001)。例如在形象性维度,GPT-4较GPT-3.5相关性提升0.14,而视觉无关的味觉维度仅提升0.01。这种"知识迁移"现象暗示多模态嵌入空间可能存在跨模态表征共享。
验证与稳健性检验
控制词汇具体性(concreteness)后,原始结论仍成立(偏相关Rs
=0.93)。通过外部验证数据集(如Warriner情感价态数据集)证实模型评分与人类规范高度一致(GPT-4价态评分与验证集相关Rs
=0.88 vs 原始集0.93)。
这项研究为认知科学和AI发展提供了双重启示:一方面证实语言模态足以支撑抽象概念表征,解释先天盲人群体的概念形成机制;另一方面揭示感觉运动表征需要真实体验输入,为开发具身人工智能指明方向。研究者特别指出,当前LLMs需消耗远超人类学习量的文本数据才能达到部分拟人化表现,而人类通过多模态交互的高效学习机制仍具不可替代性。随着RT-2等具身视觉-语言-动作模型的发展,整合机器人感知系统的下一代AI或将真正突破"符号接地问题(symbol grounding problem)"。
生物通微信公众号
知名企业招聘