
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大语言模型与人类大脑语言处理的校准:模型规模扩展超越指令微调的关键作用
【字体: 大 中 小 】 时间:2025年09月17日 来源:Nature Computational Science 18.3
编辑推荐:
本刊推荐:为探究指令微调是否提升大语言模型(LLM)对人类大脑语言处理的拟合能力,研究人员系统比较了不同规模的基座模型与指令微调模型在自然阅读过程中与眼动及功能磁共振成像(fMRI)数据的匹配度。研究发现,模型规模扩大(从774M至65B)显著增强其与人类神经行为数据的对齐性,而指令微调未产生显著改善。这一发现对理解LLM的认知合理性及其在神经语言学研究中的应用具有重要意义。
随着Transformer架构的大语言模型(LLM)在自然语言处理(NLP)任务中取得突破性进展,科学家们开始探索这些计算模型是否能够揭示人类大脑处理语言的奥秘。早期研究已发现,基于预测下一个词概率的LLM(如GPT-2和BERT)其内部表征与人类神经活动存在显著相关性,暗示了人脑可能采用类似的预测加工机制。然而,当前LLM的发展趋势呈现出两个核心特征:一是模型规模(参数数量和训练数据量)的急剧扩张,二是通过指令微调(instruction tuning)增强模型对用户意图的响应能力。这两种技术路径虽提升了模型的任务性能,但其对大脑语言处理机制的模拟效果却引发争议。一方面,有研究表明模型规模扩大可增强其与大脑活动的对齐性,遵循所谓的“缩放定律”;另一方面,也有观点认为,过度庞大的模型因训练数据量远超人类经验、上下文窗口长度超越人类认知极限,反而可能削弱其作为认知模型的合理性。更值得注意的是,指令微调作为提升模型实用性的关键技术,是否能够促进模型与大脑的校准,仍是一个悬而未决的问题。
在这一背景下,本研究旨在系统评估模型规模扩展与指令微调对LLM与人类神经行为数据对齐性的相对贡献。研究人员利用自然阅读任务中的眼动追踪与功能磁共振成像(fMRI)数据,对比了多种规模及微调状态的LLM(包括GPT-2系列、LLaMA系列及其指令微调变体如Alpaca和Vicuna),以揭示何种技术路径更能模拟人类语言处理过程。论文发表于《Nature Computational Science》,为LLM的认知神经科学验证提供了关键证据。
研究采用了多项关键技术方法:首先,利用公开的Reading Brain数据集,包含50名英语母语者在fMRI扫描器中阅读STEM文章时的眼动和血氧水平依赖(BOLD)信号数据;其次,提取了不同LLM的自注意力矩阵,并通过Jensen-Shannon(J-S)散度比较模型间注意力模式的差异;第三,采用岭回归(ridge regression)将模型注意力数据与人类眼动回归次数及全脑fMRI活动模式进行拟合;最后,通过置换检验和聚类分析统计评估模型-大脑对齐的显著性。所有分析均基于PyTorch、MNE和SciPy等工具实现,确保了计算的可重复性。
研究人员首先评估了所有LLM在实验刺激文本上的下一词预测(NWP)损失。结果显示,基座模型的规模扩大(从774M至65B)与NWP损失的降低显著相关,表明更大模型在语言建模任务上具有优势。然而,指令微调模型并未表现出NWP性能的改善,甚至在某些情况下性能略低于同规模基座模型。这一发现提示,指令微调虽提升了模型的任务泛化能力,但并未增强其核心的语言建模能力。
通过计算不同LLM注意力矩阵间的J-S散度,研究发现:无论是基座模型还是指令微调模型,其注意力模式均随模型层数的加深而逐渐分化。然而,同规模基座与微调模型间的注意力差异较小,唯一例外的是Vicuna 13B与LLaMA 13B在高层级表现出显著 divergence。Vicuna基于多轮对话数据微调,而Alpaca基于单轮指令数据,这一差异可能解释了其注意力模式的分化。
为验证指令微调模型是否对指令提示具有特异性响应,研究者在刺激句子前添加了翻译或释义指令前缀,并以随机词前缀作为对照。结果显示,指令微调模型(如Alpaca和Vicuna)在处理带指令文本时注意力矩阵显著改变,而基座模型(LLaMA)则无此效应。这表明指令微调模型获得了对指令的敏感性,但这种敏感性在自然人类阅读过程中可能并不存在。
研究还考察了LLM注意力矩阵中的琐碎模式(如关注句首词、前一词或自身词)。发现随着模型规模扩大,模型对琐碎模式的依赖逐渐减少。基座与微调模型在这一指标上无显著差异。这些琐碎模式未在人类眼动数据中出现,因此其减少可能有助于提升模型的认知合理性。
通过将模型注意力数据与人类回归性眼动(regressive saccades)次数进行回归分析,研究发现:模型规模扩大(从7B至65B)显著提升了对眼动模式的预测能力,且遵循缩放定律。然而,同规模基座与指令微调模型间无显著差异。此外,实验时间分段分析表明,指令微调模型并未因后续理解问题的出现而提升对齐性,说明人类阅读行为未受任务意图的显著影响。
类似地,模型注意力对fMRI BOLD信号的预测能力随规模扩大而增强,且更大模型在双侧颞顶网络(temporal-parietal network)中引发更显著的神经活动拟合。指令微调未带来任何改善。这些发现在另一项汉语听力fMRI数据集中得到验证,表明结果跨模态、跨语言的泛化性。
本研究系统揭示了模型规模扩展(而非指令微调)是提升LLM与人类神经行为数据对齐性的关键因素。尽管指令微调增强了模型的任务适应性和用户意图响应能力,但这种优化并未转化为对大脑语言处理机制的更好模拟。这一发现对LLM的认知神经科学验证具有深远意义:首先,它支持了缩放定律在模型-大脑对齐中的普适性,即使对于较短文本和有限神经数据亦然;其次,它强调了基座模型在神经科学研究中的核心价值,提示指令微调可能引入与自然人类处理无关的偏差;最后,它为未来研究指明了方向——应更关注模型规模与认知合理性的平衡,而非盲目追求指令跟随能力。
当然,本研究亦存在局限性:指令微调模型在特定任务(如问答)下的脑活动拟合能力尚未充分探索;不同微调技术(如监督微调与人类反馈强化学习)的影响仍需进一步细分。总体而言,这项工作为LLM作为人类语言处理计算模型的有效性提供了坚实证据,并为下一代认知启发式AI模型的设计提供了重要启示。
生物通微信公众号
知名企业招聘