
-
生物通官微
陪你抓住生命科技
跳动的脉搏
[科研] 毕彦超、朱毅鑫课题组揭示语言通过左侧角回通路调制人类视觉表征
【字体: 大 中 小 】 时间:2025年12月19日 来源:北京大学心理与认知科学学院
编辑推荐:
2025年12月15日,北京大学心理与认知科学学院、IDG麦戈文脑科学研究所毕彦超课题组与北京大学心理与认知科学学院朱毅鑫课题组、山西医科大学第一医院王效春团队合作,在《Nature Human Behaviour》在线发表论文“Combined evidence from artificial neural networks and human brain-lesion models reveals that language modulates vision in human perception”
“语言是否会影响人类对世界的感知方式?”这一问题在认知科学中常被归入萨丕尔—沃尔夫假说(Sapir—Whorf hypothesis)的讨论框架。尽管一些跨语言研究与标签学习实验提示语言标签可能改变颜色、形状等属性的分类与判断,但相关证据长期面临两类关键挑战:其一,行为效应的稳健性与可重复性并不总是理想;其二,更难回答的是,这类影响究竟发生在早期知觉表征阶段,还是出现在后期决策/判断阶段。与此同时,若语言系统确实参与塑造视觉表征,它依赖何条神经通路实现对视觉皮层的调制,仍缺乏相关证据。
近年来,视觉—语言深度神经网络(DNN)为这一经典争议提供了新的切入点。以对比语言—图像预训练(CLIP)为代表的多模态模型,在海量文本—图像配对数据上学习到的表征,往往比仅凭图像统计学习的纯视觉模型更接近人类高级视觉皮层(如腹侧枕颞皮层,VOTC)的神经表征。然而,更强的模型—大脑相似性并不自动等价于“语言对视觉表征的调制”。现有证据至少兼容两类解释:
(i) 语言经验通过特定神经机制塑造 VOTC 的表征几何;
(ii) 语言与视觉—动作—触觉等多模态经验共享相似的关系结构(共因/共结构假设),模型通过语言学习到的结构可能只是对这种更一般的多模态关联结构的重建,而非语言系统在大脑中的独立贡献来源。换言之,模型“用语言学到”不等于大脑“因语言而有”。
基于此,若要对上述两类解释作出区分,需要引入能改变语言—视觉耦合的证据来源,例如结构连接受损所带来的系统性改变,从而为机制推断提供约束。
2025年12月15日,北京大学心理与认知科学学院、IDG麦戈文脑科学研究所毕彦超课题组与北京大学心理与认知科学学院朱毅鑫课题组、山西医科大学第一医院王效春团队合作,在《Nature Human Behaviour》在线发表论文“Combined evidence from artificial neural networks and human brain-lesion models reveals that language modulates vision in human perception”。研究提出一个清晰的双重验证策略:在健康人群中以多数据集复现的“模型—大脑对齐”作为计算证据链,同时在脑卒中患者中利用结构连接受损作为“自然操纵”,检验切断视觉—语言通路后,VOTC 神经表征是否会发生系统性改变。
研究选取三类架构相同的视觉模型作为“语言参与程度”的计算代理:
CLIP 的视觉编码器:图像-文本对齐,句子描述中的标签与关系结构可通过多模态目标影响视觉表征;
ResNet:以离散类别标签训练的分类网络;
MoCo:仅依赖图像增强对比学习,不涉及语言。
随后,研究通过表征相似性分析(RSA)提取语言相关的“增量效应”,在 VOTC 内定义两类效应:
句子描述效应(sentence description effect):CLIPvision 与神经表征的偏相关,控制 ResNet 与 MoCo;
语言分类效应(verbal categorization effect):ResNet 与神经表征的偏相关,控制 MoCo。
在健康人群部分,研究在四套独立 fMRI 数据中重复检验上述效应,包含口语命名(OPN95, n=26)与手语命名(SPN95, n=32)、颜色知识判断(FV14, n=33),以及公开数据集 THINGS 的 Oddball 检测任务(n=3)。结果显示,四个数据集中均可观察到句子描述效应在 VOTC 的显著簇;其中,在样本量较大的三套自建数据中,该效应表现出群体水平上的显著左偏,与语言网络的典型偏侧化分布方向一致。值得注意的是,口语命名(听人)与手语命名(先天重度听障的手语使用者)之间,该效应无显著差异,提示其并不依赖听觉经验或语言输入模态本身。
为进一步约束机制解释并接近“因果链条”,研究在 33 名慢性脑卒中患者中开展结构连接分析:患者在完成与 FV14 相同的任务 fMRI 的同时采集 HARDI数据;研究者量化连接 VOTC 与语言网络关键节点之间白质纤维束的完整性,并在控制总病灶体积等协变量的前提下,检验结构完整性与模型—脑对应关系之间的关联。
核心结果表明:左侧 VOTC—左侧角回(AG)之间白质通路的完整性,直接决定了VOTC的表征模式。该通路完整性越高,VOTC 的表征越倾向于与 CLIPvision 的对应关系增强,同时与 MoCo 的对应关系减弱;当该通路受损(完整性下降)时,则出现 CLIPvision 对应减弱而 MoCo 对应增强的“此消彼长”模式。进一步的验证分析显示,右侧同源角回连接不呈现对应关系,支持“左侧语言网络特异性调节”,而非一般性多模态整合的解释。
这一发现提示,视觉表征并不总是处在单一的固化状态,而像是在纯视觉统计与语言关系结构之间动态取舍:左侧 AG 或许通过白质通路把语言的关系结构“注入”到 VOTC 的物体表征中;当通路受损,这种“注入”变弱,VOTC 的表征就更少受语言对齐结构牵引,而更趋向于纯视觉自监督机制所捕获的模式。
总而言之,该研究通过跨学科的创新视角,为“语言调节视觉”这一长期的理论争议提供了关键证据链。研究结果提示,语言对视觉的影响或许并非仅发生在晚期的注意与决策阶段,更通过特定的白质通路,重塑了腹侧枕颞皮层中的物体表征。该工作也展示了一种极具潜力的AI-Brain-Lesion范式:利用人脑损伤等真实“操纵”,反过来检验并约束类脑模型对神经表征的解释。正如 CLIP 模型因模拟了人类的语言环境而更像人脑,未来的 AI 模型研发或许能从这种病灶模型的验证中获得更多灵感,推动人工智能向更符合生物学规律的方向演进。
北京大学心理与认知科学学院博士生陈昊扬与山西医科大学第一医院刘擘博士为该论文的共同第一作者。北京大学毕彦超教授、朱毅鑫助理教授与山西医科大学第一医院王效春教授为本文的通讯作者。毕彦超实验室成员王晓莎与已毕业硕士生王抒悦对该论文做出了重要贡献。本课题得到了科技部科技创新2030-“脑科学与类脑研究”重大项目、国家自然科学基金委、中央高校基本科研专项资金和北大-并济联合实验室等机构的资助 。
2025-12-18