
-
生物通官微
陪你抓住生命科技
跳动的脉搏
语言统计中的色彩认知:盲人与视力正常者如何通过语言习得颜色-形容词关联
【字体: 大 中 小 】 时间:2025年04月15日 来源:Communications Psychology
编辑推荐:
本期推荐研究揭示语言如何传递视觉知识:通过分析COCA-fiction语料库的词嵌入模型,研究者发现盲人与视力正常者的颜色-形容词关联(如红色-热)主要源于语言中的二阶共现关系(second-order co-occurrences),而非直接共现。该成果发表于《Communications Psychology》,为理解语言在跨感知经验的知识对齐中的作用提供了新证据。
颜色是我们感知世界的重要维度,但盲人如何理解颜色?传统观点认为,缺乏视觉经验的人无法真正掌握颜色语义,正如洛克笔下“盲人无法理解猩红”的著名比喻。然而近年研究发现,先天盲人对颜色的认知与视力正常者高度相似——他们能区分颜色词的相似性,判断物体的典型颜色,甚至建立颜色与抽象形容词的关联(如红色代表“热”)。这种一致性从何而来?语言可能是关键桥梁。
为探索这一问题,美国威斯康星大学麦迪逊分校的Qiawen Liu、Jeroen van Paridon和Gary Lupyan团队开展了一项创新研究。他们通过分析大规模语言数据,揭示颜色-形容词关联如何通过语言统计结构传递给盲人。研究发现,简单词嵌入模型(如fastText)能预测盲人和视力正常者的颜色关联评分,且效果最佳的语料库是COCA-fiction(美国当代英语语料库小说部分),其表现甚至超越GPT-4。通过语料库增强实验,团队发现这些关联主要依赖“中介词”(如“雪”连接“白色”与“冷”)的二阶共现关系,而非颜色与形容词的直接共现。该成果发表于《Communications Psychology》,挑战了视觉经验必要性的传统假设,为语言如何传递跨模态知识提供了机制性解释。
研究采用四项实验逐步推进:1)重新分析Saysani等人2021年的语义差异任务数据,验证词嵌入模型对盲人和视力正常者评分的预测力;2)比较不同语料库(如COCA各子集、OpenSubtitles)生成的词嵌入预测效果;3)通过语料库增强(移除特定共现类型)识别关键语言信号;4)追踪训练过程中对颜色-形容词关联最具影响力的句子。关键技术包括:基于fastText skipgram算法的300维词嵌入训练、语义投影法(semantic projection)量化颜色词在形容词轴上的位置、GPT-4的提示工程(prompt engineering)对比,以及针对COCA-fiction语料库的句子级影响力分析。
结果1:词嵌入预测人类颜色关联
使用OpenSubtitles语料库训练的模型能显著预测视力正常者(效应量0.6)和盲人(0.21)的评分。有趣的是,视力正常者对“视觉经验主导”关联(如黑色-脏)的评分更强,而盲人对“语言主导”关联(如绿色-嫉妒)评分更高,暗示学习路径差异。
结果2:小说语料库表现最佳
COCA-fiction的词嵌入预测力最强(视力正常者效应量0.57,盲人0.36),优于体量更大的Common Crawl(6000亿词)和GPT-4的直接评分。研究者推测,小说中丰富的隐喻(如“气得脸红”)和完整句式可能更有效传递颜色语义。
结果3:中介词是关键桥梁
移除含中介词(如“香蕉”连接“黄色”与“成熟”)的句子使模型预测力骤降(效应量从0.57降至0.12),而移除直接共现句子几乎无影响。仅242个高频中介词(如雪、冰、香蕉)即可解释大部分关联,显示语言通过具体概念间接链接颜色与抽象属性。
结果4:训练句子的影响力模式
对颜色-形容词关联贡献最大的训练句子中,形容词出现频率(中位数611次)高于颜色词(418次),且极少同时包含两者,印证二阶共现的主导作用。例如,“冷”与“蓝”的关联主要通过含“冷”或“蓝”(而非两者)的句子建立。
这项研究揭示了语言统计结构在跨感知经验知识传递中的核心作用。盲人通过语言中的高阶共现关系——尤其是中介词构建的语义网络——习得与视力正常者相似的颜色关联。这一发现不仅解释了语义对齐的认知机制,也为语言模型的语义学习提供了新见解:即使缺乏感知基础,分布式统计模式足以编码丰富的世界知识。研究同时指出,小说作为语言载体在传递跨模态知识上具有独特优势,这可能与其叙事性和隐喻密度有关。
局限在于部分语义维度预测力较低,且中介词仅来自视力正常者。未来研究可探索盲人特有的语言学习路径。总体而言,该成果为理解语言如何弥补感知缺失、构建共享语义空间提供了重要证据,对教育、无障碍技术及人工智能的跨模态学习具有启示意义。
生物通微信公众号
知名企业招聘