大型语言模型中的象似性编码:生成与感知人工语言的能力研究

《Digital Scholarship in the Humanities》:Iconicity in large language models

【字体: 时间:2025年09月19日 来源:Digital Scholarship in the Humanities

编辑推荐:

  本研究针对大型语言模型(LLM)能否处理语言象似性(iconicity)这一核心问题,通过让GPT-4生成高象似性人工语言伪词,并分别由人类参与者(捷克语和德语母语者,n=672)和LLM参与者(GPT-4和Claude 3.5 Sonnet)猜测词义。结果表明,人类对生成伪词的猜测准确率显著高于对遥远自然语言的猜测,而LLM参与者表现更优。研究证实LLM能够编码并利用象似性,揭示了其处理语言形式与意义关联的强大能力,对理解LLM的语言习得机制具有重要意义。

  
在语言学研究领域,词汇象似性(iconicity)一直是个引人入胜的话题。它描述的是词语形式与意义之间的直接关联,最典型的例子就是拟声词。然而,自从索绪尔提出语言符号的任意性原理后,象似性在20世纪语言学界被边缘化了很长时间。不过,随着认知科学的发展,研究者们重新认识到象似性在语言习得和人类认知中的重要作用。
那么,一个有趣的问题产生了:缺乏人类身体体验的大型语言模型(LLM)能否理解和处理这种形式与意义的直接关联呢?毕竟,这些模型对语义的获取是通过文本上下文,对语音的感知则是通过书面表征,再加上分词(tokenization)处理的进一步复杂化,理论上LLM对象似性的编码可能不足或与人类处理方式迥异。
这项发表在《Digital Scholarship in the Humanities》的研究正是为了解答这一疑问。研究人员设计了一个精巧的两阶段实验,首先测试GPT-4能否生成具有高象似性的伪词,然后检验人类和LLM是否能正确解读这些伪词的含义。
为了开展这项研究,研究人员采用了多种关键技术方法。他们使用GPT-4生成人工语言伪词,通过精心设计的提示词确保生成的词汇具有象似性特征;采用跨语言比较设计,涉及捷克语和德语两种语言环境;利用强迫选择匹配任务评估人类和LLM参与者的词义猜测准确率;通过混合逻辑回归模型分析影响猜测准确性的多种因素,包括语音相似性、词长一致性等;还对LLM的决策理由进行质性分析,探讨其推理策略。人类参与者样本来自捷克和德国,共计672人完成实验。
正确率概览
研究结果显示,人类参与者对LLM生成的人工语言的猜测准确率显著高于对自然语言的猜测。具体而言,捷克参与者对捷克提示伪词的准确率达到66.7%,德国参与者对德国提示伪词的准确率为72.5%,均高于对土耳其语、日语和印地语等自然语言的猜测准确率(57.3%-60.9%)。
更令人惊讶的是,LLM参与者的表现优于人类。GPT-4对捷克提示伪词的准确率为75.1%,Claude 3.5 Sonnet达到77.5%;对德国提示伪词的准确率分别达到80.3%和82.2%。这表明LLM不仅能够生成象似性词汇,还能更有效地解读这种象似性关系。
逻辑回归分析
通过混合逻辑回归模型,研究人员发现影响猜测准确性的关键因素包括词长一致性(length agreement)、编辑语音相似性(edit phonological similarity)和向量语音相似性(vector phonological similarity)。这些因素对人类和LLM参与者都产生显著影响,说明LLM在猜测词义时使用了与人类相似的策略。
值得注意的是,语义距离(semantic distance)和词性不匹配(part of speech mismatch)等因素的影响模式不一致,而人口统计学变量(性别和年龄)在所有数据集中均无显著影响。
LLM决策理由分析
对LLM参与者决策理由的质性分析揭示了四种主要论证类别:词长、直觉、词素和音素分解、单词简单性或复杂性。GPT-4在生成伪词和猜测词义时使用了不同的推理策略,生成过程更注重组合性,而猜测过程更依赖直觉性描述。
Claude 3.5 Sonnet在猜测过程中更频繁地使用音素和词素层面的论证,其推理方式更接近GPT-4的生成策略而非猜测策略,这可能解释了其稍高的准确率。
词汇层面比较
通过词汇层面的相关性分析,研究人员发现LLM参与者之间的判断高度相关(相关系数69%-73%),而人类参与者之间的相关性较低(46%-55%)。人类与LLM参与者的相关性呈现变异性,表明LLM可能使用了某些人类无法利用的线索。
语言特异性与普遍性
研究还探讨了LLM生成的象似性是否具有语言特异性。结果显示,捷克提示伪词被捷克和德国参与者猜测的准确率相当,德国提示伪词被德国参与者猜测的准确率仅略高于捷克参与者。这表明LLM可能依赖某种普遍性象似特征,而非特定于提示语言的模式。
本研究通过实证证据表明,大型语言模型能够编码语言象似性,尽管其对语义和语音的获取都是间接的。LLM训练过程从训练数据中提取了关于象似性和非任意性的元语言信息,使其能够生成高度象似的人工语言词汇,并能有效解读这些词汇的含义。
这一发现对理解LLM的语言处理机制具有重要意义。它表明LLM不仅学习词汇的任意性关联,还能捕捉形式与意义之间的象似性关系。这种能力可能源于训练数据中丰富的语言现象描述,以及LLM对分布模式的高度敏感性。
研究的实际应用价值在于为语言学研究提供了新的工具和方法。利用LLM生成具有特定象似性特征的伪词,可以更精确地控制实验材料,促进对语言象似性的深入研究。
然而,研究也留下了一些待解答的问题。例如,LLM能否在没有明确提示的情况下自发产生符合自然语言象似性规律的词汇?不同架构和训练数据的LLM在象似性处理方面是否存在系统性差异?这些问题为未来研究提供了有前景的方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号