对话中惊讶感与韵律突出性之间的关系反映了以理解性为导向的压力
《Cognitive Science》:The Relationship Between Surprisal and Prosodic Prominence in Conversation Reflects Intelligibility-Oriented Pressures
【字体:
大
中
小
】
时间:2025年10月28日
来源:Cognitive Science 2.4
编辑推荐:
本研究利用CANDOR自然对话语料库和GPT-2语言模型,探讨词汇可预测性(surprisal)与发音特征及听众反馈的关系。结果表明,surprisal高的词汇在持续时间、最大音调和音调范围上显著更突出,且听众回声信号与说话者surprisal值存在时间锁定关系,支持信息可理解性理论,即发音调整旨在提升沟通效果而非单纯由词汇检索困难驱动。
在人类交流过程中,对话是一种复杂的、多模态的信息交换活动,涉及语言、语气、手势、眼神交流以及反馈性短语等多种交流形式。理解这些不同信息通道如何在自然对话场景中相互作用,对于揭示人类沟通机制至关重要。以往的研究表明,词的可预测性与发音时长之间存在联系,但尚未明确这种关系是源自说话者自身的表达倾向,还是为了提高听众的理解而产生的压力。本研究旨在探讨可预测性与额外的声学变量之间的关系,以测试交流过程中是否受到以听众为导向的可理解性原则的影响。我们利用GPT-2大型语言模型来评估意外性(即不可预测性)与几种已知在对话中起重要作用的声学特征之间的关系,包括发音时长、音量和音调等。分析基于CANDOR语料库,该语料库包含英语中陌生人之间的自然视频通话对话。
研究发现,GPT-2模型中的意外性预测了发音时长的显著增加。此外,意外性还预测了最大音调和音调范围,即使在控制了发音时长的情况下也是如此,而意外性对音量的影响则存在混合证据。同时,我们还研究了听众的反馈性短语(如“yeah”或“mhm”)并发现,这些反馈性短语往往伴随着说话者的词的意外性增加。这一发现表明,听众的反馈性短语可能用于回应那些较为意外或信息量大的词,这有助于促进对话的流畅性与理解。最后,我们还展示了上下文窗口大小对模型拟合的影响,特别是在最大音调和其它变量之间的差异。这些结果支持了以听众为导向的可理解性解释,表明语言表达受到成功交流的压力,而不仅仅是说话者的表达倾向。
本研究通过分析自然对话中的词的可预测性与声学特征之间的关系,进一步支持了以听众为导向的可理解性理论。这一理论认为,语言生产不仅是为了表达自己的意图,还考虑到了听众的理解需求。在对话中,说话者可能会调整他们的语气,以强调那些可能难以预测的词,从而提高信息的可理解性。研究还指出,听众的反馈性短语可能也具有促进交流的功能,通过引导说话者引入新的信息或开启新的语义单元。
然而,本研究也存在一些局限性。首先,研究结果依赖于语言模型在上下文中对词的概率分配是否与人类预测一致。虽然GPT-2模型已被证明与人类处理难度测量高度相关,但所有语言模型都受到其训练数据分布的影响,这可能导致对某些话题的预测偏差。其次,CANDOR语料库的音频质量因在线招募而可能受到限制,这可能影响某些声学特征的准确性。此外,自动转录的准确性可能影响研究结果的可靠性,但通过后验评估,我们发现自动转录的错误率与人类之间的平均错误率相当,因此认为这些错误不会对研究结果造成系统性偏差。
综上所述,本研究的发现表明,说话者在对话中可能会调整他们的语气,以提高信息的可理解性,而不仅仅是根据自身表达的难易程度。这为理解人类交流的复杂性提供了新的视角,并为未来的研究提供了重要的基础。此外,研究还指出,听众的反馈性短语可能在促进信息交流中发挥重要作用,这为进一步探讨对话中的多模态互动提供了新的思路。研究结果不仅支持了以听众为导向的可理解性理论,还揭示了在不同语言和不同交流环境中,这种理论可能具有不同的表现形式。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号