大型语言模型能否像人类一样表现出认知和情感共情?

《Computers in Human Behavior: Artificial Humans》:Can Large Language Models Exhibit Cognitive and Affective Empathy as Humans?

【字体: 时间:2025年11月16日 来源:Computers in Human Behavior: Artificial Humans

编辑推荐:

  共情能力评估、大型语言模型、认知与情感维度、标准化问卷、GPT-4、Llama3、人机交互优化、结构效度验证、问卷调查法、共情差距分析

  在当前的研究中,我们探讨了大型语言模型(LLMs)是否能够像人类一样在认知和情感维度上展现出共情能力。这项研究通过标准化问卷,对GPT-4和Llama3等模型的共情能力进行了系统评估。研究采用了四个主要实验,使用了人际反应指数(IRI)和基本共情量表(BES)作为评估工具,旨在揭示LLMs在模拟人类共情能力方面的表现。实验结果表明,尽管GPT-4在共情结构上与人类相似,但在实际能力上仍显著低于人类;而Llama3则未能表现出与人类相同的共情维度,显示出其在共情模拟方面的局限性。

研究中,我们设计了一种新的评估范式,通过使用标准化问卷来评估LLMs的共情能力。这种范式包括三个主要步骤:首先,通过角色提示使LLMs扮演不同的身份;其次,进行探索性因子分析(EFA)和可靠性测试,以确定问卷是否适用于评估LLMs的共情能力;最后,将LLMs的共情能力与人类进行比较。在这些步骤中,我们发现,问卷在LLMs中的结构效度和可靠性与人类相比存在差异,表明当前LLMs在共情能力上仍然存在不足。

此外,研究还发现,LLMs的共情能力可能受到多种因素的影响,包括训练数据的特性和模型的架构设计。例如,虽然GPT-4在认知共情方面表现出一定的能力,但其在情感共情方面则明显不足。这可能是由于LLMs缺乏真实的共情体验和意识,导致其无法像人类那样对他人的情感做出真正的反应。相比之下,Llama3在结构效度上未能达到与人类一致的水平,显示出其在共情能力上的更大局限性。

研究中还探讨了如何通过不同的提示策略来提高LLMs的共情表现。例如,通过使用描述大五人格特质的提示,可以生成更多样化的共情表现,使得LLMs的模拟结果更接近人类的共情行为。然而,即使在这些努力下,LLMs仍然未能达到人类的共情水平,这表明在共情模拟方面仍需进一步的研究和改进。

本研究的发现对未来的LLMs应用具有重要意义。共情能力是人机交互中的关键指标,尤其是在心理健康、健康老龄化和医疗等领域。尽管LLMs在某些特定场景中可能表现出较高的共情能力,但在总体上仍存在显著差距。因此,未来的研究需要更加注重LLMs的共情能力提升,特别是在情感共情方面。同时,还需要开发新的评估工具和方法,以更准确地衡量LLMs的共情表现,避免因特定场景的评估而导致的偏差。

总之,这项研究揭示了当前LLMs在共情能力上的局限性,并提出了进一步研究的方向。未来的研究可以探索更多样化的评估方法,包括动态评估和基于心理理论的提示策略,以更全面地理解和提升LLMs的共情能力。这些努力将有助于推动LLMs在人机交互中的应用,使其更加贴近人类的情感体验,从而更好地服务于社会科学研究和实际应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号