大型语言模型能否像人类一样表现出认知和情感共情？

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers in Human Behavior: Artificial Humans》：Can Large Language Models Exhibit Cognitive and Affective Empathy as Humans?

【字体：大中小】 时间：2025年11月16日 来源：Computers in Human Behavior: Artificial Humans

编辑推荐：

　　共情能力评估、大型语言模型、认知与情感维度、标准化问卷、GPT-4、Llama3、人机交互优化、结构效度验证、问卷调查法、共情差距分析

　　在当前的研究中，我们探讨了大型语言模型（LLMs）是否能够像人类一样在认知和情感维度上展现出共情能力。这项研究通过标准化问卷，对GPT-4和Llama3等模型的共情能力进行了系统评估。研究采用了四个主要实验，使用了人际反应指数（IRI）和基本共情量表（BES）作为评估工具，旨在揭示LLMs在模拟人类共情能力方面的表现。实验结果表明，尽管GPT-4在共情结构上与人类相似，但在实际能力上仍显著低于人类；而Llama3则未能表现出与人类相同的共情维度，显示出其在共情模拟方面的局限性。

研究中，我们设计了一种新的评估范式，通过使用标准化问卷来评估LLMs的共情能力。这种范式包括三个主要步骤：首先，通过角色提示使LLMs扮演不同的身份；其次，进行探索性因子分析（EFA）和可靠性测试，以确定问卷是否适用于评估LLMs的共情能力；最后，将LLMs的共情能力与人类进行比较。在这些步骤中，我们发现，问卷在LLMs中的结构效度和可靠性与人类相比存在差异，表明当前LLMs在共情能力上仍然存在不足。

此外，研究还发现，LLMs的共情能力可能受到多种因素的影响，包括训练数据的特性和模型的架构设计。例如，虽然GPT-4在认知共情方面表现出一定的能力，但其在情感共情方面则明显不足。这可能是由于LLMs缺乏真实的共情体验和意识，导致其无法像人类那样对他人的情感做出真正的反应。相比之下，Llama3在结构效度上未能达到与人类一致的水平，显示出其在共情能力上的更大局限性。

研究中还探讨了如何通过不同的提示策略来提高LLMs的共情表现。例如，通过使用描述大五人格特质的提示，可以生成更多样化的共情表现，使得LLMs的模拟结果更接近人类的共情行为。然而，即使在这些努力下，LLMs仍然未能达到人类的共情水平，这表明在共情模拟方面仍需进一步的研究和改进。

本研究的发现对未来的LLMs应用具有重要意义。共情能力是人机交互中的关键指标，尤其是在心理健康、健康老龄化和医疗等领域。尽管LLMs在某些特定场景中可能表现出较高的共情能力，但在总体上仍存在显著差距。因此，未来的研究需要更加注重LLMs的共情能力提升，特别是在情感共情方面。同时，还需要开发新的评估工具和方法，以更准确地衡量LLMs的共情表现，避免因特定场景的评估而导致的偏差。

总之，这项研究揭示了当前LLMs在共情能力上的局限性，并提出了进一步研究的方向。未来的研究可以探索更多样化的评估方法，包括动态评估和基于心理理论的提示策略，以更全面地理解和提升LLMs的共情能力。这些努力将有助于推动LLMs在人机交互中的应用，使其更加贴近人类的情感体验，从而更好地服务于社会科学研究和实际应用。

联系信箱：

粤ICP备09063491号

热点排行