大语言模型在情绪智力测试中的表现与生成能力研究

【字体: 时间:2025年05月22日 来源:Communications Psychology

编辑推荐:

  为探究大语言模型(LLMs)的情绪智力能力,研究人员开展其解决及生成基于表现的情绪智力测试研究。发现 ChatGPT - 4 等 LLMs 在五项测试中平均准确率达 81%,远超人类的 56%,且生成测试与原测试难度相当,为情感计算和 AI 应用提供新方向。

  
在人工智能快速发展的当下,情感交互成为智能领域的关键挑战。人类的情绪智力(EI)作为社交纽带的核心,在医疗、教育、职场等场景至关重要。然而,现有情感 AI 应用多局限于特定场景,缺乏对个体情绪的动态理解与适应。如何将情绪识别、生成与应用整合,构建通用情感 AI 系统,成为领域亟待突破的瓶颈。

来自瑞士伯尔尼大学心理学研究所、捷克科学院心理学研究所及日内瓦大学瑞士情感科学中心的研究人员,针对大语言模型(LLMs)是否具备情绪智力展开深入研究。相关成果发表于《Communications Psychology》,为 AI 的情感化发展提供了重要依据。

研究主要采用了情境测试法和心理测量技术。研究人员选取五项经典的能力情绪智力测试,包括情境情绪管理测试(STEM)、情境情绪理解测试(STEU)、日内瓦情绪知识混合测试(GEMOK - Blends)、日内瓦职场情绪能力测试(GECo)的情绪调节和管理子测试。通过让 ChatGPT - 4、Gemini 1.5 flash 等六种 LLMs 完成这些测试,并与人类表现对比。同时,利用 ChatGPT - 4 生成新测试项目,招募 467 名人类参与者(来自英美,通过 Prolific 平台招募),对比原测试与生成测试的心理测量属性,包括难度、清晰度、内部一致性等。

大语言模型在情绪智力测试中的表现


六种 LLMs 在五项测试中平均准确率达 81%,显著高于人类验证样本的 56%(如 ChatGPT - o1 和 DeepSeek V3 超出人类均值两个标准差)。各 LLM 在不同测试中表现一致,且与人类得分的相关系数为 0.46,表明其能有效利用题目线索推理情绪问题。

大语言模型生成情绪智力测试的能力


ChatGPT - 4 生成的测试与原测试难度统计等效,但在清晰度、现实性等方面存在细微差异。生成测试的内容多样性略低(参与者分类场景时使用更少类别),内部一致性部分测试更高(如 GECo Regulation 子测试)。原测试与生成测试的整体相关系数为 0.46,表明二者测量相似构念。此外,生成测试与词汇测试、其他情绪智力测试的相关性与原测试接近,但置信区间略宽。

研究结论与意义


研究表明,LLMs 在情绪智力任务中表现显著优于人类,且能生成具有合理心理测量属性的测试项目。这意味着 LLMs 具备认知共情能力,其响应符合情绪及其调节的准确推理,为开发情感智能 AI(如医疗聊天机器人、职场情绪管理工具)奠定基础。

尽管存在文化局限性(测试基于西方情境)、黑箱机制等问题,该研究首次系统验证了 LLMs 在情绪智力领域的潜力。其成果不仅为情感计算与 AI 的整合提供了新范式,也提示未来可利用 LLMs 优化心理测评工具开发流程,减少传统测试构建的人力成本。随着模型迭代,LLMs 有望在跨文化情感交互、动态情绪调节等场景发挥更大作用,推动人工通用智能(AGI)的情感化发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号