人工智能在预测个性项目之间的相关性方面可以胜过人类

【字体: 时间:2025年02月14日 来源:Communications Psychology

编辑推荐:

  专业的神经网络和一般的大型语言模型在预测个性问卷项目相关性方面优于个体人类,但专业模型和综合专家预测在大多数措施上达到最高的准确性。

  
伦敦政治经济学院(London School of Economics and Political Science)的 Philipp Schoenegger 等研究人员在《Communications Psychology》期刊上发表了题为 “AI can outperform humans in predicting correlations between personality items” 的论文。这篇论文在人工智能与心理学交叉领域意义重大,为深入理解人工智能在人格研究中的应用提供了关键依据,有助于推动心理测量学研究发展,也为人力资源、医疗保健和市场营销等应用领域提供了新的思路和方法。

研究概述


该研究聚焦于人工智能模型预测人格问卷项目之间相关性的能力,综合对比了专业深度神经网络(如 PersonalityMap)、通用大语言模型(LLMs,如 GPT-4o 和 Claude 3 Opus)与普通大众、学术专家的表现。研究发现,AI 模型在预测人格相关性方面普遍优于个体人类,但在聚合预测中,专家群体借助 “群体智慧” 能与专业 AI 模型相媲美,且专业模型 PersonalityMap 表现更为出色。

研究背景


现代人工智能虽与人类智能存在本质差异,却具备学习人类心理学的能力。其中,大语言模型(LLMs)凭借变压器架构(transformer architecture)的注意力机制(attention mechanism),在众多领域展现出强大性能,有时甚至超越人类专家。不过,在一些特定领域,专业的深度神经网络仍被广泛应用,它们常因针对特定目标训练、能利用高质量专有数据等优势而表现卓越。

在人格研究领域,此前较少有研究直接对比普通大众、专家和机器在预测心理测量项目关系方面的能力。虽然已有研究探索了基于书面访谈数据预测人格特质,以及利用微调嵌入模型预测调查项目相关性,但对于人工智能模型理解和预测人格问卷项目潜在关系的能力,仍缺乏深入探究。准确预测这些相关性对验证量表、测试假设以及深入了解人格特质结构至关重要,这也正是开展此项研究的重要原因。

研究方法


研究人员从五个不同来源收集数据。通过在线研究平台 Positly 招募普通大众,从心理学或相关学科的研究生、博士等学术专家处获取预测数据,同时向 GPT-4o 和 Claude 3 Opus 这两款前沿大语言模型进行查询,并采用由 Spark Wave 开发的专有深度神经网络 PersonalityMap 的预测结果。

测试数据集选取了来自 SAPA 人格量表(SAPA Personality Inventory)的 249 对人格心理学项目。为确保涵盖各种相关性类型,样本中三分之一的项目对实证相关性小于 - 0.2,三分之一在 - 0.2 到 0.2 之间,三分之一大于 0.2。

在样本量确定方面,研究人员进行了预先注册的样本量论证。根据单因素方差分析所需的效应量、检验效能和显著性水平,确定需要 245 个问题对,并招募至少 119 名参与者。考虑到可能的样本流失等因素,最终目标是招募 250 名普通参与者和 200 名专家参与者。实际招募中,普通参与者平均年龄 46.35 岁,专家参与者平均年龄 33.86 岁。

对于 PersonalityMap,它是一个监督训练模型,以一对心理测量人格项目作为输入,通过完全连接的深度神经网络生成相关性预测,并根据反向传播算法调整权重。训练时使用了 992,003 个项目对,51,336 个项目对作为测试集。

在与大语言模型交互时,研究人员使用了零样本(zero-shot)方法,通过各自的 API 向模型发送精心设计的提示(prompt)。提示设计借鉴了当前最佳实践,包括思维链(chain-of-thought)、逐步推理等技术,以提高模型的推理能力。同时,为减少模型输出的方差,对每个模型查询三次。

研究结果


  1. 个体比较:计算预测相关性与实证相关性之间的绝对预测误差,结果显示所有 AI 模型的平均预测误差均低于普通大众和学术专家的中位数。例如,GPT-4o 与学术专家相比,在预测误差排名中处于第 70.22 百分位(95% 置信区间 [60.66, 81.62]),PersonalityMap 相对于普通大众的排名则为第 100 百分位(95% 置信区间 [100, 100]),这表明所有 AI 模型在预测误差方面均显著优于大多数个体人类,从而拒绝原假设 1a。

进一步进行一对一比较,即判断 AI 模型在与每个人类参与者比较时,是否在超过一半的项目上具有更低的预测误差。结果发现,所有模型在与普通大众比较时胜率均超 90%;与专家比较时,GPT-4o 胜率为 69.85%,PersonalityMap 胜率高达 99.26%,所有模型均显著优于 50% 的基线水平,拒绝原假设 1b。这表明在个体层面,LLMs 和 PersonalityMap 在人格相关性预测能力上优于大多数专家。

  1. 聚合比较:在聚合比较中,研究人员计算了每个项目对的代表性预测的相关变量,以衡量预测准确性。对于 LLMs,取每个项目三次预测的中位数作为代表性预测;PersonalityMap 则取其单一预测;对于人类参与者,计算每个项目预测的中位数(去除缺失值)。

在预测误差方面,由于数据不满足正态性和方差齐性假设,采用 Kruskal-Wallis H 检验,结果显示不同条件之间存在显著差异,拒绝原假设 2a。进一步的 Dunn 事后检验发现,Claude 3 Opus 优于 GPT-4o 和普通大众,但不如 PersonalityMap;PersonalityMap 与专家样本无显著差异,但优于其他所有条件;GPT-4o 与普通大众无显著差异,但显著不如其他条件。

预测相关性分析中,通过 Fisher's Z 变换对相关性进行标准化并计算 95% 置信区间,发现不同条件之间存在差异,拒绝原假设 2b。其中,PersonalityMap 在预测相关性上优于 GPT-4o 和 Claude 3 Opus,人类样本的相关性高于这两款 LLMs。值得注意的是,在该分析中,普通大众的预测表现优于 LLMs,这可能是由于聚合效应,但也不完全是,因为在聚合预测误差分析中 LLMs 表现更好。研究人员推测,LLMs 在预测相关性方面较弱可能是因为人类在判断关系的相对强度和方向上更具优势,而 LLMs 在预测相关性大小方面表现更好。

在桶化预测误差(bucketised prediction error)分析中,将预测分为小于 - 0.1、-0.1 到 0.1、大于 0.1 三个区间,进行卡方独立性检验,结果未发现不同条件之间存在显著差异,无法拒绝原假设 2c。这表明像 PersonalityMap 这样的系统在预测相关性大小时具有优势,而不仅仅是判断相关性的正负或接近零。

  1. 额外分析:研究人员增加了一个专业机器学习模型 SurveyBot3000 进行比较。结果发现,它在个体比较中超过了人类专家,在聚合分析中与专家无显著差异。但由于它是在研究使用的测试集上训练的,数据存在污染,其性能可能受到记忆而非泛化能力的影响,因此与其他模型的直接比较存在局限性。

此外,研究人员还对 GPT-4o 在高温(温度为 1)下进行了 30 次运行的额外条件测试。结果发现,在大多数预注册比较中,高温版本的 GPT-4o 与低温(温度为 0)下 3 次运行的版本表现相当。但在聚合分析中,高温多运行版本在预测相关性方面与 PersonalityMap 无显著差异,而低温版本则显著较差。同时,通过计算组内相关系数(ICC)发现,虽然高温下单个运行的预测变异性更大,但多次运行的聚合预测可靠性更高,甚至超过了低温少运行的情况。

研究结论与讨论


总体而言,当前 AI 模型在预测人格问卷项目相关性方面,表现与人类专家相当,甚至更优。在个体层面,AI 模型远超大多数普通大众和学术专家;在聚合层面,专家群体聚合预测能与专业 AI 模型相抗衡,且超过 LLMs,体现了 “群体智慧” 的作用。不过,获取专家样本成本高昂,而机器学习模型则更具成本效益和便捷性。

在不同预测指标上,各方法表现出不同的优势和劣势。例如,普通大众在相关性和桶化预测方面相对 LLMs 表现更好,可能是因为他们在判断特定相关性的相对强度和方向上有一定直觉,而 LLMs 在预测相关性典型大小方面更具优势。

这项研究为社会科学研究带来了新的可能。AI 系统可作为 “数字试管”,帮助研究人员快速生成和测试假设,加速研究进程。但 AI 系统在人格研究中也存在局限性,如只能研究相关性而非因果关系,对训练数据外的陈述预测准确性可能下降,且目前仅能处理线性关系。

研究还存在一些潜在限制。研究使用的数据可能是 LLMs 训练数据的一部分,这可能高估了它们的预测能力;测试数据来源单一,样本具有局限性,可能影响研究结果的普遍性;未对人类参与者的准确性进行激励,可能影响其表现;预测问题的随机分配可能导致数据差异,但已在统计中进行了考虑。

尽管如此,该研究为人格研究中人工智能的应用提供了重要参考,为未来研究指明了方向,有望推动该领域进一步发展,在实际应用中也具有广阔的潜在价值,如助力心理测量研究、优化人力资源评估、改善医疗诊断和提升市场营销效果等。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号