基于大语言模型的社交媒体人格推断：跨模型一致性、时间稳定性与自我报告效度验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Personality》：Inferring Personality From Social Media Activity Using Large Language Models: Cross-Model Agreement, Temporal Stability, and Convergent Validity With Self-Reports

【字体：大中小】 时间：2025年09月04日 来源：Journal of Personality 2.7

编辑推荐：

　　这篇研究探讨了利用大语言模型（LLM）从社交媒体活动（Facebook帖子）中推断大五人格特质（Big Five）的可靠性。研究通过对比Gemini 1.5 Pro和GPT-4o对1214名意大利用户两年数据的分析，发现模型对开放性（Openness）和外倾性（Extraversion）的预测与自我报告（TIPI量表）相关性最高（校正后ρ达0.31），而尽责性（Conscientiousness）和宜人性（Agreeableness）则被系统性低估。研究强调聚合多模型、多时间点数据可显著提升预测稳定性（重测相关最高达0.60），为LLM在心理测量领域的应用提供了方法学参考。

引言

预测心理特质从数字足迹中提取一直是心理信息学（Psychoinformatics）的核心目标。早期研究通过监督机器学习从Facebook点赞、状态更新等行为中提取人格信息，而大语言模型（LLM）的出现带来了范式变革。本研究首次系统评估了两种前沿LLM（Gemini 1.5 Pro和GPT-4o）在人格推断中的跨模型一致性、时间稳定性及其与自评量表（TIPI）的收敛效度。

方法与样本

研究纳入1214名意大利Facebook用户（74.4%女性，73.6%为18-25岁），通过API获取其24个月的帖子数据。人格基准采用十项人格量表（TIPI）测量，其内部一致性α值在0.32（宜人性）至0.70（外倾性）之间。LLM提示词包含三部分：大五特质定义、用户年度帖子数据、7点Likert评分指令，每条件重复10次（k=10）以评估稳定性。

关键发现

模型偏差与稳定性

Gemini 1.5 Pro表现出惊人的单次提示稳定性（ICC[2,1]≥0.896），而GPT-4o波动较大（ICC[2,1]最低0.641）。两模型均系统性低估宜人性（均值差达1.36分）和高估外倾性，但对神经质（Neuroticism）和开放性的推断与自评均值高度吻合。

时间与跨模型一致性

开放性表现出最强的跨年稳定性（组合模型ρ=0.60），其次是外倾性（ρ=0.57）。令人惊讶的是，不同LLM间的相关性（如外倾性ρ=0.83）甚至高于同一模型跨年的相关性，提示模型间共性可能反映真实的语言特征信号。

效度与预测力

组合多模型、多时间点数据时，与TIPI的校正后相关性最高达0.31（开放性）。预测误差分析显示，开放性推断准确度显著优于随机基线（R²=0.72），而尽责性仅略优于随机（R²=0.17）。

理论与应用价值

结果支持特质理论的稳定性假设——尤其是外倾性和开放性这类"可观察特质"在数字语言中持续显现。研究创新性地证实，聚合多模型推断可提升信度（组合模型ICC[2,k]≥0.947），这为开发新型人格评估工具提供了方法论框架。

局限与展望

2016-2018年的数据时效性可能影响模型表现，且样本以年轻高学历意大利人为主。未来研究应整合多平台数据，并测试开源模型（如LLaMA）以增强透明度。值得注意的是，隐私保护与伦理考量（如API数据暂存政策）仍需持续关注。

结语

这项研究为大语言模型在人格计算领域的应用树立了重要基准。尽管当前推断精度有限，但跨模型、跨时间的稳健模式表明，LLM有望成为传统心理测量的补充工具——特别是在捕捉外倾性、开放性等"数字表型"方面展现出独特优势。

联系信箱：

粤ICP备09063491号

热点排行