
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的社交媒体人格推断:跨模型一致性、时间稳定性与自我报告效度验证
《Journal of Personality》:Inferring Personality From Social Media Activity Using Large Language Models: Cross-Model Agreement, Temporal Stability, and Convergent Validity With Self-Reports
【字体: 大 中 小 】 时间:2025年09月04日 来源:Journal of Personality 2.7
编辑推荐:
这篇研究探讨了利用大语言模型(LLM)从社交媒体活动(Facebook帖子)中推断大五人格特质(Big Five)的可靠性。研究通过对比Gemini 1.5 Pro和GPT-4o对1214名意大利用户两年数据的分析,发现模型对开放性(Openness)和外倾性(Extraversion)的预测与自我报告(TIPI量表)相关性最高(校正后ρ达0.31),而尽责性(Conscientiousness)和宜人性(Agreeableness)则被系统性低估。研究强调聚合多模型、多时间点数据可显著提升预测稳定性(重测相关最高达0.60),为LLM在心理测量领域的应用提供了方法学参考。
引言
预测心理特质从数字足迹中提取一直是心理信息学(Psychoinformatics)的核心目标。早期研究通过监督机器学习从Facebook点赞、状态更新等行为中提取人格信息,而大语言模型(LLM)的出现带来了范式变革。本研究首次系统评估了两种前沿LLM(Gemini 1.5 Pro和GPT-4o)在人格推断中的跨模型一致性、时间稳定性及其与自评量表(TIPI)的收敛效度。
方法与样本
研究纳入1214名意大利Facebook用户(74.4%女性,73.6%为18-25岁),通过API获取其24个月的帖子数据。人格基准采用十项人格量表(TIPI)测量,其内部一致性α值在0.32(宜人性)至0.70(外倾性)之间。LLM提示词包含三部分:大五特质定义、用户年度帖子数据、7点Likert评分指令,每条件重复10次(k=10)以评估稳定性。
关键发现
模型偏差与稳定性
Gemini 1.5 Pro表现出惊人的单次提示稳定性(ICC[2,1]≥0.896),而GPT-4o波动较大(ICC[2,1]最低0.641)。两模型均系统性低估宜人性(均值差达1.36分)和高估外倾性,但对神经质(Neuroticism)和开放性的推断与自评均值高度吻合。
时间与跨模型一致性
开放性表现出最强的跨年稳定性(组合模型ρ=0.60),其次是外倾性(ρ=0.57)。令人惊讶的是,不同LLM间的相关性(如外倾性ρ=0.83)甚至高于同一模型跨年的相关性,提示模型间共性可能反映真实的语言特征信号。
效度与预测力
组合多模型、多时间点数据时,与TIPI的校正后相关性最高达0.31(开放性)。预测误差分析显示,开放性推断准确度显著优于随机基线(R2=0.72),而尽责性仅略优于随机(R2=0.17)。
理论与应用价值
结果支持特质理论的稳定性假设——尤其是外倾性和开放性这类"可观察特质"在数字语言中持续显现。研究创新性地证实,聚合多模型推断可提升信度(组合模型ICC[2,k]≥0.947),这为开发新型人格评估工具提供了方法论框架。
局限与展望
2016-2018年的数据时效性可能影响模型表现,且样本以年轻高学历意大利人为主。未来研究应整合多平台数据,并测试开源模型(如LLaMA)以增强透明度。值得注意的是,隐私保护与伦理考量(如API数据暂存政策)仍需持续关注。
结语
这项研究为大语言模型在人格计算领域的应用树立了重要基准。尽管当前推断精度有限,但跨模型、跨时间的稳健模式表明,LLM有望成为传统心理测量的补充工具——特别是在捕捉外倾性、开放性等"数字表型"方面展现出独特优势。
生物通微信公众号