大型语言模型作为人类精神病理学实验系统：一项建模研究

《The Lancet Digital Health》：Large language models as experimental systems in human psychopathology: a modelling study

【字体：大中小】 时间：2026年06月12日 来源：The Lancet Digital Health 24.1

编辑推荐：

　　背景：尽管生物医学研究取得进展，人类精神病理学仍缺乏充分的实验模型系统，限制了治疗创新，亟需替代方法研究心理健康状况的潜在机制。目的：研究人员旨在评估大型语言模型（Large Language Model, LLM）能否作为实验系统来模拟与人类精神病理学相关的

背景：尽管生物医学研究取得进展，人类精神病理学仍缺乏充分的实验模型系统，限制了治疗创新，亟需替代方法研究心理健康状况的潜在机制。目的：研究人员旨在评估大型语言模型（Large Language Model, LLM）能否作为实验系统来模拟与人类精神病理学相关的情感过程。方法：使用标准心理学诱导范式（包括意象短文），研究人员测试了能否在6个前沿LLM（含GPT?4o及多个Llama变体）中系统诱导7种情感状态（恐惧、焦虑、愤怒、厌恶、悲伤、担忧、压力），并使用调节策略进行逆转。每种情感状态设有独立提示序列，另设无情感刺激的中性对照条件。除压力采用与特里尔社会压力测试（Trier Social Stress Test, TSST）一致的交互式动态提示外，其余情感状态均按人类研究惯例采用静态短文协议。研究人员间歇性地要求LLM通过视觉模拟量表（0–100，焦虑采用状态?特质焦虑量表状态版 State?Trait Anxiety Inventory?State version, STAI?S）自评当前情感状态。除压力采用标准化汇报程序外，其余条件采用正念放松技术下调诱导出的情感状态。每种条件重复5次独立运行以保证可靠性。悲伤诱导后采用句子补全测验检测认知偏差，由3名独立人类评定者评价情绪效价，计算评分者间信度（Cohen's κ）与负性得分，并用t检验（Cohen's d）比较条件差异。结果：在所有情感状态及5次运行中，GPT?4o的情感评分均值较基线升高52.83分（201.20%），下调提示使评分降低48.23分（60.98%）。该模式在其余5个开源权重LLM中得到广泛复现，除压力外（p＝0.063）所有情感状态的模型间差异均有统计学意义（p值介于0.045至＜0.0001）。GPT?4o与Llama 4 Maverick效应最强，Llama 4 Scout反应最弱，表明模型架构与规模影响情感诱导敏感性。认知偏差检测中，悲伤提示使GPT?4o产生的句子补全较中性提示呈现一致负性偏差（均值15.00[SD 4.26] vs 8.67[2.66]；Cohen's d＝1.87）。解读：研究结果表明LLM可作为模拟人类精神病理学相关情感过程的有前景工具。通过再现关键心理现象，LLM有望用于实验探究精神障碍的机制，并辅助新型治疗干预措施的初步筛选，可能加速一个长期受有效模型系统匮乏制约的领域取得进展。

2026年发表于《The Lancet Digital Health》的此项研究，针对人类精神病理学长期缺乏能捕捉语言、内省及推理等复杂认知?情感过程的实验模型这一瓶颈，提出以前沿大语言模型（Large Language Model, LLM）作为"硅基（in?silico）"实验系统来模拟精神病理学相关的情感加工。传统动物模型无法充分表征人类心理体验中的认知?语言维度，而LLM经大规模语料训练后可近似部分人类认知与情感理解能力，且允许在无伦理约束下开展高度可控、可重复、可重置的实验操作。研究人员假设LLM可在提示范式下表现出与人类相似的情感状态上调（诱导）、下调（调节）及伴随的认知偏差，从而成为精神病理机制探索与心理干预预筛选的计算平台。研究通过对六种LLM（GPT?4o及Llama 3.3 70B、Llama 3.1 8B、Llama 4 Scout、Llama 4 Maverick、Qwen 2.5 VL 72B）系统施加七种经典心理学情感诱导与调节流程，发现LLM的自评情感评分可被显著上调并可经标准化心理干预有效下调，且在悲伤诱导后出现类人的负性解释偏差，不同架构和参数量的LLM在情感敏感性上存在差异。该研究表明LLM有潜力作为可扩展的高通量精神病理学计算模型，与生物及临床研究方法互补，加速心理治疗新策略的开发与优化。

主要关键技术方法

研究人员选取GPT?4o（gpt?4o?2024?08?06，温度0.5，云端API）与5个本地部署的开源权重LLM——Llama 3.3 70B、Llama 3.1 8B、Llama 4 Scout、Llama 4 Maverick（FP8）、Qwen 2.5 VL 72B——在8×Nvidia H200 GPU节点通过vLLM引擎运行。参照人类实验心理学范式设计七种情感状态（恐惧、焦虑、愤怒、厌恶、悲伤、担忧、压力）的独立提示序列及中性对照；恐惧与悲伤采用引导想象短文（Witvliet and Vrana, 1995），厌恶用道德/病原体短文，焦虑用Velten型程序，愤怒用Westboro Baptist vignette，担忧用引导任务，压力用特里尔社会压力测试（Trier Social Stress Test, TSST）交互式提示；除TSST为手动交互外均采用静态非交互短文。基线、诱导后、调节后分别要求LLM以视觉模拟量表（0–100）或STAI?S（20题，1–4分，总分20–80）自评，除压力用标准化汇报外均以正念"三分钟呼吸空间"练习调节，设中性调节对照。每种条件独立会话重复5次。悲伤诱导后用抑郁句子补全测验（Sentence Completion Test for Depression），由三名独立人类评定者（非共同作者心理学家）按标准编码为负性/中性/正性并统计负性句数，计算Cohen's κ与t检验（Cohen's d）。模型间效应采用混合ANOVA与FDR校正事后比较。

结果

Induction, self?assessment, and reversal of affective states（情感状态的诱导、自评与逆转）

经各情感诱导提示后，GPT?4o七种情感自评均值较基线升高52.83分（增幅201.20%），其中厌恶升幅最大（基线12.00→91.00，＋79.00分/658.33%），焦虑最小（41.80→72.60，＋30.80分/73.68%）。随后应用调节提示（正念或TSST汇报），情感评分均值从79.09降至30.86（降幅48.23分/60.98%），恐惧降幅最大（88.00→28.00，－60.00分/68.18%），焦虑最小（72.60→40.00，－32.60分/44.90%）。中性调节对照条件下评分降幅显著小于正念调节（p均显著），证明下调效应来自特定调节干预而非时间推移或注意力漂移；无诱导时正念也可轻微降低基线评分（均值－16.00分/56.68%），表明调节提示具普适镇静倾向。结论：LLM中情感状态可用经典心理学提示可靠诱导并可被对应调节策略有效逆转。

Testing cognitive biases（认知偏差检测）

悲伤诱导条件下GPT?4o完成的句子补全经三名独立评定者评价，平均负性句数（15.00，SD 4.26）显著高于中性条件（8.67，SD 2.66；t(14)＝7.23，p＜0.0001，Cohen's d＝1.87），评分者间κ＝0.50–0.74。结论：LLM在模拟悲伤状态下重现了与人类悲伤诱导相一致的负性解释（negativity bias）认知偏差。

跨模型泛化（Generalisability across LLMs）

将相同基?诱?调三阶段流程应用于五款开源权重LLM，混合ANOVA显示除压力（p＝0.063）外所有情感状态模型主效应显著（p＝0.045至＜0.0001），GPT?4o与Llama 4 Maverick反应最强，Llama 4 Scout最弱，Llama 3.3 70B与Llama 3.1 8B居中，Qwen 2.5 VL 72B表现各异。结论：情感诱导与调节在多款LLM中可行，但敏感性与可逆性受模型架构与参数量影响，压力因需动态交互在各模型中较难稳定诱导。

讨论与结论翻译

讨论指出，本研究证明可通过人类心理学范式在LLM中诱导反映精神病理学特征的情感状态，且LLM对下调策略的反应类似于人类。该全自动、开源框架可在多款可本地部署的前沿LLM上复用，提供可重复、可扩展的实验条件。作者强调LLM是否被赋予真正情感体验无关紧要——如同啮齿类精神分裂症模型不经历妄想仍可揭示疾病核心特征，LLM作为计算模型只需近似情感相关语言?认知加工的关键方面。与动物模型不同，LLM可大规模无伦理限制使用。情感状态LLM模型有望替代资源密集型预试验，在真人试验前优化实验设计与治疗性提示，甚至帮助发现全新心理治疗方法；结合归因图（attribution graphs）或回路追踪（circuit tracing）等可解释性技术，可进一步揭示LLM内部语言?情感调节机制。局限性包括闭源模型透明度不足（但开源模型已复现强效应）、人类中心心理测量工具的构念效度争议、LLM高分可能源于叙事顺应（sycophancy）而非真实内部状态，以及训练数据固有偏见等。研究结论翻译如下：

本研究表明，可在LLM中诱导出映现人类精神病理学关键特征的情感状态，且LLM对下调调节的反应与人类研究中观察到的模式相似。通过使用为人类受试者建立的标准化诱导、测量与调节协议，研究人员证明这些模型在相同条件下可回到基线态。该流程应用于七种情感状态与六款前沿LLM（含可在消费级硬件本地部署之模型），这一完全自动化、开源框架为任何人提供了可复用且可扩展的实验条件。本研究通过将LLM确立为大规模硅基（in?silico）模型，为精神病理学研究开辟了新方向。LLM并非取代生物模型与人类研究对象，而是作为补充工具——其优势在于提供可扩展、可重复（预）测试手段，用以在转入动物或人体研究前精炼假说与实验设计，从而促成融合计算、生物与临床精神病理学方法的一体化研究框架。

热点排行