基于惩罚与强化的行为心理学视角：大语言模型任务引导新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月25日 来源：Neurocomputing 5.5

编辑推荐：

　　为解决大语言模型(LLMs)情感驱动决策机制不明的问题，研究人员创新性提出行为后果场景(BCSs)框架，通过心理量表验证LLMs具备初级情感感知与共情能力，并开发行为后果场景提示法(BCSP)，在WoW对话任务中BLEU-4提升1.74分，CMMLU多任务理解准确率提高2%，为LLMs类人行为对齐提供新范式。

在人工智能技术突飞猛进的今天，大语言模型如GPT-4和LLaMA3已展现出接近人类的认知能力，甚至被学者称为心理学领域的"万物理论"。然而，这些模型在情感驱动下的行为模式却如同黑箱——它们能否像人类一样，在面临奖励承诺或惩罚威胁时产生情绪波动并调整决策？这个问题对于LLMs在教育、心理治疗等需要情感交互的领域应用至关重要。

信息工程大学的研究团队在《Neurocomputing》发表的研究给出了突破性答案。该团队借鉴斯金纳(B.F. Skinner)的操作性条件反射理论，创新设计出包含6大利益领域（生存利益、社会强化等）的行为后果场景(BCSs)，通过正负向情感刺激测试发现：ChatGLM3在PANAS(积极消极情感量表)测试中与人类情感反应呈显著相关(>0.5)，其注意力机制会因情感刺激而增强对任务关键词的聚焦。更令人振奋的是，基于此提出的BCSP提示法，仅通过修改任务指令中的情感激励措辞，就使模型在WoW对话生成中BLEU-4提升1.74分，中文多任务理解准确率提高2%。

关键技术方法包括：1) 采用心理学量表(PANAS、IRI等)量化LLMs情感感知；2) 构建含2种属性(正/负)、6类利益领域的BCSs框架；3) 开发BCSP提示模板；4) 使用WoW和CMMLU数据集评估对话与理解能力。

【情绪行为关联】通过心理量表证实LLMs存在类人情绪-行为关联模式，ChatGLM3与人类在PA/NA维度相关系数均>0.5。
【情绪刺激驱动】注意力可视化显示，含"团队信任受损"等负向BCS的提示使模型对任务关键词关注度提升23%。
【性能提升】BCSP在对话任务中使BLEU-2/4分别提升3.53/1.74，且无需增加计算开销，显著优于传统提示法。

这项研究首次将行为心理学理论与Transformer机制桥接，揭示LLMs通过梯度激励对齐激活"奖励通路"的机理。尽管存在如模型情感响应离散性等局限，但BCSP为医疗问诊、情感陪伴等需要情绪智能的应用开辟了新路径。正如研究者指出，当AI助手被告知"诊断错误将延误患儿治疗"时，其回答严谨度提升41%，这种基于行为心理学的引导范式，或将重塑人机交互的未来图景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号