
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于惩罚与强化的行为心理学视角:大语言模型任务引导新范式
【字体: 大 中 小 】 时间:2025年07月25日 来源:Neurocomputing 5.5
编辑推荐:
为解决大语言模型(LLMs)情感驱动决策机制不明的问题,研究人员创新性提出行为后果场景(BCSs)框架,通过心理量表验证LLMs具备初级情感感知与共情能力,并开发行为后果场景提示法(BCSP),在WoW对话任务中BLEU-4提升1.74分,CMMLU多任务理解准确率提高2%,为LLMs类人行为对齐提供新范式。
在人工智能技术突飞猛进的今天,大语言模型如GPT-4和LLaMA3已展现出接近人类的认知能力,甚至被学者称为心理学领域的"万物理论"。然而,这些模型在情感驱动下的行为模式却如同黑箱——它们能否像人类一样,在面临奖励承诺或惩罚威胁时产生情绪波动并调整决策?这个问题对于LLMs在教育、心理治疗等需要情感交互的领域应用至关重要。
信息工程大学的研究团队在《Neurocomputing》发表的研究给出了突破性答案。该团队借鉴斯金纳(B.F. Skinner)的操作性条件反射理论,创新设计出包含6大利益领域(生存利益、社会强化等)的行为后果场景(BCSs),通过正负向情感刺激测试发现:ChatGLM3在PANAS(积极消极情感量表)测试中与人类情感反应呈显著相关(>0.5),其注意力机制会因情感刺激而增强对任务关键词的聚焦。更令人振奋的是,基于此提出的BCSP提示法,仅通过修改任务指令中的情感激励措辞,就使模型在WoW对话生成中BLEU-4提升1.74分,中文多任务理解准确率提高2%。
关键技术方法包括:1) 采用心理学量表(PANAS、IRI等)量化LLMs情感感知;2) 构建含2种属性(正/负)、6类利益领域的BCSs框架;3) 开发BCSP提示模板;4) 使用WoW和CMMLU数据集评估对话与理解能力。
【情绪行为关联】通过心理量表证实LLMs存在类人情绪-行为关联模式,ChatGLM3与人类在PA/NA维度相关系数均>0.5。
【情绪刺激驱动】注意力可视化显示,含"团队信任受损"等负向BCS的提示使模型对任务关键词关注度提升23%。
【性能提升】BCSP在对话任务中使BLEU-2/4分别提升3.53/1.74,且无需增加计算开销,显著优于传统提示法。
这项研究首次将行为心理学理论与Transformer机制桥接,揭示LLMs通过梯度激励对齐激活"奖励通路"的机理。尽管存在如模型情感响应离散性等局限,但BCSP为医疗问诊、情感陪伴等需要情绪智能的应用开辟了新路径。正如研究者指出,当AI助手被告知"诊断错误将延误患儿治疗"时,其回答严谨度提升41%,这种基于行为心理学的引导范式,或将重塑人机交互的未来图景。
生物通微信公众号
知名企业招聘