
-
生物通官微
陪你抓住生命科技
跳动的脉搏
空白状态智能体展现群体内偏好的涌现机制:基于多智能体深度强化学习的认知建模研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Proceedings of the National Academy of Sciences 9.4
编辑推荐:
这篇开创性研究通过多智能体深度强化学习(MARL)框架,首次在"空白状态"(tabula rasa)智能体中证实群体偏好可纯粹通过经验学习涌现。研究团队设计红蓝两组智能体在协调任务中交互,发现即使群体标记(颜色)与奖励机制无关,智能体仍会因接触频率差异自发形成内群体偏好(in-group bias),且该偏好随视觉相似度降低而增强,但可通过充分的正向交互消除。该研究为理解社会偏见形成的通用认知机制(如单纯接触效应mere exposure effect)提供了计算模型基础,挑战了传统进化模块理论。
关于群体偏见的形成机制长期存在两种对立理论:进化心理学派主张存在先天的联盟本能(coalitional instincts),认为人类祖先通过快速识别内群体(in-group)获得生存优势;而通用认知机制理论则认为偏见是感知、分类等基础认知过程在社会环境中的副产品。传统实验难以区分这两种机制,因为人类被试始终携带既有社会经验。
研究采用深度强化学习(DRL)智能体构建"空白状态"模型,其神经网络架构包含:视觉编码器(2层CNN)、全连接层(64神经元MLP)、LSTM层(256单元)和价值/策略头。智能体在2D环境中通过收集彩色资源获得奖励,交互时奖励与资源库存相似度成正比。关键设计是设置两个服务器——纯内群体服务器(8红/8蓝)和混合服务器(红蓝比例可调),通过控制接触频率分离经验效应。
在默认6:2混合服务器设置下,智能体表现出显著内群体偏好(t(4)=13.7, P<0.001)。双选择探针实验显示:
当混合服务器设置为7:1且引入"冻结时间延长"的惩罚个体时发现:
研究证实单纯经验差异足以产生群体偏好,无需预设进化模块或自我增强动机。该DRL框架可扩展用于测试:
(注:全文数据均来自原文实验,包含5次独立重复,采用RMSprop优化器(lr=0.0004),γ折扣因子0.99,所有比较均通过ANOVA或Pearson相关性验证)
生物通微信公众号
知名企业招聘