空白状态智能体展现群体内偏好的涌现机制：基于多智能体深度强化学习的认知建模研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月17日 来源：Proceedings of the National Academy of Sciences 9.4

编辑推荐：

　　这篇开创性研究通过多智能体深度强化学习（MARL）框架，首次在"空白状态"（tabula rasa）智能体中证实群体偏好可纯粹通过经验学习涌现。研究团队设计红蓝两组智能体在协调任务中交互，发现即使群体标记（颜色）与奖励机制无关，智能体仍会因接触频率差异自发形成内群体偏好（in-group bias），且该偏好随视觉相似度降低而增强，但可通过充分的正向交互消除。该研究为理解社会偏见形成的通用认知机制（如单纯接触效应mere exposure effect）提供了计算模型基础，挑战了传统进化模块理论。

群体偏见研究的理论分野

关于群体偏见的形成机制长期存在两种对立理论：进化心理学派主张存在先天的联盟本能（coalitional instincts），认为人类祖先通过快速识别内群体（in-group）获得生存优势；而通用认知机制理论则认为偏见是感知、分类等基础认知过程在社会环境中的副产品。传统实验难以区分这两种机制，因为人类被试始终携带既有社会经验。

空白状态智能体的创新范式

研究采用深度强化学习（DRL）智能体构建"空白状态"模型，其神经网络架构包含：视觉编码器（2层CNN）、全连接层（64神经元MLP）、LSTM层（256单元）和价值/策略头。智能体在2D环境中通过收集彩色资源获得奖励，交互时奖励与资源库存相似度成正比。关键设计是设置两个服务器——纯内群体服务器（8红/8蓝）和混合服务器（红蓝比例可调），通过控制接触频率分离经验效应。

群体偏见的涌现规律

在默认6:2混合服务器设置下，智能体表现出显著内群体偏好（t(4)=13.7, P<0.001）。双选择探针实验显示：

偏好强度与群体接触频率负相关（F(4,50)=600.3, P<0.001）
红蓝RGB值差异从[150,0,0]/[0,0,150]调整为[150,0,100]/[100,0,150]时，偏见降低59.96%
环境布局决定偏见强度：隔离墙导致最大偏见（F(4,50)=2,457.4），而强制交互环境消除偏见

个体识别与偏见放大

当混合服务器设置为7:1且引入"冻结时间延长"的惩罚个体时发现：

智能体对内外群体个体的识别能力差达r=0.63（P=0.021）
中等惩罚强度（16-50帧冻结）时，内群体个体识别准确率比外群体高38%
这种识别差异与总体偏见程度显著相关，说明偏见放大源于对外群体个体的过度泛化

理论启示与应用前景

研究证实单纯经验差异足以产生群体偏好，无需预设进化模块或自我增强动机。该DRL框架可扩展用于测试：

不平等厌恶（inequity aversion）等社会偏好的演化
规范惩罚（norm punishment）的传播动力学
接触假说（contact hypothesis）的优化条件
未来可通过调整神经网络架构（如改用ResNet）或添加动机模块，进一步模拟真实社会认知的复杂性。

（注：全文数据均来自原文实验，包含5次独立重复，采用RMSprop优化器（lr=0.0004），γ折扣因子0.99，所有比较均通过ANOVA或Pearson相关性验证）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号