空白状态智能体展现群体内偏好的涌现机制:基于多智能体深度强化学习的认知建模研究

【字体: 时间:2025年06月17日 来源:Proceedings of the National Academy of Sciences 9.4

编辑推荐:

  这篇开创性研究通过多智能体深度强化学习(MARL)框架,首次在"空白状态"(tabula rasa)智能体中证实群体偏好可纯粹通过经验学习涌现。研究团队设计红蓝两组智能体在协调任务中交互,发现即使群体标记(颜色)与奖励机制无关,智能体仍会因接触频率差异自发形成内群体偏好(in-group bias),且该偏好随视觉相似度降低而增强,但可通过充分的正向交互消除。该研究为理解社会偏见形成的通用认知机制(如单纯接触效应mere exposure effect)提供了计算模型基础,挑战了传统进化模块理论。

  

群体偏见研究的理论分野

关于群体偏见的形成机制长期存在两种对立理论:进化心理学派主张存在先天的联盟本能(coalitional instincts),认为人类祖先通过快速识别内群体(in-group)获得生存优势;而通用认知机制理论则认为偏见是感知、分类等基础认知过程在社会环境中的副产品。传统实验难以区分这两种机制,因为人类被试始终携带既有社会经验。

空白状态智能体的创新范式

研究采用深度强化学习(DRL)智能体构建"空白状态"模型,其神经网络架构包含:视觉编码器(2层CNN)、全连接层(64神经元MLP)、LSTM层(256单元)和价值/策略头。智能体在2D环境中通过收集彩色资源获得奖励,交互时奖励与资源库存相似度成正比。关键设计是设置两个服务器——纯内群体服务器(8红/8蓝)和混合服务器(红蓝比例可调),通过控制接触频率分离经验效应。

群体偏见的涌现规律

在默认6:2混合服务器设置下,智能体表现出显著内群体偏好(t(4)=13.7, P<0.001)。双选择探针实验显示:

  1. 偏好强度与群体接触频率负相关(F(4,50)=600.3, P<0.001)
  2. 红蓝RGB值差异从[150,0,0]/[0,0,150]调整为[150,0,100]/[100,0,150]时,偏见降低59.96%
  3. 环境布局决定偏见强度:隔离墙导致最大偏见(F(4,50)=2,457.4),而强制交互环境消除偏见

个体识别与偏见放大

当混合服务器设置为7:1且引入"冻结时间延长"的惩罚个体时发现:

  • 智能体对内外群体个体的识别能力差达r=0.63(P=0.021)
  • 中等惩罚强度(16-50帧冻结)时,内群体个体识别准确率比外群体高38%
  • 这种识别差异与总体偏见程度显著相关,说明偏见放大源于对外群体个体的过度泛化

理论启示与应用前景

研究证实单纯经验差异足以产生群体偏好,无需预设进化模块或自我增强动机。该DRL框架可扩展用于测试:

  1. 不平等厌恶(inequity aversion)等社会偏好的演化
  2. 规范惩罚(norm punishment)的传播动力学
  3. 接触假说(contact hypothesis)的优化条件
    未来可通过调整神经网络架构(如改用ResNet)或添加动机模块,进一步模拟真实社会认知的复杂性。

(注:全文数据均来自原文实验,包含5次独立重复,采用RMSprop优化器(lr=0.0004),γ折扣因子0.99,所有比较均通过ANOVA或Pearson相关性验证)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号