
-
生物通官微
陪你抓住生命科技
跳动的脉搏
集体合作智能:复杂系统中认知与环境的协同演化机制及其可持续发展意义
【字体: 大 中 小 】 时间:2025年06月17日 来源:Proceedings of the National Academy of Sciences 9.4
编辑推荐:
这篇综述提出通过融合复杂系统科学(CSS)与多智能体强化学习(MARL)构建"集体合作智能"(Collective Cooperative Intelligence)框架,以解决动态环境中智能体协同决策的机制难题。文章系统比较了两大领域的方法学差异(如表1所示),提出集体强化学习动力学(CRLD)作为桥梁工具,揭示了多稳态、临界转变等复杂现象对合作涌现的影响,为可持续发展中的社会-生态韧性研究提供了新范式。
合作行为在可持续发展中的核心地位已被广泛认知,但传统复杂系统科学(CSS)对个体认知复杂性和环境动态性的简化处理限制了其解释力。多智能体强化学习(MARL)虽能刻画智能体在动态环境中的学习过程,却面临计算成本高、可解释性差的瓶颈。本文提出的集体合作智能框架,通过整合CSS的宏观涌现分析工具与MARL的微观认知建模优势,开辟了合作研究的新路径。
CSS传统上通过演化博弈论、非线性动力学等方法,从简单原子行为推导宏观合作模式,典型如"以牙还牙"策略的鲁棒性。其优势在于解析解的明确性,但个体差异性和环境反馈常被忽略。相比之下,MARL关注智能体通过奖励信号自主学习合作策略,适用于高维环境但缺乏理论指导。表1清晰展示了两者在目标(理解vs改进)、范围(低维vs高维)和评价标准(机制简洁性vs算法扩展性)上的互补性。
CRLD将MARL转化为非线性动力系统,如Box1所示的两智能体公共品博弈模型:
Xi
t+1
(s,a) = Z-1
Xi
t
(s,a)exp(ηi
·δi
Xt
(s,a))
该方程描述了基于时间差分误差的策略更新过程,兼具MARL的学习机制与CSS的解析优势。Box2的生态临界点环境示例(参数:m=-5, qc
=0.2, qr
=0.01)展示了CRLD如何揭示合作涌现的动态规律。
相空间分析发现多稳态现象(图1A):合作与背叛的吸引盆被分界线(紫色虚线)分隔,初始策略的微小差异可能导致完全不同的收敛结果。临界减速现象(图1D)显示,在折扣因子γ≈0.75时,收敛时间比极端值区高出一个数量级。图2则揭示了γ在0.7-0.85间的双稳态区,合作水平随参数变化呈现滞后效应(图3),这种记忆特性为集体决策提供了新视角。
MARL为CSS带来了认知建模的新工具:
传统CSS的均值场方法(如复制者方程)难以处理智能体异质性。CRLD通过福克-普朗克方程描述群体学习动态,与MARL的均值场博弈(mean-field games)形成互补。在环境建模方面,序贯社会困境(sequential social dilemmas)将高维状态空间简化为核心决策节点,保留必要的环境反馈特征。
Box3提出五大前沿方向:
该框架为可持续发展决策提供了新工具——通过早期预警指标(如临界减速)识别社会-生态系统的关键转变点,其应用场景涵盖公共卫生政策协调、气候变化集体行动等多个领域。这种跨学科融合不仅推进了合作的理论研究,更为人工智能系统的协同设计提供了原则性指导。
生物通微信公众号
知名企业招聘