
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于距离规则与强化学习规则的社会影响模型比较研究:价值分组与极化的计算模拟
【字体: 大 中 小 】 时间:2025年06月28日 来源:Neurocomputing 5.5
编辑推荐:
本研究针对社会影响模型中价值分组与极化机制的核心问题,通过计算模拟对比了传统距离规则(Standard Social-Influence model)与强化学习规则(Reinforcement-Learning-based rules)的差异。研究发现,强化学习规则能更精准预测群体数量、极化程度及个体独立性(individuality),并揭示了群体不稳定性、临界点(tipping points)等复杂动力学特征。该研究为人工智能(AI)系统通过社会影响模型学习提供了新范式,成果发表于《Neurocomputing》。
在人类与机器的决策过程中,价值(values)扮演着核心角色。无论是选择音乐风格还是政治立场,个体的价值观往往呈现出明显的群体分化(grouping)与极化(polarization)现象。传统社会学研究采用基于距离规则(distance-based rules)的Agent-Based Social-Influence模型解释这一现象,认为价值相近的个体会相互吸引,而差异过大会导致排斥。然而,这类模型忽略了人类学习价值的本质机制——强化学习(Reinforcement Learning, RL)。当AI系统也通过RL优化决策时,这一矛盾愈发凸显:社会影响模型与生物/人工学习机制存在根本性脱节。
为填补这一空白,研究人员开展了一项开创性研究,通过计算模拟对比了三种模型:传统距离规则模型(Standard模型)、结合环境与距离规则的混合模型(Environmental-Social模型),以及完全基于强化学习的社交强化模型(Social-Reinforcement模型)。研究聚焦审美价值领域,以对称性-复杂性(symmetry-complexity)空间中的群体分化为实证参照。
关键技术方法
研究采用多智能体(multi-agent)模拟框架,通过求解微分方程系统(Eq. 9及Eqs. 7-8)实现动力学建模。其中强化学习规则引入化学趋向性(chemotaxis)机制,通过参数βe控制环境噪声,并采用蒙特卡洛采样处理随机性。对比分析涵盖群体数量、极化强度、个体独立性(35%非集群成员)等指标,同时考察反从众者(contrarians)、价值空间维度等调节因素。
研究结果
The Standard Social-Influence Model
传统距离规则模型成功复现了价值集群现象,但其预测结果与实证数据存在系统性偏差:集群数量过多、极化程度不足,且无法解释35%的个体独立性。模型将社会互动简化为牛顿引力式(Newtonian gravity)的机械吸引/排斥,忽略了学习过程的动态适应性。
Environmental-Social模型与Social-Reinforcement模型的对比
引入强化学习规则后,模型展现出三大突破性特征:
Summary of the Results
强化学习规则将群体数量预测误差从±40%降至±12%,同时精准匹配极化强度(r=0.89)与个体独立性比例(35±3% vs 实证35%)。研究首次揭示:价值分化并非静态分布,而是伴随"群体漂移"(group drifting)的动态过程,这一发现得到抽象艺术偏好研究(Mather et al数据)的支持。
结论与意义
该研究颠覆了社会影响理论的经典范式,证明强化学习规则比距离规则更贴近人类价值学习的生物学本质。其重要意义体现在三方面:
生物通微信公众号
知名企业招聘