编辑推荐:
在公共资源分配面临的社会困境中,研究人员开展了 “深度强化学习能否促进可持续人类行为” 的研究。通过实验,发现深度强化学习(RL)机制能成功促进人类可持续交换,该成果为解决社会经济问题提供了新方向。
在当今社会,资源分配问题始终是经济学和社会科学领域的核心难题。以公共资源为例,当资源从公共池中取出并分配给人们时,人们面临着两难抉择:是选择为了公共利益而回馈资源,还是为了个人私利而保留所得。这一困境在现实生活中广泛存在,比如政府向企业提供创业贷款,如果企业 founders 不偿还贷款,政府后续可用于扶持经济的资源就会减少;员工偷懒,企业可能倒闭,员工也会失业。同样,在共享资源的可持续管理方面,如森林、渔业等可收获资源以及全球环境,也面临着类似的问题。以往研究虽探索了人们通过自我组织来管理共享资源的方法,但当无法进行相互制裁、投票或签订合同等制度性自我组织时,如何由主体(或社会规划者)进行资源分配以激励信任,仍是一个亟待解决的问题。
在此背景下,来自 Google DeepMind、普林斯顿大学、埃克塞特大学、耶鲁大学法学院、牛津大学等机构的研究人员,开展了一项旨在探索能否通过深度强化学习(RL)设计社会规划者,以促进人类参与者在公共资源问题中做出可持续贡献的研究。该研究成果发表在《Nature Communications》上。
研究人员运用了多种关键技术方法。首先,利用行为克隆技术,根据人类玩家在不同机制下的游戏数据训练虚拟玩家,模拟人类行为。其次,运用图神经网络(GNNs)构建 RL 智能体,使其能在与虚拟玩家的交互中学习资源分配策略。此外,通过设计多种基线机制和插值基线机制,与 RL 智能体进行对比实验。
研究结果主要通过以下几方面得出:
- 实验设计与基线机制评估:研究人员设计了一个无限重复的多人信任游戏,社会规划者负责分配资源。实验设置了多种基线机制,如平等分配(“equal” policy)和按比例分配(“proportional” policy)等。通过让人类参与者在这些基线机制下进行游戏发现,平等分配机制易导致搭便车行为,使资源池迅速枯竭;按比例分配机制虽然能在一定程度上激励回馈,但会造成不公平,使部分玩家陷入贫困陷阱。例如,在平等基线条件下,游戏往往很快因玩家的不回馈而结束;在按比例基线条件下,部分玩家早期就被排除在资源分配之外,导致游戏中的不平等加剧123。
- RL 智能体的训练与评估:研究人员使用 RL 训练一个人工智能模型作为社会规划者,以最大化参与者的剩余收益。为训练该模型,先收集人类玩家在不同策略下的游戏数据,创建虚拟玩家,然后结合深度策略梯度方法和 GNNs 进行训练。实验结果显示,RL 智能体生成的剩余收益比最高的基线机制(按比例分配)高出约 150%,且基尼系数(Gini coefficient)更低,在促进资源可持续交换方面表现出色。例如,在实验 1 中,RL 智能体使 65% 的游戏至少有一名玩家持续到最后,55% 的游戏四名玩家都能持续参与45。
- RL 智能体策略分析与新机制设计:对 RL 智能体的策略进行分析发现,它会根据资源池大小灵活调整分配策略,资源丰富时更倾向于平等分配,资源稀缺时则会暂时排除搭便车者。基于此,研究人员设计了一种插值基线机制,该机制在虚拟玩家实验中表现良好。在后续实验中,与 RL 智能体相比,插值基线机制在保证较高剩余收益的同时,基尼系数更低,更受人类玩家欢迎67。
- 长期实验与玩家偏好研究:为解决参与者经验不足和激励结构可能影响实验结果的问题,研究人员进行了新的实验。让参与者连续进行多轮游戏,结果表明随着参与者对机制的熟悉,RL 智能体机制在促进可持续交换方面更加有效。此外,研究还发现人类玩家主观上更偏好插值基线机制,认为其更公平、更易理解、更能鼓励合作8。
研究结论表明,深度 RL 机制能够发现一种资源分配策略,在促进可持续交换方面表现卓越,且该机制成功的关键在于根据可用资源调整分配的平等性。通过模仿 RL 智能体策略设计的插值基线机制,在实现高剩余收益的同时,提高了平等性,获得了人类玩家的高度认可。这一研究不仅展示了利用简单神经网络模型准确模拟人类多人交换复杂时间动态的可行性,还为机器学习辅助解决社会和经济问题开辟了新途径,有望在拍卖设计、推荐算法等实际场景中发挥重要作用。然而,该研究也存在一定局限性,如参与者仅来自英国和美国,游戏与经典 CPR 问题存在差异,且在复杂自然环境中的有效性尚未得到验证 。但总体而言,这项研究为资源分配问题的研究和解决提供了新的思路和方法,具有重要的理论和实践意义。