
-
生物通官微
陪你抓住生命科技
跳动的脉搏
算法驱动的人类决策偏好:规律性吸引对选择行为的非理性影响及其机制研究
【字体: 大 中 小 】 时间:2025年05月03日 来源:Nature Communications 14.7
编辑推荐:
为探究人类决策中规律性偏好的非理性机制,Haran Shani-Narkiss等研究者开发了RaCaS(Regularity as Carrot and Stick)算法,通过动态分配奖励诱导参与者偏好规律性选项。结果表明,尽管规律性不增加实际收益,决策者仍以2:1比例偏向规律选项(Bias+),揭示了传统强化学习模型的局限性。该研究为行为经济学和决策科学提供了新视角,发表于《Nature Communications》。
在当今行为经济学和认知科学领域,人类决策机制的研究始终充满挑战。传统理论认为,人们会理性地通过强化学习(Reinforcement Learning, RL)最大化收益,但越来越多的证据表明,非理性因素如规律性偏好(attraction to regularity)可能主导选择行为。这一现象在现实场景中尤为关键——从社交媒体算法设计到政策“助推”(nudging)的伦理争议,理解规律性如何扭曲决策具有重要科学和社会意义。然而,直接证明规律性本身具有强化价值的研究稀缺,且现有“助推”干预的效果常被高估(Cohen's d=0.04)。
针对这一空白,以色列的研究团队Haran Shani-NarkissD1、Baruch Eitam22和Oren AmsalemD3设计了一项创新性研究。他们通过国际“选择工程竞赛”(Choice Engineering Competition, CEC)平台,开发了RaCaS算法,利用动态奖励分配机制测试人类对规律性的非理性偏好。研究结果发表于《Nature Communications》,揭示了规律性如何超越实际收益成为决策主导因素。
研究采用亚马逊土耳其机器人(Amazon Mechanical Turk)招募3521名参与者,通过100次二选一任务(Bias+与Bias-选项)收集数据。RaCaS算法的核心是通过阶段性增加奖励间隔(如Stage 0每2次选择奖励1次,Stage 3每5次奖励1次)构建规律性,同时利用“惩罚”机制(中断规律性)抑制探索行为。关键技术创新包括动态跟踪(Dynamic track)与静态跟踪(Static track)的对比设计,以及标准化奖励差异指标Δrewards(norm.)的计算。
An effective nudge
RaCaS算法在动态赛道中表现卓越,使参与者对Bias+选项的偏好达69.8%(Cohen's d=1.16),显著高于其他算法(p<0.001)。贝叶斯分析(BF01=6.35)证实其效果稳定性。
Uneven gains as a self-reinforcing negative feedback loop
规律性偏好引发恶性循环:参与者因少探索Bias-选项而低估其实际奖励率(#Rewards won/#choices(option)),进一步强化偏见。Δrewards(norm.)达0.49(p<0.001),显示算法成功“隐藏”Bias-奖励。
The cost of sticking to regularity
坚持规律性选项导致参与者总收益仅达随机水平(p=0.09),反应时(RT)差异(Spearman's r=-0.38)印证认知负荷降低对偏好的强化。
Discussion
该研究首次量化了规律性作为独立决策驱动力的作用,挑战了RL模型的完备性。RaCaS通过阶段性规律构建和动态调整,证明非显性干预可显著扭曲行为(即使损害实际利益),这对算法伦理(如“黑暗模式”dark patterns)和政策设计具有警示意义。局限性在于实验室环境与现实的差异,但研究者指出,RaCaS的任意性设计暗示其效果仅为下限,优化后可能更强。
这项研究为决策科学提供了新范式:通过可控实验量化心理倾向(如规律性偏好、控制感)对行为的影响,未来可扩展至社交信息消费、器官捐献等现实场景。正如作者强调,人类决策的复杂性要求我们超越形式化模型,探索更多“非理性”但普适的心理学机制。
生物通微信公众号
知名企业招聘