
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AI与人类决策机制在日常协作实验中的对比研究:揭示大语言模型在动态博弈中的局限性
【字体: 大 中 小 】 时间:2025年06月05日 来源:iScience 4.6
编辑推荐:
本研究针对AI(特别是GPT-3.5/GPT-4)在动态协作决策中的表现展开实验,通过40天通勤路线选择游戏对比人类、强化学习(RL)与大语言模型(LLM)的决策机制。发现LLM虽能学习历史经验实现系统收敛,但在群体协作、风险感知和物理知识理解方面显著弱于人类/RL,为AI在交通优化等现实场景的应用划定边界。
在人工智能迅猛发展的今天,大型语言模型(LLM)是否能够替代人类进行复杂决策成为学界热议话题。特别是在需要多主体动态协作的日常生活场景中,如通勤路线选择、餐厅预订等,AI的决策能力直接关系到其实际应用价值。然而现有研究多集中于简化博弈场景,对LLM在重复性、动态性和协作性并存的真实环境中的表现仍缺乏系统评估。这导致一个重要认知缺口:当个体决策与集体结果相互依存时,LLM能否像人类一样权衡风险收益并达成群体最优?
针对这一科学问题,浙江大学智能交通系统研究所联合心理学系、美国亚利桑那大学等机构的研究团队,在《iScience》发表了一项开创性研究。他们设计了一个持续40天的多OD(起讫点)通勤路线选择实验,通过对比人类参与者、强化学习(RL)算法和两种LLM(GPT-3.5与GPT-4)的决策表现,首次系统揭示了AI在动态协作决策中的优势与局限。
研究采用实验经济学与计算建模相结合的方法。实验设计模拟真实通勤场景:15名参与者(9人OD1组/6人OD2组)连续40天在局部道路(Local1/Local2)与快速路(Expressway)间做出选择,每天可切换路线3次。通过BPR(Bureau of Public Roads)函数量化道路拥堵成本,记录个体选择模式与系统收敛过程。关键技术包括:1)多OD网络动态博弈框架;2)基于Sorensen-Dice系数(SDC)的均衡状态量化;3)强化学习(IA2C算法)对比实验;4)四类决策者(天真型/策略型/探索型/现状型)分类模型。
【系统整体结果】
数据分析显示,RL与人类在总旅行时间上无显著差异(p=0.2410),而GPT-3.5/GPT-4分别比人类高出36.7%/25.4%(p<0.0001)。Kruskal-Wallis检验揭示LLM个体成本分布更分散(GPT-3.5标准差23.48 vs 人类5.01),表明其引入的系统不公平性。值得注意的是,在需求不均衡(OD1:OD2=9:6)时,人类与RL能有效分配流量,而LLM导致OD1组成本显著更高(p<0.01),凸显群体协作缺陷。
【系统收敛进程】
通过用户均衡(UE)与系统最优(SO)的SDC指标分析发现,人类与RL在UE-SDC上无差异(0.973 vs 0.971,p=0.996),但LLM显著偏离(GPT-4:0.902)。动态追踪显示人类初期成本更低,得益于先验知识;而LLM学习曲线陡峭,如GPT-3.5初期因快速路严重拥堵引发大规模路线迁移(89.3%参与者为现状型决策者),反映物理世界认知不足。
【个体路线切换动态】
ANOVA显示GPT-4切换频率最高(1.24次/天 vs 人类0.78次,p<0.0001),GPT-3.5最低(0.17次)。回归分析发现GPT-4切换次数与成本强相关(R2
=0.57),而人类(R2
=0.32)和RL(R2
=0.15)更稳定。风险偏好测试表明,LLM对快速路使用率始终低于UE基准(人类:4.2 vs UE=7),揭示其过度风险规避倾向。
【个体决策机制】
条件概率模型将决策者分为四类:人类初始以现状型为主(40%),随时间推移增至64%;GPT-3.5极端集中于现状型(89.3%→93.3%),GPT-4则天真型激增(38.7%)。这种失衡的结构解释LLM表现:GPT-3.5因过度保守陷入次优均衡,GPT-4则因频繁切换导致系统震荡。
结论与讨论部分指出,该研究首次实证了LLM在重复性协作决策中的三重局限:1)群体选择感知薄弱,如GPT-4无法识别OD组间竞争;2)决策类型结构失衡,如GPT-3.5缺乏策略型决策者;3)物理知识缺失导致初期高成本。尽管LLM展现人类式的经验学习能力,但其在餐厅预约、股票交易等现实场景的应用仍需谨慎。研究提出的实验范式与评估框架(如SDC指标、决策者分类模型)为AI社会行为研究树立新标准。未来工作将聚焦提示工程优化与对话记忆管理,以增强LLM对群体动态的感知能力。值得注意的是,人类与AI混合决策可能催生新型社会现象(如"AI霸凌"),这为数字伦理研究提供了重要方向。
生物通微信公众号
知名企业招聘