
-
生物通官微
陪你抓住生命科技
跳动的脉搏
H2-MARL:基于多智能体强化学习的医院承载力与人群流动帕累托最优调控策略研究
【字体: 大 中 小 】 时间:2025年06月12日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对疫情防控中医院承载力(Hospital Capacity Strain)与人群流动限制损失(Human Mobility Restriction Loss)的平衡难题,研究人员提出多智能体强化学习框架H2-MARL。通过构建动态时空疫情模拟器(D-SIHR)和双目标奖励函数,在四类规模城市超10亿条镇级OD数据验证中实现帕累托最优,为精准化分区防控提供新范式。
当COVID-19疫情暴发时,城市化进程中的高频跨区域流动成为病毒传播的加速器。传统防控面临两大矛盾:严格限制人群流动虽能遏制感染扩散,却会造成巨大社会经济损失;而过度放松管控又会导致医疗资源挤兑。更棘手的是,现有方法难以实现镇级行政区的精细化协同管控,且缺乏跨城市规模适用的普适性方案。这种"一刀切"与"精准防控"之间的鸿沟,呼唤着新一代智能决策系统的诞生。
为此,中国研究人员在《Expert Systems with Applications》发表研究,提出H2-MARL创新框架。该研究首先构建动态易感-感染-住院-移除(D-SIHR)模型,通过移动信令数据建立的10亿级镇级OD数据集实现参数在线更新;进而设计多智能体强化学习系统,每个镇级行政区作为独立智能体,通过熵权法动态调节双目标奖励函数权重,结合专家经验回放缓冲区提升探索效率。在四个不同规模城市的实验中,该系统相比传统方法显著降低医院床位占用率23.7%,同时减少流动性损失18.4%。
关键技术方法
研究团队采用三大核心技术:1)基于移动信令数据构建覆盖四类城市规模的镇级OD数据集;2)开发动态SIHR模型,集成贝叶斯更新的在线参数调整机制;3)设计多智能体双目标优化框架,引入空间启发式剪枝算法加速策略搜索。通过融合强化学习与流行病学模型,实现日均千万级决策量的实时响应。
研究结果
环境模拟器验证
D-SIHR模型在R2
达到0.91的拟合优度下,较传统SIHR模型提升28%的预测精度。参数在线更新机制将时间滞后误差控制在12小时以内,显著优于静态参数方法。
策略性能比较
在50万人口城市测试中,H2-MARL使ICU占用峰值降低37.2%,同时保持核心商圈人流密度在安全阈值。其帕累托前沿(Pareto Frontier)明显优于单智能体RL和MPC方法。
跨规模适应性
从百万级到千万级城市,系统保持稳定的决策效能。通过分层注意力机制,智能体间信息共享效率提升42%,验证了架构的可扩展性。
讨论与展望
该研究突破传统防控策略的"二元对立"困境,首次在镇级尺度实现医疗资源与经济社会活动的动态平衡。其创新性体现在三方面:时空建模维度上,D-SIHR模型通过移动大数据实现"数字孪生";算法维度上,熵权法驱动的奖励函数破解多目标优化难题;工程维度上,专家知识嵌入显著提升策略可行性。未来可延伸至气候变化应对、应急资源调度等领域,为智慧城市治理提供新范式。值得注意的是,研究采用的匿名化移动信令数据既保障隐私又确保真实性,这种数据获取模式为后续研究树立了标杆。
生物通微信公众号
知名企业招聘