多组织灾害响应中志愿者与物资联合调度的自适应深度强化学习决策系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《OMEGA-INTERNATIONAL JOURNAL OF MANAGEMENT SCIENCE》：Joint scheduling policy for volunteers and materials in multi-organizational disaster response

【字体：大中小】 时间：2026年01月03日 来源：OMEGA-INTERNATIONAL JOURNAL OF MANAGEMENT SCIENCE 7.2

编辑推荐：

　　本文提出了一种基于分层深度强化学习（HDRL）的自适应跨组织决策系统，将志愿者分配、物资调配与补货周期整合为统一马尔可夫决策过程（MDP）。该系统通过双时间尺度控制器实现突发任务需求下的实时资源协同优化，在多种灾害场景中显著降低任务积压（30-85%）与人力成本（16-42），为生命科学领域的应急医疗资源调度提供了动态决策新范式。

¹研究亮点

通过分层深度强化学习（HDRL）实现志愿者-物资联合调度，在突发灾害场景中任务积压减少30-85%，人力成本降低16-42%

双时间尺度控制器同步优化长期补货周期与短期任务分派，解决多组织协作中的资源竞争与技能异构难题

动态适应物资腐败率（δ_r）与任务到达波动，实现毫秒级推理延迟的自主决策系统

²研究结论

本文开发的联合控制器在J∈{3,5}类任务队列与高/低负载场景中均表现稳健。相较于传统启发式规则（cμ规则与最短处理时间SPT），集中式任务分派与技能匹配机制显著降低重复工作率，同时保持物流成本竞争力。通过γ折扣因子实现跨期成本平衡，验证了HDRL在非稳态灾害环境中的决策优势。

³研究局限

当前模型在超大规模场景下面临状态空间爆炸挑战，未来需探索基于注意力机制的架构优化。此外，物资腐败模型未考虑温度湿度等环境变量，跨组织数据共享的隐私保护机制也有待完善。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号