用于公共卫生决策分析的多智能体强化学习框架

《Healthcare Analytics》:A multi-agent reinforcement learning framework for public health decision analysis

【字体: 时间:2025年11月22日 来源:Healthcare Analytics CS4.4

编辑推荐:

  多智能体强化学习框架优化美国HIV防控策略,考虑跨司法管辖区交互,对比传统单智能体方法及静态优化模型,实验显示MARL在加州和佛州显著降低新感染率(最高达90%),动态分配检测、ART保留和PrEP资源,并通过预算敏感性分析验证策略有效性,提出适应区域异质性的智能决策工具。

  人类免疫缺陷病毒(HIV)是美国面临的重要公共卫生挑战之一。据估计,美国约有120万人生活在HIV感染中,每年新增感染病例约3.5万例。尽管目前没有根治HIV的方法,但早期诊断和抗逆转录病毒疗法(ART)可以有效抑制病毒载量(VLS),从而减少病毒传播的可能性。此外,预防性暴露前预防(PrEP)已被证明能够将HIV感染率降低99%。然而,即便有了这些进步,降低新发感染率仍然是一个持续的挑战,尤其是在地理和人口结构上存在显著差异的地区。为此,美国卫生与公众服务部(HHS)发起了“结束HIV流行(EHE)”计划,旨在到2025年将关键地区的HIV发病率降低75%,并在2030年将全国的发病率降低90%。

为了实现这些雄心勃勃的目标,必须扩大现有的干预措施,如(i)早期诊断的检测,(ii)快速而有效的ART治疗以实现VLS,以及(iii)充分的预防措施,包括对高风险群体的PrEP推广。同时,还需在不同地区和风险群体之间更有效地分配有限的资源,以实现对流行病的控制。然而,现有的HIV模型在评估这些目标时存在明显的局限性。一些模型专注于单个城市,而另一些则基于全国层面的数据进行汇总分析,忽视了地方性流行病的异质性和各地区间在护理和治疗方面的差异。此外,现有模型大多依赖于基于情景的分析,即模拟少数预选情景以进行比较,这在面对大量地区和多年干预策略时显得不足。

为此,我们提出了一种基于多智能体强化学习(MARL)的决策支持框架,该框架能够实现地区特定的决策制定,同时考虑跨地区间的流行病学互动。我们的框架作为智能资源优化系统,帮助政策制定者根据动态、数据驱动的洞察力战略性地分配干预措施。实验结果表明,在加利福尼亚州和佛罗里达州的多个地区中,由MARL驱动的政策优于传统的单智能体强化学习方法,在固定预算限制下显著减少了新发感染。

本文的研究目标有三个:(i)展示MARL在指导HIV干预策略方面的可行性,(ii)将其性能与经典优化基线和现有建模方法进行比较,(iii)通过加利福尼亚州和佛罗里达州的案例研究评估其有效性。我们的研究贡献主要体现在以下几个方面:首先,提出了一种新的HIV政策设计决策支持框架;其次,将MARL与两种单智能体强化学习方法(全国汇总单智能体强化学习(A-SARL)和独立地区单智能体强化学习(I-SARL))以及经典优化基线进行比较;第三,评估了在不同预算限制下的干预策略;第四,提供了一个适用于国家层面的决策分析工具,用于评估在测试、ART保留和PrEP方面的投资,以实现结束HIV流行的目标。

研究的其余部分结构如下:第2节讨论相关文献;第3节概述我们的模拟模型和提出的决策分析方法;第4节介绍实验设置;第5节提供计算结果;第6节讨论发现和局限性;最后,第7节总结论文的结论。

在文献综述部分,我们回顾了在流行病建模和公共卫生资源分配中使用的决策分析和优化框架。此外,还探讨了HIV和冠状病毒(如SARS-CoV-2)干预建模的广泛决策分析方法。Kok等人开发了一个使用系统动力学方法的最优资源分配模型,以减少新发HIV感染。Gopalappa等人和Lin等人则关注了不同干预措施在HIV预防中的成本效益分析。此外,还有许多研究开发了优化模型,以提高HIV预防措施的有效性。在应对另一项近期公共卫生挑战——冠状病毒疫情时,一些研究利用优化模型来确定在疫苗供应有限的情况下,疫苗优先接种策略。例如,Pino等人开发了一个线性规划模型,旨在最小化主要和突破性感染,同时考虑疫苗有效性、免疫力减弱、不同年龄组、人口数据和每周接种率。该模型为政策制定者提供了重要的指导,使其能够识别不同地区的高效疫苗接种和分配策略。Olayiwola等人研究了高风险隔离和疫苗接种策略对冠状病毒传播的影响,发现虽然两种策略都能减少病毒流行,但它们的结合应用能更快地降低疾病流行和新病例数,强调了同时应用多种干预措施的重要性。在其他资源分配方面,Silveira等人开发了一个多阶段优化方法,用于在疫情期间规划重症监护病房的位置和分布。此外,还有许多研究探讨了最优控制策略以管理冠状病毒大流行。然而,上述模型要么使用静态优化,不适合进行连续决策分析,即评估在结束流行病目标下的不同干预措施的时间扩展方式,要么未能考虑地区或人口在干预措施和整体决策中的差异。

强化学习(RL)是一种连续决策分析技术,因此非常适合用于分析公共卫生决策,如疫情中的资源分配、监测和测试策略,以及对隐藏人群的适应性抽样。近年来,RL在公共卫生领域的应用显著增长。一些研究使用深度强化学习(DRL)模型优化了不同冠状病毒缓解政策。例如,Libin等人利用DRL模拟了英国的流感大流行传播。Bednarski等人研究了使用RL模型来促进医疗设备的重新分配,以提高公共卫生响应能力,为未来的危机做准备。在上述研究中使用的DRL算法包括深度Q网络(DQN)、软演员评论家(SAC)和近端策略优化(PPO)。值得注意的是,PPO在处理高维(流行病)状态空间和连续行动(决策)空间的问题上表现出色。

最近,MARL算法在多个领域得到了应用,包括资源分配、机器人路径规划、生产系统和维护管理。Lowe等人提出了一种多智能体演员评论家方法,利用集中训练分散执行(CTDE)结构。Yu等人将问题建模为带有类似CTDE结构的分散部分可观测马尔可夫决策过程(Dec-POMDP),并扩展了PPO到多智能体设置,称为MAPPO(多智能体PPO)。Chu等人和Yang等人在交通信号控制中使用了MARL。Nasir和Guo等人以及Lin等人和Yu等人分别在无线网络、车队管理和供暖、通风和空调系统中使用了不同的多智能体算法。据我们所知,MARL尚未应用于公共卫生领域。

在方法论部分,我们采用MARL来寻找实现EHE目标的地区特定最优干预政策,即在美国实现90%的HIV感染率下降。MARL的一般框架包括(a)一个分散的马尔可夫决策过程(Dec-MDP)来建模决策问题,(b)一个多地区模拟模型来评估策略(决策序列),以及(c)一个解决方案算法来指导策略选择。在本研究中,我们评估了独立近端策略优化(IPPO)和CTDE两种方法。图1提供了我们MARL框架的示意图,其中代理的动作传递给分隔模拟模型,以模拟人口并获得下一个状态和奖励。其余方法部分如下:在第3.1节中,我们讨论了模拟模型;在第3.2节中,我们讨论了Dec-MDP的建模;在第3.3节中,我们讨论了解决方案算法。

在实验设置部分,我们使用了来自美国国家HIV监测系统的数据,对每个地区的模拟模型进行了初始化,以匹配2018年的HIV状况。所有输入数据,包括自然疾病进展、性行为和传播相关参数以及模型验证,均在文献中讨论。我们重点关注了加利福尼亚州(CA)和佛罗里达州(FL),因为这两个州各自拥有多个EHE优先县。具体的地区如下:加利福尼亚州包括阿拉米达县、洛杉矶县、橙县、里弗赛德县、萨克拉门托县、圣贝纳迪诺县、圣地亚哥县,以及其余的加利福尼亚州。佛罗里达州包括布罗瓦尔县、杜瓦尔县、希尔斯伯勒县、迈阿密-戴德县、橙县、棕榈滩县、皮尼拉斯县,以及其余的佛罗里达州。

我们进行了三项实验:第一项比较了MARL、A-SARL和I-SARL的最优结果(HIV发病率随时间的变化);第二项比较了不同的MARL算法;第三项评估了不同约束条件下的最优政策及其对实现EHE目标的影响。在第一项实验中,我们比较了MARL、A-SARL和I-SARL在固定预算和相似目标函数下的最优结果。MARL是本文提出的模型,A-SARL和I-SARL分别代表了文献中的国家和独立模型。这一实验还比较了MARL与经典优化方法,如目光短浅方法和交叉熵方法(CEM)。与MARL不同,目光短浅方法和CEM都是静态优化方法。尽管动态规划更适合连续决策分析,但它们不适用于连续状态和行动空间。因此,我们比较了我们的算法与目光短浅方法和CEM,因为它们是最适合处理连续状态和行动空间问题的方法。

在第二项实验中,我们比较了来自附录B的MARL算法(IPPO、CTDE和CTDE(行动)),使用发病率作为结果指标。附录B详细描述了这些强化学习算法及其实现。第三项实验评估了不同干预约束对HIV发病率的影响。前两项实验使用了“基线”动作空间,其中干预扩大遵循过去趋势,没有达到EHE目标时不施加惩罚,且使用了“基线预算”,即维持现状干预水平所需的最低成本。我们还对所有96个地区实施了基线情景,以展示模型的可扩展性。

在结果部分,我们比较了MARL、A-SARL和I-SARL在加利福尼亚州和佛罗里达州的发病率和成本结果。如预期,MARL在两个州都显著优于其他两种方法。这一模式在比较这些州内各个地区的发病率时也是一致的。A-SARL的结果表明,干预选择会偏向较大的地区。如果较大的地区有较高的流行率,这将导致所有地区的干预扩大,从而在较小流行率地区造成不必要的成本。I-SARL的结果表明,忽视地区间混合可能导致低效的干预选择。

与目光短浅方法和CEM优化方法相比,MARL的HIV发病率显著较低。得出的策略表明,目光短浅方法可能更关注即时收益,因此在布罗瓦尔县(高HIV负担地区)倾向于减少检测,在佛罗里达州其他地区则增加PrEP。这一结果符合目光短浅方法的预期,因为PrEP的影响发生在同一时间步,而检测的全部影响则在获得治疗和达到病毒抑制之后才会显现。尽管PrEP在MARL和CEM中相似,但CEM倾向于在布罗瓦尔县和佛罗里达州其他地区减少检测频率。虽然CEM考虑了长期收益,但它可能收敛到局部最优解。考虑到显著大的状态和动作空间,以及传播动力学,我们可以预期CEM会出现收敛问题。

在预算情景比较中,我们使用IPPO进行最后的分析。结果表明,如果预算保持在当前水平,即基线情景,到2030年,HIV发病率将减少35%。接下来,我们比较了不同预算分配情景对加利福尼亚州和佛罗里达州的影响。基线情景(情景1)在加利福尼亚州和佛罗里达州分别实现了16%和26%的发病率减少。激进的干预扩大(情景2)在相同成本下实现了显著更高的发病率减少。当预算进一步增加时,最优策略是扩大所有三种干预措施,从而达到90%的EHE发病率目标。附录I中的比较显示,尽管ART扩大在所有地区是相同的,但PrEP和检测的扩大在不同地区有所不同,通常在感染风险较高的地区和人群中分配更多资源。

敏感性分析部分,我们测试了所学策略的鲁棒性,通过在加利福尼亚州和佛罗里达州对HIV相关成本和地区间混合进行敏感性分析。我们调整了检测、治疗和PrEP的单位成本,分别在±20%的范围内进行测试。结果表明,总成本随成本变化而线性增加或减少,但在高成本情景下可能违反预算限制。然而,新感染数并未显著变化,这表明成本假设的变化可能影响财务可行性,但鉴于治疗成本较高,最优策略可能倾向于预防感染。在地区间混合的敏感性分析中,我们调整了 MSM群体内的混合比例,±20%。所有三种情景的流行病轨迹相似,这表明所学策略对适度的行为模式变化具有鲁棒性。尽管极端的混合假设可能改变流行病动态,但MARL策略对合理的混合假设变化是稳健的。

在讨论部分,我们强调了所提出框架的关键发现和政策意义。该框架通过将地区建模为相互作用的智能体,实现了在动态流行病和预算条件下对HIV预防和治疗策略的优化。MARL框架在多个地区表现出色,显著优于传统优化基线,包括目光短浅优化和交叉熵方法,以及单智能体强化学习基线,通过动态减少新感染并尊重预算限制。结果突显了连续、适应性决策在捕捉长期流行病动态和指导资源分配方面的价值。通过提供地区特定、数据驱动的干预策略建议,这一框架有望显著影响政府资源规划和公共卫生管理。它允许政策制定者在不同地区之间做出更明智、优化的资源分配决策,包括哪些干预措施需要优先考虑以及如何有效扩大这些措施。

未来的研究可以沿着多个方向扩展这项工作。方法论上,MARL框架可以扩展以纳入现实的预算和非货币约束,以及政策实施期间资金的随机波动。从建模的角度来看,纳入行为异质性、动态性性网络结构以及额外的传播途径,如注射吸毒,可以提高流行病动态的现实性。整合公平性目标可以进一步支持在不同地区之间公平分配预防和治疗资源。最后,与公共卫生机构的协作可以实现实际验证和政策转化,生成可操作的见解,以指导国家HIV预防和治疗策略的下一阶段。

在结论部分,本文总结了研究的主要发现,并强调了多智能体强化学习在公共卫生决策中的潜力。通过将地区建模为相互作用的智能体,MARL框架在多个地区表现优异,显著优于传统优化方法和单智能体强化学习方法,从而动态减少新感染并尊重预算限制。结果突显了连续、适应性决策在捕捉长期流行病动态和指导资源分配方面的价值。通过提供地区特定、数据驱动的干预策略建议,这一框架有望显著影响政府资源规划和公共卫生管理。它允许政策制定者在不同地区之间做出更明智、优化的资源分配决策,包括哪些干预措施需要优先考虑以及如何有效扩大这些措施。

此外,我们提供了一个术语表,以帮助理解研究中使用的特定概念和术语。包括“结束HIV流行(EHE)”、“地区”、“HIV流行率”、“抗逆转录病毒疗法(ART)”、“病毒载量抑制(VLS)”、“预防性暴露前预防(PrEP)”、“HIV护理连续体”、“护理保留”、“分隔模拟模型”、“CD4计数”、“异性男性/女性”、“男性同性性行为者(MSM)”、“诊断率”、“流失率”、“独立近端策略优化(IPPO)”和“集中训练与分散执行(CTDE)”等术语。这些术语的定义和应用有助于读者更好地理解研究的背景和方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号