辅助治疗中尼伏卢单抗与派姆博利珠单抗在ⅡB/ⅢC期黑色素瘤中的比较：一项基于强化学习的模拟研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Clinical and Translational Oncology》：Adjuvant nivolumab vs pembrolizumab in stage IIB/IIC melanoma: a reinforcement learning-based simulation study

【字体：大中小】 时间：2025年11月05日 来源：Clinical and Translational Oncology 2.8

编辑推荐：

　　PD-1抑制剂在黑色素瘤治疗中疗效与安全性权衡研究。采用强化学习模型模拟患者状态，通过RFS增益（+1/2个月）和AE/停药惩罚构建奖励函数，比较nivolumab与pembrolizumab。结果显示治疗选择取决于临床优先级：侧重耐受性时nivolumab因更低3-4级AE和停药率占优，侧重生存期则pembrolizumab更优。AE建模方法（ raw或placebo-adjusted）显著影响结果，强调临床决策需结合具体情境和毒性数据。

摘要

背景

辅助性程序性细胞死亡蛋白1（PD-1）抑制剂（尼伏鲁单抗、帕博利珠单抗）可提高IIB–IIC期黑色素瘤患者的无复发生存期（RFS），但目前尚无直接对比这两种药物的头对头试验。传统的间接方法可以估计相对疗效，但往往无法综合考虑毒性和患者层面的权衡因素。强化学习（RL）为在不确定性及多种临床优先事项并存的情况下进行决策模拟提供了框架。

方法

我们构建了一个强化学习模型，将每个模拟患者视为一个独立的环境，状态变量包括年龄、ECOG评分、疾病分期、复发时间以及不良事件（AE）的结果。决策选项为选择尼伏鲁单抗或帕博利珠单抗进行治疗。奖励机制将无复发生存期的延长（每2个月增加1个月）与3-4级不良事件和停药情况相关联，并同时考虑了原始数据与安慰剂校正后的不良事件发生率。该模型通过1000个虚拟试验场景进行迭代训练，直至策略收敛。

结果

强化学习模型得出的治疗策略反映了患者在不同条件下的偏好，而非单一的最优选择。在更注重耐受性的场景中，由于尼伏鲁单抗的3-4级不良事件和停药率较低，因此更受青睐；而在重视无复发生存期增量获益的情境下，帕博利珠单抗成为更优选择。安慰剂校正后的不良事件模型对偏好平衡产生了显著影响，这突显了在安全性比较评估中归因分析的重要性。

结论

我们的强化学习框架通过明确治疗过程中的权衡因素并使其依赖于具体场景，补充了现有的比较方法。该模型并非简单地判定哪种PD-1抑制剂“最佳”，而是根据具体情境来评估疗效与毒性的平衡，从而支持在那些细微绝对差异可能对患者和临床医生决策产生重大影响的场景中做出透明化的决策。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号