基于深度确定性策略梯度(AutoSDM-DDPG)的医患多议题自动协商框架:模糊约束下的共享决策优化

【字体: 时间:2025年07月22日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对传统共享决策(SDM)在复杂医疗场景中处理动态偏好和多议题协商的局限性,提出基于深度确定性策略梯度(DDPG)的AutoSDM-DDPG框架。通过融合模糊约束理论与Actor-Critic网络,该模型实现了医患非线性偏好的动态建模与策略优化,实验表明其在社会福祉(CASV)、满意度均衡性(DASV)和协商效率(Avg.R)上显著优于ANFGA等基线模型,为临床决策自动化提供了高效公平的新范式。

  

在医疗决策领域,传统的共享决策(SDM)模式长期面临"信息不对称"和"偏好冲突"的双重困境。医生基于专业知识的治疗方案常与患者关注的治疗成本、便利性等需求产生矛盾,这种"医患目标错位"在儿童哮喘等需长期管理的疾病中尤为突出。更棘手的是,患者偏好往往具有模糊性——他们可能要求"尽可能少副作用"却难以量化具体阈值,而现有系统多依赖线性模型,无法捕捉这种非线性特征。厦门理工学院人工智能学院的研究团队在《Scientific Reports》发表的创新研究,通过深度强化学习与模糊数学的跨界融合,为这一难题提供了智能解决方案。

研究团队开发了AutoSDM-DDPG框架,核心技术包括:1) 基于梯形隶属函数的模糊约束建模,将治疗成本、疗效等5项议题转化为可计算的满意度区间;2) 深度确定性策略梯度(DDPG)算法构建的Actor-Critic双网络,通过300轮预训练学习最优协商策略;3) 交替报价协议(AOP)下的多轮动态博弈机制,实验采用500次模拟谈判验证性能。

Modeling of the SDM negotiation scenarios
通过定义治疗成本(2.9-7.4k RMB)、疗效(6-10级)等5维议题空间,构建梯形模糊隶属函数量化满意度。如表1所示,高剂量ICS/LABA+LTRA方案因平衡疗效与风险成为典型协商焦点。

Negotiation strategy
创新性地将时间依赖策略与相对TFT策略融合:当c<1时采用Boulware策略(前期强硬后期让步),而通过式(5)的让步比例计算实现行为反馈,较传统ANF-TIME模型减少19.7%谈判轮次。

SDM negotiation framework overview
如图2所示的双Agent架构中,Critic网络通过式(7)的Q值更新实现策略评估,而Actor网络按式(8)的梯度上升优化出价。关键突破在于用式(10)的正态分布采样生成多议题出价,解决连续-离散混合动作空间的探索难题。

Experiment results
在30轮期限的哮喘治疗谈判中,AutoSDM-DDPG的CASV达1.398±0.032,较ANFGA提升2.2%,且DASV降低至0.158(FCAN为0.301)。如图5-6所示,其优势在9议题复杂场景中更显著,谈判轮次保持在10.1轮,仅为ANF-TIME的53%。

该研究首次实现医疗决策协商的"三维突破":时间维度上通过DDPG实现毫秒级实时策略调整;空间维度上处理5-9维非线性议题;认知维度上精准建模模糊偏好。临床转化后,可应用于肿瘤治疗方案选择等高风险决策场景,为AI赋能的精准医疗提供新范式。值得注意的是,框架在训练阶段需4.5小时(RTX 3090),但推理时单次谈判仅需0.3秒,满足临床实时性需求。未来工作将拓展至包含家属的多Agent群体决策,并探索PPO等算法在医疗谈判中的适应性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号