基于电子病历与混合效应机器学习模型解析DPP-4抑制剂日剂量与2型糖尿病患者糖化血红蛋白变化的真实世界剂量-反应关系
《BMC Pharmacology and Toxicology》:Association between daily dose of dipeptidyl peptidase-4 inhibitors and change in glycated hemoglobin in patients with type 2 diabetes: interpretation of mixed-effects machine-learning models using electronic medical records
【字体:
大
中
小
】
时间:2025年11月24日
来源:BMC Pharmacology and Toxicology 2.8
编辑推荐:
本研究针对真实世界中DPP-4抑制剂剂量与HbA1c变化呈非线性关系且传统线性模型难以准确评估的问题,研究人员利用电子病历数据,开发并解释了混合效应机器学习模型(MERF和GPBoost)。结果显示,非线性的树模型预测性能优于线性混合模型(LMM),并清晰揭示了西格列汀(0-50 mg/日)和替格列汀(10-20 mg/日)的HbA1c降低效应存在剂量依赖性饱和现象,维格列汀50 mg每日两次的降糖效果略优于每日一次。此研究为在真实世界数据中评估药物剂量-反应关系提供了有力的方法论支持。
对于全球数亿2型糖尿病(T2D)患者而言,有效控制血糖是延缓并发症的关键。在众多降糖药物中,二肽基肽酶-4(DPP-4)抑制剂因其低血糖风险低、耐受性好,已成为日本等地区一线治疗的常用选择。然而,一个关键的科学与临床问题始终萦绕:在复杂的真实医疗场景中,DPP-4抑制剂的降糖效果是否随着剂量的增加而持续增强?传统的随机对照试验(RCT)作为金标准,通过将患者固定分配至不同剂量组,初步揭示了DPP-4抑制剂可能存在非线性的剂量-反应关系,即达到一定剂量后,降糖效果会进入平台期。但现实世界远非试验环境那般“理想”——患者的用药剂量会随着其血糖控制情况而动态调整,就诊时间间隔也参差不齐。更重要的是,影响糖化血红蛋白(HbA1c)水平的因素繁多,包括年龄、病程、合并用药及肝肾功能等。传统的线性混合效应模型(LMM)难以捕捉这种复杂的非线性关系。因此,亟需一种能够同时处理真实世界纵向数据的复杂性(如不规则访视、个体差异)和非线性关系的分析方法,以精确描绘DPP-4抑制剂在真实临床实践中的剂量-效应曲线。
为了回答这一难题,由日本大学医学院的Takashi Hayakawa、Hayato Akimoto等研究人员领衔的团队,在《BMC Pharmacology and Toxicology》上发表了一项创新性研究。他们利用日本大学医学院临床数据仓库(NUSM‘s CDW)中2004年至2024年的电子病历数据,开展了一项回顾性观察研究。研究团队聚焦于首次使用西格列汀(≤50 mg/日)、替格列汀(≤20 mg/日)或维格列汀(≤50 mg,每日两次)作为一线治疗的T2D患者,排除了使用胰岛素、GLP-1类似物或特定非典型抗精神病药的患者,最终分别纳入了503名、336名和219名患者进行分析。研究的核心是因变量“HbA1c变化值(ΔHbA1c)”,即相邻两次就诊间HbA1c的差值。研究者构建了包含43个特征的固定效应集,涵盖人口学信息、实验室检查、合并症、合并用药以及DPP-4抑制剂的日剂量等。为了处理数据中存在的层次结构(患者嵌套于医院)和个体内重复测量相关性,研究不仅采用了传统的LMM(含/不含向后剔除法)作为参照,更引入了两种先进的树基混合效应机器学习模型:混合效应随机森林(MERF)和结合树提升与高斯过程及混合效应的模型(GPBoost)。这些模型能够同时捕捉固定效应的非线性关系以及随机效应(医院和患者层面的随机截距和斜率)。模型性能通过测试集的均方根误差(RMSE)进行评估,并使用SHapley Additive exPlanations(SHAP)值和偏依赖图等可解释性人工智能(XAI)技术来解读DPP-4抑制剂日剂量与ΔHbA1c之间的关联。
本研究主要基于日本大学医学院临床数据仓库(NUSM‘s CDW)的电子病历数据,纳入了使用三种DPP-4抑制剂(西格列汀、替格列汀、维格列汀)的2型糖尿病患者队列。研究核心是开发并比较四种预测ΔHbA1c的模型:两种线性混合效应模型(LMM)和两种树基混合效应机器学习模型(混合效应随机森林MERF和结合树提升与高斯过程的GPBoost模型)。利用SHAP值和偏依赖图等可解释性AI技术来解析剂量-反应关系。
纳入分析的西格列汀、替格列汀和维格列汀使用者的基线特征相似。患者平均年龄在63-65岁之间,平均体重指数(BMI)约为24.5 kg/m2,中位HbA1c水平在7.6%-7.7%之间,肝肾功能指标大多正常。这表明研究人群代表了日本临床实践中典型的使用DPP-4抑制剂作为一线治疗的T2D患者。
在所有三种DPP-4抑制剂使用者中,树基机器学习模型(MERF和GPBoost)在预测ΔHbA1c方面均显著优于线性模型(LMM)。例如,在西格列汀使用者中,MERF和GPBoost的RMSE(95% CI)分别为0.585(0.449, 0.737)和0.604(0.471, 0.760),而LMM和LMM+BE的RMSE分别为0.736(0.609, 0.884)和0.732(0.609, 0.880)。类似的优势在替格列汀和维格列汀使用者也得到证实,表明非线性模型能更好地捕捉真实世界中影响HbA1c变化的复杂因素。
在MERF和GPBoost模型中,既往HbA1c水平、T2D病程和DPP-4抑制剂日剂量是预测ΔHbA1c最重要的三个特征。SHAP摘要图显示,较高的既往HbA1c水平和DPP-4抑制剂的使用倾向于降低后续的ΔHbA1c(即促进HbA1c下降),而较长的T2D病程则倾向于增加ΔHbA1c(即不利于HbA1c控制)。
通过偏依赖图和SHAP依赖图对模型进行解读,揭示了每种DPP-4抑制剂独特的剂量-反应模式:
- •西格列汀:ΔHbA1c在0至50 mg/日剂量范围内呈剂量依赖性下降,但从50 mg/日增至100 mg/日时,ΔHbA1c的改善非常有限,表明其HbA1c降低效应在50 mg/日左右达到平台期。
- •替格列汀:ΔHbA1c在0至20 mg/日剂量范围内呈现下降趋势,但10 mg/日剂量的效果似乎弱于20 mg/日和40 mg/日。然而,在20 mg/日和40 mg/日之间未观察到明显差异,提示20 mg/日可能已达到最大效应平台。
- •维格列汀:由于数据限制,仅评估了50 mg每日一次和50 mg每日两次(即100 mg/日)两种方案。结果显示,每日两次给药方案的ΔHbA1c降低幅度略优于每日一次方案,但差异较小。
本研究成功地将混合效应机器学习模型应用于真实世界电子病历数据分析,有力地证实了DPP-4抑制剂在真实临床环境中的剂量-反应关系确实存在非线性特征,特别是饱和效应。研究结果与既往高质量的随机对照试验发现高度一致,例如西格列汀在50 mg以上剂量降糖效应达到平台期,这可以从其药效学(PD)角度解释——当剂量达到一定程度后,对血浆DPP-4酶的抑制率超过80%,进一步增加剂量难以显著提升降糖效果。对于替格列汀,20 mg每日一次可能已是其发挥最佳效应的剂量。维格列汀每日两次给药方案略优的趋势可能与药物半衰期较短有关,但用药依从性等未观测因素可能影响了结果的精确评估。
该研究的重大意义在于方法学的创新。它超越了单纯验证已知临床结论的层面,展示了如何利用先进的机器学习模型(如MERF和GPBoost)从非随机、不规则的真实世界数据中,稳健地提取出与严格设计的临床试验相媲美的科学见解。这种“真实世界证据+可解释人工智能”的研究范式,为药品上市后的再评价、个体化用药方案的优化以及医疗资源的有效配置提供了强大且相对经济的新工具。当然,研究也存在一些局限性,如回顾性观察性设计固有的潜在偏倚、无法获取药代动力学/药效学(PK/PD)参数和用药依从性数据、样本均来自日本人群可能影响结果外推性等。未来的研究可在此基础上,纳入更广泛的人群和更丰富的临床变量,进一步深化我们对降糖药物在真实世界中作用规律的理解。总之,这项研究为利用真实世界数据评估药物疗效树立了典范,标志着糖尿病精准医疗研究向前迈出了坚实的一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号