自动化机器学习增强心血管风险评估:一项基于LURIC和UMC/M队列的多阶段研究
《Scientific Reports》:Cardiovascular risk assessment enhanced by automated machine learning in a multi-phase study
【字体:
大
中
小
】
时间:2025年10月21日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对心血管疾病(CVD)风险预测中传统评分工具的局限性,利用自动化机器学习(AutoML)技术对LURIC(n=3316)和UMC/M(n=423)临床数据集进行多阶段分析。研究成功构建了可预测脂蛋白(a)[Lp(a)]水平、特定CVD事件及10年心血管死亡风险的模型,曲线下面积(AUC)达0.6249-0.9101,并通过SHAP分析揭示了他汀治疗、年龄、NTproBNP等关键预测因子。该研究为个性化心血管风险分层提供了新范式,凸显了AutoML在临床决策支持系统中的转化潜力。
心血管疾病(CVD)是全球首要死因,每年导致约1860万人死亡。尽管现有风险评估工具如PROCAM、SCORE2等被临床广泛使用,但其预测准确性有限——仅20-30%患者能从现有疗法中获益,部分患者即便接受治疗仍会发生心血管事件。这提示除年龄、高血压、胆固醇等传统因素外,还存在尚未被充分认知的风险因子。脂蛋白(a)[Lp(a)]作为唯一已知的冠状动脉疾病的单基因风险因子,影响全球约14亿人,且其水平主要由遗传决定,对生活方式干预不敏感。当前他汀治疗可能升高Lp(a),而PCSK9抑制剂仅能有限降低其水平。尽管新型疗法如反义寡核苷酸显示前景,但Lp(a)的临床管理仍面临诊断不足、干预手段有限的挑战。将Lp(a)加入传统风险评分仅带来边际改善,而医疗数据的复杂性更使得从海量信息中提取临床洞见变得困难。机器学习(ML)虽能高效处理大数据,但其临床应用受限于数据科学专业知识的高门槛。自动化机器学习(AutoML)作为ML的分支,旨在通过降低技术门槛,使非编程人员也能构建预测模型,从而为改进风险评估、生成贴合本地医疗环境特点的模型提供新可能。
本研究采用DataRobot AutoML平台,基于德国LURIC研究(1997-2000年招募3316例接受冠状动脉造影患者)和曼海姆大学医学中心(UMC/M)脂质学门诊数据集(2017-2020年收集423例患者)进行三阶段分析。Phase 1利用各数据集特有特征独立构建预测Lp(a)>50 mg/dL及特定CVD事件的模型;Phase 2将两数据集对齐为36个共同特征后,用LURIC-Common训练模型并在UMC/M-Common上进行外部验证;Phase 3基于LURIC数据构建四个特征集(EoL-1至EoL-4)的10年心血管死亡率(CV-EoL)预测模型。模型性能以曲线下面积(AUC)为主评估,辅以SHAP值进行特征重要性解析,并对新数据进行了数据漂移评估。
Phase 1:AutoML数据集分析寻找Lp(a)和CVD事件的决定因素
模型在交叉验证中表现良好,AUC范围0.6249-0.9101。LURIC数据集模型整体优于UMC/M模型,其中“早期CAD-L”预测性能最佳(AUC 0.9101),而“LPA-L”(预测Lp(a)>50 mg/dL)性能相对最低。通过特征影响和特征效应分析发现,在LURIC队列中,冠状动脉疾病(cadyn)是 elevated Lp(a) 的最强决定因素;而在UMC/M队列中,左心室功能(LVF)影响力最高。值得注意的是,依折麦布治疗(Ezetimibe_at0)是UMC/M模型中第二重要的Lp(a)预测因子。对于冠状动脉疾病(CAD),年龄在LURIC和UMC/M模型中均为最具影响力的特征。Lp(a)是LURIC模型中CAD的前十决定因素之一,但在UMC/M模型中未进入前十;相反,体重指数(BMI)在UMC/M模型中重要性凸显。肌钙蛋白T在LURIC的CAD和心肌梗死(MI-L)模型中均是关键预测因子。对于早期CAD,年龄在LURIC模型中占据绝对主导地位;而对于UMC/M队列中的早期心血管疾病(early CV conditions-U),胆固醇、维生素D和低密度脂蛋白(LDL)的影响更为均衡。在心肌梗死(MI-L)和急性冠状动脉综合征(ACS-U)的分析中,NTproBNP(N末端B型利钠肽原)均是高影响力特征。对于卒中(Stroke-L)和外周动脉疾病(PAD-L),颈动脉狭窄(carosten)和心血管死亡(CV-EoL)分别是重要预测因子。
Phase 2:针对特定CVD事件的精炼ML模型的一致性评估
使用共有的36个特征后,模型在外部验证(UMC/M数据集)中AUC范围为0.6465-0.8080,平均AUC为0.74,略低于Phase 1,但仍具稳健性。其中,“MI Common”和“PAD Common”模型在外部数据集上表现出良好的判别能力,而“Stroke Common”模型性能相对较弱。SHAP分析揭示了模型决策机制。例如,对于“CAD Common”,他汀治疗(statinyn)成为最具影响力的特征,取代了Phase 1中年龄的重要性。对于“MI Common”,SHAP决策图显示性别、吸烟(smoclass)、左心室造影结果(lvangio)、NTproBNP水平(pbnpl1)和他汀治疗共同推动心肌梗死的预测风险。对于“PAD Common”,C反应蛋白(CRP)成为一个新的重要预测因子。将模型应用于一个假设的高危患者(73岁男性,吸烟,高胆固醇,高CRP)显示,其在不同CVD结局上的预测风险各异,体现了模型的个性化评估能力。对整个UMC/M队列(n=423)的预测结果显示,362例被预测患有CAD,130例患有MI,25例患有卒中,4例患有PAD,14例患有ACS。
Phase 3:使用AutoML进行心血管死亡风险分层
基于LURIC数据构建的四个心血管死亡率预测模型中,使用L2正则化逻辑回归的EoL-1模型性能最优,交叉验证AUC达0.85。SHAP分析表明,年龄、NTproBNP(pbnpl1)和维生素D25(vitd25)是多数EoL模型中的重要特征。高年龄和高NTproBNP水平通常与死亡风险增加相关,而维生素D25的影响在不同模型间存在差异,在EoL-1模型中较低水平预示更高风险。Lp(a)(elpa)在EoL-3模型中重要性排名第五,但在EoL-4模型中降至第十。将最优的EoL-1模型应用于两个假设患者:一个49岁低风险女性和一个52岁高风险男性,模型成功识别出其风险差异。使用UMC/M数据集进行外部验证时,数据漂移分析发现年龄分布和死亡率随访数据的缺失是主要问题,但多数特征保持“健康”状态,表明模型对新数据的预测在一定范围内仍可靠。UMC/M队列中有42例患者被EoL-1模型预测为10年内会发生心血管死亡。
本研究通过AutoML框架,证实了Lp(a)在多种心血管结局预测中的重要作用,并揭示了其与传统风险因子、治疗史(如他汀、依折麦布)及新型生物标志物(如NTproBNP、维生素D)之间的复杂交互。Phase 2验证了模型在不同队列间的可移植性,尽管性能略有衰减,但SHAP分析增强了模型决策的透明度。Phase 3构建的高精度死亡率预测模型及数据漂移评估,为模型在真实世界中的持续校准和部署提供了方法论支持。与传统风险评分相比,AutoML模型能够捕捉非线性关系,整合更多变量,从而可能提供更个性化的风险评估。然而,研究的局限性包括回顾性设计、队列间差异、UMC/M队列缺乏死亡率随访数据用于外部验证,以及当前模型为二元分类而非生存分析模型。未来研究方向包括开发生存分析ML模型、在前瞻性研究中验证、探索更多新型生物标志物,以及将此类模型整合到临床工作流程中。总之,这项工作展示了AutoML在提升心血管风险分层、实现更早干预和个性化管理方面的巨大潜力,为应对全球心血管疾病负担提供了新的技术路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号