
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的东南亚人群心血管疾病风险预测模型构建与验证
【字体: 大 中 小 】 时间:2025年09月14日 来源:International Journal of Cardiology Cardiovascular Risk and Prevention 2.1
编辑推荐:
心血管疾病(CVD)风险预测在亚洲人群存在显著校准偏差,马来西亚研究团队通过机器学习(ML)整合区域特异性变量,开发出性能优于Framingham风险评分(FRS)的预测模型(SVM AUC=0.800),NRI改善达17.29%,为东南亚人群提供更精准的风险评估工具。
心血管疾病(CVD)长期占据全球死因首位,但传统风险评估工具如Framingham风险评分(FRS)和Revised Pooled Cohort Equations(RPCE)在亚洲人群表现欠佳——FRS在中国队列会高估风险15-20%,而SCORE2?在东南亚人群中又低估12%卒中风险。这种"水土不服"源于亚洲人群独特的遗传背景、生活方式和代谢特征,比如东南亚人在较低BMI阈值就会出现代谢异常,APOA5基因变异与冠心病显著相关。马来西亚作为多民族国家,其心血管流行病学特征在东南亚地区具有代表性,却缺乏本土化风险评估工具。
为解决这一临床痛点,Universiti Teknologi MARA的研究团队在《International Journal of Cardiology Cardiovascular Risk and Prevention》发表重要成果。他们利用REDISCOVER队列(含10,044名马来西亚多民族受试者,随访12.05年),通过机器学习算法开发出首个针对马来西亚人群的CVD风险预测模型。研究采用递归特征消除(RFE)和逐步后向选择(SBE)筛选特征,比较了逻辑回归(LR)、随机森林(RF)和支持向量机(SVM)性能,并引入SHAP值提升模型可解释性,最终通过Platt标度法校准预测概率。
【关键技术方法】
研究基于REDISCOVER纵向队列(2007-2010年入组),从初始202个变量中筛选出40个核心特征。采用5折交叉验证,应用ROSE算法处理数据不平衡问题。通过SBE和RFE进行特征选择,优化LR、RF和SVM模型参数(如RF的mtry=2,ntree=500)。使用AUROC、NRI和Hosmer-Lemeshow检验评估性能,并采用Platt标度法校准模型。
【研究结果】
患者特征
4,299例最终纳入分析的受试者中,3.88%发生CVD事件。病例组平均年龄更高(57.75 vs 51.33岁),血压(149.13/84.99 mmHg)、腰围(91.29 cm)及甘油三酯(2.03 mmol/L)水平显著升高,肺功能指标(FVC 2.15L,FEV1 1.89L)明显降低。
特征选择
SBE筛选的11个关键特征包括年龄、BMI、握力等传统模型未包含的指标,而吸烟状态因与其他变量交互作用未被最终纳入。与FRS的8个参数相比,新模型整合了腰臀比、家族史等地域特异性因素。
模型性能
SBE优化的LR模型表现最佳(AUC=0.800),显著优于FRS(0.693)和RPCE(0.744)。NRI分析显示对FRS和RPCE分别有17.29%和14.23%的改善(p<0.00001)。校准后模型仍存在轻微高估倾向,但较原始版本显著改善。
SHAP分析
年龄、握力、BMI构成最重要的预测 triad。值得注意的是,小腿围(右腿)作为肌肉量代用指标首次被识别为独立预测因子,这与东南亚人群肌肉减少症与代谢紊乱的独特关联相吻合。
【结论与意义】
该研究突破性地证明:整合地域特异性变量的ML模型能显著改善东南亚人群CVD风险预测。临床转化方面,团队已开发在线评估平台(myheartrisk.uitm.edu.my),其创新性体现在:1) 首次纳入功能性指标如握力、小腿围;2) 通过SHAP实现"黑箱"模型的可视化解读;3) 针对多民族数据优化特征选择。
局限性在于尚未进行外部验证,且缺乏遗传标记数据。未来需在更广泛的东南亚队列中验证,并探索将APOA5等基因变异纳入模型的可行性。这项研究为开发适用于"一带一路"国家的智能健康评估工具提供了范式,其方法论对解决医疗AI的"本土化困境"具有重要启示。
生物通微信公众号
知名企业招聘