机器学习与传统统计在心血管疾病特异性死亡率预测中的较量:非侵入性指标的突破性价值

【字体: 时间:2025年10月09日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对心血管疾病(CVD)特异性死亡率预测模型在亚洲人群中的适用性问题,利用韩国大规模队列数据,系统比较了传统统计方法与机器学习模型在仅使用非侵入性指标及联合侵入性指标时的预测效能。研究发现,仅基于年龄、性别、腰高比(WHtR)、糖尿病、高血压和体力活动等非侵入性变量的模型(AUC>0.800)不劣于加入血脂谱的模型,且机器学习方法(如RSF和GBS)展现出略优的时序判别能力。该研究为开发适用于亚洲人群的简易高效CVD风险评估工具提供了重要依据,对临床决策和公共卫生策略具有指导意义。

  
心血管疾病(CVD)是全球死亡的首要原因,占所有死亡人数的32%。在韩国,CVD特异性死亡率位居死因第二位。CVD死亡往往突然发生,心脏骤停常先于死亡,且通常没有先兆症状或明显征兆。因此,预防心血管相关死亡至关重要,促使了风险评估模型的开发,以预测和减轻CVD。
然而,现有的CVD风险预测模型,如美国的 Framingham 风险评分模型和欧洲的 SCORE 项目,在应用于韩国人群时可能存在局限性。Framingham 风险评分模型可能高估韩国人的风险,并且外国预测模型可能存在种族和/或文化差异,因此难以推广到韩国人群。目前,韩国国家健康保险服务和国民健康检查提供的CVD预测服务,其预测准确性可能不足,且缺乏用于未来健康风险评估的长期随访数据。
为了应对当前CVD预测模型的局限性,许多研究使用传统统计方法和日益流行的机器学习技术来检验模型验证。然而,专门预测CVD死亡率的模型研究仍然不足,尚无研究比较传统统计方法与新机器学习方法在开发此类模型时的预测效能。因此,本研究旨在利用代表韩国人的长期大规模队列数据,开发一个能够轻松准确自我评估CVD死亡风险的预测模型。
本研究的目标是评估和对比传统统计技术与机器学习分析对CVD死亡率的预测能力,涵盖可修改和非侵入性因素,如体力活动和人体测量指标。这些变量易于测量且与生活方式密切相关,被纳入CVD死亡率预测模型中。此外,研究还检验了仅使用非侵入性变量的传统统计方法的预测能力,并与加入侵入性变量(如血液指标)后的机器学习统计方法进行了比较。
研究人员使用了韩国医学研究所(KMI)全面筛查中心2011年1月至2019年12月期间参加健康检查的1,749,444名20岁及以上成年人的数据。经过排除,最终分析了1,739,903名个体。研究测量了体力活动水平、社会人口学特征、健康状况和临床指标,包括性别、年龄、腰高比(WHtR)、糖尿病和高血压状态,以及血液指标如甘油三酯、空腹血糖和高/低密度脂蛋白胆固醇。CVD死亡率根据国际疾病分类第十版(ICD-10)代码定义,并在10年随访期内跟踪。
统计分析包括使用SPSS进行常规统计分析和使用Python进行机器学习分析。数据集分为80%的“模型构建集”和20%的“验证集”。生存分析采用Cox比例风险模型(带和不带弹性网络惩罚)、随机生存森林(RSF)、梯度提升生存(GBS)和生存树模型。模型性能通过时间依赖性ROC曲线下面积(AUC)、c指数和Brier评分进行评估。缺失值使用MissForest库进行插补。
参与者特征
表1展示了CVD死亡和存活参与者的基本特征。CVD死亡参与者通常年龄较大,心脏代谢状况较差,包括更高的血压、血糖、甘油三酯和更低的高密度脂蛋白胆固醇。他们的体力活动水平较低,尤其是在步行和总体活动方面。体重指数在男性中没有显著差异,但在女性中CVD事件者更高。总参与者中,1,791人死于CVD,其中男性1,357人,女性434人,表明男性的死亡率高于女性(补充表1;P<0.001)。糖尿病和高血压的患病率在男性中高于女性(P<0.001)。使用传统统计方法的CVD预测模型结果见补充表2。在所有参与者中,WHtR的增加对应CVD死亡风险的升高,高血压和糖尿病的存在显著增加风险比(所有P<0.001)。
仅使用非侵入性变量的预测性能
图1展示了在验证集中,仅包含非侵入性变量的传统统计方法和机器学习方法模型的预测性能。Cox比例风险模型和带弹性网络惩罚的模型的平均ROC-AUC分别为0.829(95% CI:0.811-0.847)和0.806(95% CI:0.786-0.832)。生存树、RSF和GBS的平均ROC-AUC分别为0.820(95% CI:0.803-0.840)、0.836(95% CI:0.813-0.856)和0.837(0.819-0.853)。所有模型的预测性能在女性中优于男性。
使用非侵入性加侵入性变量的预测性能
图2展示了在验证集中,包含非侵入性和侵入性变量的传统统计方法和机器学习方法模型的预测性能。Cox比例风险模型和带弹性网络惩罚的模型的平均ROC-AUC分别为0.833(95% CI:0.816-0.852)和0.813(95% CI:0.788-0.831)。生存树、RSF和GBS的平均ROC-AUC分别为0.819(95% CI:0.800-0.836)、0.844(95% CI:0.819-0.859)和0.841(0.816-0.854)。包含侵入性变量的模型显示出略高的预测性能,但仅使用非侵入性变量的模型与加入侵入性变量的模型之间的差异不显著。
基于Brier评分的预测准确性
补充图1和补充图2展示了在验证集中,仅使用非侵入性变量和使用非侵入性加侵入性变量的传统统计方法和机器学习方法模型的预测性能(以Brier评分表示)。就Brier评分和综合Brier评分而言,Cox PH和RSF模型的值最低,表明预测准确性相对更好。仅使用非侵入性变量的模型与加入侵入性变量的模型之间的预测性能差异很小。
基于ROC-AUC和c指数的模型性能比较
表2比较了仅使用非侵入性变量时,Cox比例风险模型(带和不带弹性网络惩罚)与三种机器学习模型(RSF、GBS、生存树)的预测性能。总体而言,GBS模型显示出最高的ROC-AUC和c指数。机器学习模型在判别性能和预测准确性方面似乎优于传统统计方法模型,但差异不显著。表3展示了使用非侵入性和侵入性变量时的比较结果。RSF或GBS模型显示出最高的ROC-AUC和c指数。与仅使用非侵入性变量的预测模型类似,机器学习模型在判别性能和预测准确性方面优于传统统计方法模型,但差异不显著。
讨论
利用大规模纵向数据,本研究检验了韩国人中与非侵入性测量指标相关的CVD特异性死亡率预测,并加入了血液指标。首先,本研究中使用非侵入性变量检验的所有预测性能在预测CVD死亡率方面似乎足够有效。总体而言,基于机器学习的预测模型的预测能力超过了传统统计方法。有趣的是,仅使用非侵入性预测指标的模型与整合血液指标的模型在预测性能上没有显著差异,无论是使用传统统计方法还是机器学习方法。
比较10年观察期内预测CVD死亡率模型性能的结果显示,在整个观察期的大部分时间段,基于机器学习的模型表现出比Cox比例风险模型更高的预测性能。潜在原因如下:首先,Cox比例风险模型要求使用的预测变量不违反比例风险假设。然而,实际上风险比随时间变化很常见。例如,随着年龄增长,死亡风险也趋于增加,除了年龄之外,风险比可能随时间不稳定。考虑到生物和生理反应,这种假设通常无效,任意分层变量可能导致模型预测性能下降。其次,Cox比例风险模型应用于具有大量预测变量和计算复杂性的高维数据时存在局限性。相比之下,机器学习-based预测模型中使用的算法(如RSF和GBS)没有像Cox模型中的比例风险假设那样的预测变量约束。因此,预测变量的选择更加灵活,这些算法可能更适合分析高维数据。此外,在分层变量时,传统统计方法通常依赖研究者将连续变量分类为离散类别,这可能缺乏明确标准。而RSF可以基于基尼指数或熵找到最佳分割点,从而允许一致和定量的方法找到最能区分死亡和存活个体的最佳分割点。此外,本研究中使用的提升算法具有为预测模型未能正确学习的数据分配权重的特点,从而重建训练数据并找到基于基尼指数或熵的最佳分割点,允许一致和定量的基于预测模型,本研究中使用的集成学习-based预测模型通过防止有偏结果和实现更合理的推理,提高了预测性能。
尽管RSF和GBS模型表现出略高的时间依赖性AUC,但Cox模型始终显示较低的Brier评分,表明更好的校准。这表明了一种权衡:机器学习-based模型可能擅长区分高风险和低风险个体,而Cox模型可能提供更准确的绝对风险估计。这些发现强调在评估预后模型时需要考虑判别和校准,并表明结合两种建模方法的优势可能为CVD死亡率预测提供更稳健的框架。
先前使用传统统计方法的研究报告称,加入血液指标后预测性能更优。我们的研究发现,仅包含非侵入性预测变量的CVD死亡率预测模型不劣于包含血液指标的模型。然而,由于预测性能的绝对差异很小,并且因性别和分析方法而异,需要进一步研究以确定包含血液指标的预测模型是否能更精确地预测CVD死亡率,或者更简单的预测模型是否表现出足够的预测性能。
除了生物学差异,代谢疾病(包括心血管疾病)的发生存在性别差异。因此,先前的研究也按性别分割了CVD预测模型。除了这种性别差异,男性和女性预期寿命的差异也可能在一定程度上影响了我们的预测模型结果。在评估CVD预测的先前研究中,注意到预测性能随时间(年龄)变化,虽然没有一致模式,但存在性别差异。此外,鉴于本研究中观察到的CVD死亡率的显著性别差异,这种差异可能导致预测性能的变化。
Cox比例风险模型是临床研究中常用的成熟统计方法,其主要目的在于推断分析,以估计协变量对事件风险的影响。相比之下,机器学习模型(包括RSF和GBS)优化了预测准确性。在本研究中,Cox模型既作为参考模型,又用于识别CVD死亡率的统计显著预测因子,而机器学习算法的主要目标是增强风险预测性能。我们的发现强调了推断性和预测性建模方法之间的区别。虽然Cox模型提供了风险因素与结果之间可解释的关联,但它并非 inherently 优化用于预测。相比之下,本研究中的ML模型表现出更强的时间依赖性判别能力,突出了它们在风险预测应用中的潜在效用。
据我们所知,我们的研究是第一个使用代表韩国成年人的大规模纵向数据集,比较传统统计方法和机器学习技术预测CVD死亡率模型性能的研究。然而,有几个局限性需要承认。首先,研究结果可能无法推广到更广泛的人群。各种CVD预测模型的预测性能可能因不同文化和种族群体而异。此外,我们的队列来自全国性健康筛查数据集,偏向年轻人(中位年龄39岁;11%≥60岁),导致CVD死亡率发病率低于一般韩国人群。尽管大人年提供了足够的效力,但老年参与者相对较少可能限制了对高风险老年群体的推广。此外,由于本研究中预测变量的可用性有限,在利用机器学习算法整合多样变量以推导预测结果的优势方面存在约束。而且,尽管我们的研究检查了大型数据集,但CVD死亡病例相对较少。生存分析中的高删失率可能导致统计效力降低和潜在有偏或不稳定的风险比估计。这些问题在罕见事件场景中尤其相关,其中复杂模型可能出现过拟合或夸大的风险估计。然而,本研究中具有延长随访期的大型全国代表性队列提供了足够的人年进行建模。此外,我们应用了内部验证策略和多种建模方法以确保发现的稳健性。虽然本研究旨在使用基于人群的数据开发韩国CVD风险模型,但我们承认其应用于临床或高风险人群可能需要进一步验证和模型 refinement。需要更多包含更多CVD病例的大型数据集的工作来确认和扩展我们的发现。最后,由于生存分析数据的动态性质,幸存者和非幸存者的分布和方差随时间不断变化,传统的统计检验(如Delong's检验)无法应用于比较预测模型的性能。因此,无法技术上比较它们的差异。相反,我们通过重复Bootstrap采样估计了时间依赖性AUC的95%置信区间,并 presented 模型间AUC的差异作为替代方法。
结论
使用非侵入性指标的传统统计和机器学习模型在基于韩国医疗数据集的10年随访期内对CVD死亡率表现出优异的预测性能。而且,仅使用非侵入性指标的模型的预测性能不劣于那些包含血液指标进行预测的模型。此外,与传统统计方法模型相比,使用机器学习技术的模型在预测10年随访期内的死亡率方面表现出更优的性能。尽管需要在各种设置中进行进一步研究以验证我们的结果,但我们的发现可能成为开发专门针对CVD死亡率预测模型的医疗保健系统的一个里程碑。我们的研究结果暗示了在风险评估和CVD特异性死亡率长期预测方面的潜在改进,倡导在医疗决策中采用非侵入性和机器学习-based方法以改善患者结局。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号