机器学习不敌传统回归？2 型糖尿病中风与心梗预测模型的创新探索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Cardiovascular Diabetology》：Development and validation of prediction models for stroke and myocardial infarction in type 2 diabetes based on health insurance claims: does machine learning outperform traditional regression approaches?

【字体：大中小】 时间：2025年02月20日 来源：Cardiovascular Diabetology 8.5

编辑推荐：

　　为解决现有糖尿病并发症预测模型适用性差的问题，德国慕尼黑工业大学的研究人员开展基于健康保险索赔数据预测 2 型糖尿病患者中风和 MI 风险的研究。结果显示相关模型有效，且传统回归与机器学习表现相当。推荐一读！

在医疗领域，糖尿病并发症一直是个让人头疼的大问题，尤其是像中风和心肌梗死（MI）这样的大血管并发症，不仅严重影响患者的健康，还让医疗系统的钱包 “压力山大”。想象一下，患者因为这些并发症，身体受苦，生活质量下降，医疗费用还蹭蹭往上涨，这可怎么得了！

为了预防这些并发症，大家想了不少办法，比如药物干预、支架手术等。可问题来了，如果把这些预防措施用在心血管风险低的人身上，不仅没啥用，还可能给人家带来心理负担，增加生理风险，白白浪费医疗资源。所以，要是能有靠谱的预测模型，提前找出那些并发症高风险的患者，再有针对性地进行预防，那该多好啊！这就好比是给医疗工作者们配备了一双 “透视眼”，能精准地找到潜在的危险。

然而，现实总是有点残酷。现有的预测模型大多是在特定人群或者经过深度表型分析的人群中开发出来的，在现实世界里，面对信息有限、人群复杂多样的情况，就有点 “水土不服”，不太好用了。这可急坏了研究人员，他们迫切需要找到新的方法和数据，开发出更实用的模型。

就在大家为此发愁的时候，德国慕尼黑工业大学公共卫生与预防学教授 Anna - Janina Stephan 团队挺身而出，在《Cardiovascular Diabetology》期刊上发表了一篇名为 “Development and validation of prediction models for stroke and myocardial infarction in type 2 diabetes based on health insurance claims: does machine learning outperform traditional regression approaches?” 的论文。这篇论文就像是一场及时雨，给这个领域带来了新的希望。他们研究发现，基于健康保险索赔数据开发的预测模型，能在一定程度上预测 2 型糖尿病患者发生中风和心肌梗死的风险。而且啊，复杂的机器学习方法，包括深度学习，并没有比传统的回归方法表现得更好。这一结论意义重大，为后续的研究和实际应用指明了方向，让大家知道在开发预测模型的时候，不能只盯着复杂的算法，还得考虑数据和特征的问题。

那么，他们是怎么做到的呢？研究人员用了不少巧妙的技术方法。首先，他们收集了德国法定健康保险（SHI）2014 年到 2019 年的数据，这里面包含了各种丰富的信息，像门诊、住院、处方、人口统计学特征等。然后，他们从这些数据里筛选出年龄在 18 岁及以上、确诊为 2 型糖尿病的患者作为研究对象，不过把 80 岁以上的患者排除了，因为年纪太大的患者，其他原因导致的死亡率太高，会影响研究结果。接着，他们定义了很多可能有用的预测因子（也就是特征），一开始有 394 个，后来为了减少共线性、去掉缺失值多和没啥变化的特征，筛选到了 287 个。在这个过程中，他们还设定了观察期、缓冲期和目标期，通过 80% : 20% 的比例把数据分成训练集和测试集。最后，他们用了多种建模方法，像逻辑回归（包括全模型、向前选择模型和 LASSO 正则化模型）、基于树的机器学习（随机森林 RF、梯度提升 GB）以及深度学习算法（多层感知器 MLP、特征令牌化变压器 FTT），还弄了个没有任何预测因子的空模型来做对比。

下面咱们来看看具体的研究结果。

研究人群

经过一番筛选，最终确定了 371,006 名 2 型糖尿病患者作为研究对象。这里面女性占了 55.3%，平均年龄 67.2 岁，平均随访时间是 2.87 年。这些患者的各种信息，就像是一个个小线索，为后续的研究打下了基础。

结局

在 3 年的目标期里，有 12,701 人（3.42%）至少发生过一次中风，13,030 人（3.51%）至少有一次心肌梗死记录。还有 32,237 人在目标期去世，其中有一部分是在中风或心肌梗死住院期间离世的。这些数据让研究人员清楚地看到了疾病发生的情况，也让他们更明白开发预测模型的紧迫性。

性能结果

区分度：用精度召回曲线下面积（AUPRC）和受试者工作特征曲线下面积（AUROC）来衡量模型区分患者是否会发生疾病的能力。结果发现，空模型的 AUPRC 很低，心肌梗死只有 0.035，中风是 0.034 。而其他模型表现要好一些，心肌梗死的 AUPRC 在 0.082（MLP）到 0.092（GB）之间，中风在 0.061（MLP）到 0.073（GB）之间。AUROC 方面，空模型是 0.5，心肌梗死的其他模型在 0.70（RF、MLP、FTT）到 0.71 之间，中风在 0.66（MLP）到 0.69（GB）之间。这就好比是不同的模型在一场 “区分能力考试” 中，各自交出了不同的答卷，虽然都比空模型考得好，但分数也有高有低。
校准度：校准度是看模型预测的概率和实际事件发生率是不是相符。通过对心肌梗死和中风的校准度评估发现，不同模型各有特点。比如在心肌梗死方面，FTT 的风险预测范围最窄，全逻辑模型最宽，有些模型还存在高估或低估高风险的情况。中风方面，RF 和 FTT 的风险预测范围窄，全逻辑模型和 MLP 宽，部分模型也有高估高风险的问题。这就像是不同的秤，有的称得准，有的会有偏差。
分类：在分类性能上，研究人员选了基于最大化 F1 分数的临界值来评估。结果发现，在这个临界值下，FTT 在心肌梗死模型中的敏感性最高（0.342），全逻辑模型在中风模型中的敏感性最高（0.345）；正向选择模型在心肌梗死中的阳性预测值最高（0.119），GB 在中风模型中的阳性预测值最高（0.094）。这就好比不同的模型在 “分类比赛” 中，在不同的项目上各有优势。
变量重要性：研究人员还看了不同模型中变量的重要性。发现像年龄、性别、先前的心血管并发症、药物使用等因素，在多个模型和不同疾病预测中都很重要。不过，不同类型的模型，重要变量也有点不一样。树基模型里，像地区贫困程度、医疗接触频率和费用这些连续特征比较重要；逻辑回归模型里，保险状态、地区类型等分类非二分特征更重要。这就像是不同的拼图，虽然有些拼图块是一样的，但每个拼图的关键部分又不太一样。

从这次研究的结论和讨论部分，我们能发现很多有价值的东西。研究证明了健康保险索赔数据可以用来开发和验证 2 型糖尿病患者中风和心肌梗死的预测模型，这就像是找到了一座 “数据宝藏”，能为医疗预测提供新的途径。而且，各种建模方法表现差不多，复杂的机器学习方法并没有明显优势。这提醒我们，在开发模型的时候，与其盲目追求复杂算法，不如多在数据和特征上下功夫。

不过，这个研究也有一些小缺点。比如说数据可能存在错误分类，像新发病和既往糖尿病没分清楚；还有数据收集的时候可能有偏差，观察期、缓冲期和目标期的设置也有点小遗憾。但是，这些并不影响它的重要意义。未来的研究可以针对这些问题改进，进一步优化预测模型。

总的来说，这项研究为医疗领域预测 2 型糖尿病患者的中风和心肌梗死风险提供了重要参考。就像给医疗工作者们提供了一张 “作战地图”，虽然还不够完美，但已经指明了方向，让大家朝着更精准、更有效的预测和预防目标前进。相信在未来，随着研究的不断深入，我们一定能开发出更厉害的预测模型，更好地保护患者的健康。

联系信箱：

粤ICP备09063491号

研究人群

结局

性能结果

热点排行