比较行政健康数据与临床数据在预测糖尿病并发症中的性能差异及算法公平性评估

【字体: 时间:2025年09月27日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对2型糖尿病并发症预测中临床数据与行政健康数据(AHD)的效能对比问题,通过机器学习模型系统评估两种数据源的预测性能与算法公平性。研究人员利用丹麦国家健康登记数据,构建XGBoost模型预测肾病、组织感染和心血管事件两年风险。结果显示:临床数据模型平均AUC达0.78,AHD模型为0.77,混合模型提升至0.80。研究发现实验室数据对肾病预测最关键,而并发症指数(CCI)和糖尿病病程对组织感染最重要。研究首次系统揭示所有模型均存在性别偏差——女性风险被低估而男性被高估,强调临床应用中必须解决算法公平性问题。

  
随着全球糖尿病患病率的急剧攀升,糖尿病并发症已成为导致患者痛苦和过早死亡的主要原因。国际糖尿病联合会数据显示,2021年全球糖尿病患者已达5.37亿,预计到2030年将增至6.43亿。这种增长不仅源于糖尿病发病率的翻倍,更因为糖尿病死亡率在高收入国家的平台甚至下降趋势,导致患者带病生存时间延长。心血管并发症 alone就占全球糖尿病患者死亡原因的27%以上。在此背景下,准确预测和有效预防糖尿病并发症对减少疾病危害至关重要。
近年来,机器学习(ML)技术在预测糖尿病并发症风险方面展现出巨大潜力。现有研究主要沿着两个方向展开:一是基于电子健康记录(EHR)的临床决策工具,包含人口统计学、诊断史和实验室结果;二是基于行政健康数据(AHD)的公共卫生管理工具,包含医疗利用率、收入教育梯度等非临床数据。然而,尚无研究系统评估这两种方法是否能获得相当的预测性能,这也正是本研究要解决的核心问题。
研究人员利用丹麦国家健康登记系统的数据,开展了一项创新性研究。他们开发了极端梯度提升(XGBoost)模型来预测2型糖尿病(T2D)患者两年内发生肾病、组织感染和心血管事件的风险。研究特别设计了五种不同模型配置:临床基线模型(Model C1)、包含实验室数据的临床模型(Model C2)、行政健康数据基线模型(Model A1)、包含高级人口统计学的AHD模型(Model A2)以及结合所有数据的完整模型(Model Full)。
研究结果显示,临床基线模型平均AUC为0.74,表明健康状况和基本人口统计学因素在所有结果中都是有效的预测因子。加入实验室结果后,临床模型的平均AUC提升至0.78,这种性能提升主要来自肾病预测的大幅改善。AHD基线模型达到0.77的平均AUC,但加入教育、收入等高级人口统计学特征并未进一步改善性能。完整模型表现最佳,平均AUC达0.80,其中肾病预测性能最好(0.88 AUC),心血管事件预测相对最弱(0.72)。
特征重要性分析揭示了不同并发症的关键预测因子。对于肾病结局,实验室检测结果是最重要的特征组;而对于组织感染和心血管事件,人口统计学变量和健康状况是主要驱动因素。具体而言,Charlson合并症指数(CCI)、糖尿病病程(T2D age)和性别是组织感染的稳定预测因子;年龄、Elixhauser合并症指数中的充血性心力衰竭(ECI)和性别是心血管事件最重要的预测因子。健康状况指标,特别是CCI合并症,在所有模型和结果中均显示出持续的高重要性,表明总体疾病负担在预测未来并发症中起着关键作用。
算法公平性评估发现了令人担忧的性别偏差现象。研究人员通过比较不同人口统计和临床亚组(最低收入四分位组、初级教育群体、性别、丹麦族裔和观察期内无HbA1c测量的人群)的性能指标来评估预测公平性。
在所有
在所有结果中,最显著的歧视来自性别因素。所有模型都给男性分配了比女性更高的基础风险,特别是在心血管事件中,而肾病模型的偏差最小。这种模式反映在统计奇偶性(statistical parity)的显著性别差异中。所有模型中男性的假阳性率(FPR)都较高,而心血管事件和组织感染的真阳性率(TPR)也较高。相反,女性在并发症的阴性预测中比例过高。由于男性高FPR导致的并发症高估,女性的总体准确度高于男性。
研究采用的主要技术方法包括:基于丹麦国家健康登记系统的回顾性队列研究设计,使用XGBoost机器学习算法构建预测模型,采用SHAP值进行特征重要性分析,应用四种公平性评估指标(TPR、FPR、PPV、STP)检测算法偏差,以及使用超参数优化技术调整模型性能。研究队列来自丹麦南部、北日德兰和西兰地区的104,341名2型糖尿病患者,数据涵盖2014-2019年期间。
模型比较和性能分析 部分显示,临床数据和行政健康数据在预测性能上相当接近,这可能是由于健康状况和基本人口统计学段的强贡献。包含两种数据类型的模型性能最佳,表明在任一设置中包含所有可用数据都是有利的。
特征贡献 across models and outcomes 部分表明,不同并发症依赖不同的预测特征。肾病预测主要依赖实验室数据,即使排除实验室数据后仍保留预测能力,表明合并症信息也携带预测价值。组织感染预测中,CCI合并症、糖尿病病程和性别 consistently among the top predictors。心血管事件预测中,年龄、ECI(充血性心力衰竭)和性别是最重要特征。
Examining algorithmic fairness 部分详细揭示了模型在不同亚组中的表现差异。肾病模型在无HbA1c测试个体和女性中表现较差。组织感染和心血管并发症模型受到性别 differential biased,但不受其他变量影响。不同模型类型的群体公平性模式一致。
研究结论表明,临床和公共卫生两种方法在预测性能上差异很小,个体层面的预测相当可比。尽管如此,包含两种数据类型的模型性能最佳。这些发现表明两种方法可以相互补充,而不会产生矛盾预测和隐含的治疗建议,在任一设置中包含所有可用数据都是有利的。
讨论部分强调,算法公平性分析揭示了预测模型中存在明显的性别偏差,以及肾病模型中当HbA1c数据缺失时的偏差。类似的对女性不利的性别偏差,包括高假阴性率,在其他健康相关结果的ML模型中也有记载。现有文献记录了糖尿病并发症的差异风险和性别间预测风险评分的差异,这可能 contribute to the model unfairness。性别间健康结果的差异和ML预测中性别相关偏差的存在,指出了在ML建模中报告公平性的重要性。这可能突出了开发性别特异性糖尿病并发症模型的必要性。
该研究存在几个局限性:仅评估了预测因子测量与结果之间的两年缓冲期,未探讨替代缓冲持续时间如何影响模型性能;仅使用XGBoost评估模型性能;使用丹麦数据开发模型可能限制其对其他人群的普适性;一些性能指标(特别是F1-score和precision)相对较低,反映了数据高度不平衡的性质。
这项由Anders Aagaard、Richard Rottger、EmilyK.Johnson和Kim Rose Olsen共同完成的研究发表在《Scientific Reports》上,为糖尿病并发症的预测提供了重要见解,同时强调了在医疗机器学习应用中解决算法公平性的迫切需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号