利用自动化机器学习(AutoML)筛查美国成人未诊断糖尿病:一项开发与验证研究
【字体:
大
中
小
】
时间:2025年10月10日
来源:JMIR AI 2
编辑推荐:
本研究针对美国成人未诊断糖尿病检出率低的问题,利用自动化机器学习(AutoML)技术,基于NHANES数据构建筛查模型。研究显示AutoML模型AUC达0.909,敏感度70.26%,特异度90.46%,为大规模糖尿病筛查提供了高效工具,对早期干预具有重要意义。
糖尿病是美国第八大死因,2021年约有3840万患者,其中近23%的人 unaware of their condition。未诊断糖尿病会导致不可逆的微血管和大血管并发症,如神经病变、肾病、视网膜病变和心血管疾病。尽管美国糖尿病协会(ADA)和美国预防服务工作组建议从35岁开始筛查,但血糖检测的依从性仅50%-60%,在低教育、低收入和医疗资源有限的群体中更低。现有的糖尿病风险评估工具准确性不足,而传统机器学习模型虽有所改进,但阳性预测值(PPV)较低,可能导致大量假阳性和不必要的随访检测。
近年来,自动化机器学习(AutoML)技术在医疗领域受到关注,它通过自动选择、组合和优化多个机器学习模型,减少人为错误和偏见,提高分类准确性。然而,此前尚无研究探讨AutoML在未诊断糖尿病筛查中的可行性和性能。为此,研究人员利用1999-2020年美国国家健康与营养检查调查(NHANES)数据,开展了一项开发与验证研究,旨在探索AutoML结合自报数据在检测美国成人未诊断糖尿病中的潜力。
研究团队使用H2O AutoML框架,自动化超参数调优、模型选择和集成学习,同时比较了逻辑回归、支持向量机、随机森林和极端梯度提升(XGBoost)等传统机器学习模型。模型性能通过受试者工作特征曲线下面积(AUC)等指标评估。数据来自NHANES,具有全国代表性,包含生化检测、人口学特征、家族史、人体测量、饮食摄入、健康行为和慢性病等信息。未诊断糖尿病定义为无自报诊断但符合血红蛋白A1c(≥6.5%)、空腹血糖(≥126 mg/dL)或2小时血糖(≥200 mg/dL)升高标准。
研究共纳入11815名20岁及以上参与者,其中2256例未诊断糖尿病和9559例无糖尿病。AutoML模型表现优异,测试集AUC为0.909(95% CI 0.897-0.921),准确率86.5%,敏感度70.26%,特异度90.46%,PPV 64.10%,NPV 92.61%。特征重要性排名显示,年龄、腰围、每日总糖摄入量、收入和BMI是前五位预测因子,共占模型重要性的50%。慢性病(除高血压外)贡献较小。
在附加分析中,使用≥2次检测确认糖尿病诊断的标准时,模型准确率更高(89.7%),但PPV和敏感度较低, due to the limited number of samples。多分类模型(区分正常血糖、 prediabetes和未诊断糖尿病)性能较差,准确率仅58.9%-67.1%,表明现有特征难以有效区分 prediabetes和糖尿病。
研究表明,AutoML模型在检测未诊断糖尿病方面优于传统机器学习模型,其高精度和适用于更广泛人群的特点,使其成为大规模糖尿病筛查的有前途工具。模型突出了腰围、BMI和饮食变量等可改变风险因素的重要性,为 targeted interventions提供了 actionable insights。然而,模型在高度不平衡数据和多分类任务中表现不佳,未来需结合其他数据重采样方法改进。此外,模型集成到电子健康记录系统、黑盒模型的可信度以及跨人口群体的公平性评估仍是实际应用的挑战。
该研究首次将AutoML应用于未诊断糖尿病筛查,基于全国代表性数据开发了高性能模型,推动了AutoML在糖尿病研究中的 adoption。尽管存在局限性,如自报数据的潜在 recall bias和模型泛化性限制,但该研究为早期诊断和干预提供了重要工具,有望降低糖尿病并发症风险和医疗成本。论文发表在《JMIR AI》。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号