基于CTGAN-MLP融合模型的体成分数据糖尿病预测新方法:提升分类性能与可解释性
《Scientific Reports》:Enhanced diabetes prediction using CTGAN-MLP approach on body composition data
【字体:
大
中
小
】
时间:2025年12月11日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对糖尿病预测中存在的类别不平衡和数据复杂性挑战,提出了一种结合条件表格生成对抗网络(CTGAN)与多层感知器(MLP)的创新框架。通过CTGAN生成高质量合成样本以解决数据不平衡问题,并利用MLP捕捉体成分特征间的非线性关系。实验结果表明,该方法在准确率(93.91%)、AUC(93.87%)等指标上显著优于传统方法,同时通过SHAP分析揭示了体脂率、去脂体重等关键预测因子,为糖尿病早期诊断提供了可解释的AI工具。
在全球范围内,糖尿病正逐渐成为威胁人类健康的重大慢性疾病。据国际糖尿病联盟(IDF)统计,2021年全球20-79岁成人糖尿病患者已达5.37亿,预计到2045年将攀升至7.83亿。更令人担忧的是,近45%的患者尚未被诊断,导致并发症风险增加和医疗负担加重。传统的糖尿病诊断方法如空腹血糖和口服葡萄糖耐量测试虽然有效,但存在侵入性、耗时且受生物变异性影响的局限。
随着人工智能技术的快速发展,机器学习和深度学习为糖尿病风险预测带来了新的机遇。然而,现实世界中的医疗数据往往面临类别不平衡、缺失值和过拟合等挑战,限制了模型的泛化能力。特别是在基于体成分数据的预测研究中,如何有效利用人体成分分析仪测量的脂肪百分比、去脂体重、基础代谢率等指标,成为提高预测准确性的关键。
针对这些挑战,来自伊朗红新月会大众聚集健康管理研究中心等机构的研究团队在《Scientific Reports》上发表了一项创新研究,提出了一种结合条件表格生成对抗网络(CTGAN)和多层感知器(MLP)的糖尿病预测框架。该研究利用伊朗Fasa队列研究的体成分数据,通过先进的生成式人工智能技术解决数据不平衡问题,并深入探索了体成分特征与糖尿病风险之间的复杂关系。
研究基于伊朗Fasa队列研究的4,661名35-70岁参与者体成分数据,采用CTGAN生成合成样本解决类别不平衡问题,使用多层感知器(MLP)捕捉特征间非线性关系,通过分层5折交叉验证评估模型性能,并应用SHAP(SHapley Additive exPlanations)分析进行特征重要性解释,最终在多种机器学习算法中比较预测效果。
研究团队系统比较了十种机器学习模型在四种不同数据平衡策略下的表现。结果显示,CTGAN与MLP的组合在所有配置中表现最优,达到93.91%的准确率、93.87%的AUC和93.89%的F1分数。与传统的随机下采样、SVM-SMOTE和ADASYN方法相比,CTGAN生成的合成数据更好地保留了原始数据的统计特性,使MLP能够学习到更复杂的特征交互模式。
通过核密度估计(KDE)和直方图分析,研究发现CTGAN生成的合成数据在数值特征和分类变量上都与原始数据分布高度一致。Kolmogorov-Smirnov检验显示关键连续特征无显著差异(p>0.05),证明合成数据在统计上与真实数据无异,有效保持了生理合理性。
SHAP分析揭示了体成分特征在糖尿病预测中的相对重要性。总脂肪百分比(FATP)、去脂质量(FFM)和基础代谢率(BMR)被确定为最具影响力的预测因子。此外,区域脂肪分布指标如躯干脂肪百分比(TRFATP)和肢体脂肪质量也显示出重要贡献,这与临床已知的区域性肥胖与胰岛素抵抗的关联一致。
分层5折交叉验证进一步证实了模型的稳定性,CTGAN-MLP在AUC(92.43%±0.94%)、准确率(92.42%±0.95%)和F1分数(91.88%±1.10%)等指标上表现一致,置信区间狭窄,表明模型具有良好的泛化能力。
与先前基于同一数据集的研究相比,CTGAN-MLP框架将预测准确率从92.04%(ANOVA+ADASYN+XGBoost)提升至93.91%。这种改进归因于CTGAN能够模拟体成分变量间的复杂非线性关系,生成更多样化且生理可信的合成样本,而MLP则能有效学习这些高阶特征交互。
研究还提出了增强医学预测效能评分(AMPES),这一综合指标融合了CTGAN的生成效能和MLP的预测稳定性,为生成式-预测性模型的联合评估提供了量化工具。
与现有最先进方法相比,CTGAN-MLP在准确率、精确率、召回率和F1分数上均取得领先优势。特别值得注意的是,该方法在保持高精度的同时,通过SHAP分析提供了临床可解释的预测依据,弥补了传统黑箱模型在医疗应用中的不足。
本研究成功开发了一种结合生成式人工智能和深度学习的新型糖尿病预测框架。CTGAN-MLP不仅显著提升了预测性能,还通过可解释的AI技术揭示了体成分特征与糖尿病风险之间的生物学关联。该方法的核心优势在于能够有效处理真实世界医疗数据中的类别不平衡问题,同时保持预测模型的临床可解释性。
然而,研究也存在一定局限性。基于单一伊朗农村队列的数据可能限制模型的跨人群泛化能力,且未纳入生化、生活方式和遗传等已知糖尿病风险因素。未来研究将在更多样化的人群中进行外部验证,并整合多源数据以进一步提升预测效能。
这项研究为糖尿病早期风险评估提供了新的技术路径,展示了生成式AI在医疗数据增强中的巨大潜力。通过将先进的数据合成技术与可解释的机器学习模型相结合,该框架有望成为临床决策支持的有效工具,推动个性化糖尿病预防和管理策略的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号