编辑推荐:
2 型糖尿病(T2D)严重影响健康且消耗医疗资源。研究人员利用西班牙人群数据集开展 T2D 诊断和预后的机器学习模型研究。结果显示,不同场景下模型有较高 AUROC 值。该研究为 T2D 诊疗提供决策支持,有助于精准防控疾病。
2 型糖尿病(Type 2 diabetes,T2D)正逐渐成为西方社会的主要健康问题之一,它不仅降低了人们的生活质量,还消耗了大量的医疗资源。在全球范围内,糖尿病患者数量呈快速增长趋势,其中 T2D 病例占比高达 96.0%。在西班牙,约 14% 的人患有 T2D,且近一半患者未意识到自己患病。
T2D 的诊断通常依赖于生化参数,如空腹血糖、糖化血红蛋白等,但许多患者因症状不明显而未能及时确诊。此外,T2D 的发病受多种因素影响,包括遗传、生活方式、环境等,这使得预测其发病风险变得复杂。因此,开发更精准的 T2D 诊断和预后模型,对于早期发现患者、预防疾病进展具有重要意义。
为了解决这些问题,来自西班牙多个研究机构的研究人员开展了相关研究。他们利用西班牙人群数据集(Di@bet.es study),结合环境和临床等异质性数据,构建了 T2D 诊断和预后的机器学习模型。
研究中用到的主要关键技术方法如下:
- 数据预处理:包括地理空间数据提取、特征工程、缺失数据插补和准恒定过滤。地理空间数据提取利用市政记录扩充数据集;特征工程通过去除冗余特征、组合相似特征等操作改善数据质量;缺失数据插补使用 IQA 算法选择合适的插补器处理缺失值;准恒定过滤基于变异系数和基尼系数去除低变异性特征。
- 实验设计:定义了环境(Environmental,ENV)和医疗(Healthcare,HEA)两种场景,分别用于构建诊断(Diagnosis,D)和预后(Prognosis,P)模型,共得到 D - ENV、D - HEA、P - ENV、P - HEA 四种模型。
- 特征选择:先使用排列重要性(Permutation Importance,PI)计算特征重要性并排序,再通过顺序向后选择(Sequential Backward Selection)算法去除对预测贡献不大的特征。
- 模型训练与评估:采用 XGBoost 算法训练模型,通过 20 折交叉验证优化超参数,并计算模型的平均受试者工作特征曲线下面积(AUROC)等指标评估性能。
研究结果如下:
- 特征重要性:通过 PI 计算发现,年龄、人体测量因素(如腰围、腰臀比、BMI)、生活方式因素(如体育活动、饮食习惯)、家族 T2D 病史、地理空间信息、生化指标(如空腹血糖、甘油三酯等)在不同模型中具有重要性。例如,年龄在所有四个模型中都具有较高的重要性,凸显了其对 T2D 发展的关键影响。
- 特征选择:经过特征选择后,各模型的特征数量减少,如 D - ENV 模型最终选择了 8 个特征,D - HEA 模型选择了 11 个特征。这些特征包括年龄、腰臀比、血糖相关指标等,表明并非所有重要特征都需要用于实现最佳预测性能。
- 模型性能:在诊断任务中,D - ENV 模型的 AUROC 为 0.86(95% CI:0.83 - 0.88),D - HEA 模型为 0.96(95% CI:0.94 - 0.98);在预后任务中,P - ENV 模型的 AUROC 为 0.82(95% CI:0.77 - 0.87),P - HEA 模型为 0.88(95% CI:0.85 - 0.92)。这表明结合临床特征和环境特征的模型性能更好,虽然增加临床特征可能会提高成本,但能带来显著的效益。
- 特征部分依赖:通过部分依赖图(Partial Dependence Plot,PDP)分析发现,如在 P - HEA 模型中,空腹血糖超过 90mg/dL 时,T2D 患者的发病风险急剧增加;腰臀比、年龄、γ - 谷氨酰转移酶(Gamma - glutamyl transferase,GGT)等因素也与发病风险增加相关。
- 与 FINDRISC 比较:研究结果显示,该研究中 D - ENV 和 P - ENV 模型的性能优于 FINDRISC。在诊断未知 T2D 时,D - ENV 模型的 AUROC 为 0.86,高于 FINDRISC 的 0.74;在预测 T2D 发病时,P - ENV 模型的 AUROC 为 0.82,高于 FINDRISC 的 0.75。
研究结论和讨论部分指出,该研究成功构建了用于 T2D 诊断和预后的机器学习模型,这些模型能够有效支持临床医生进行诊断和预后评估。通过识别关键特征,有助于更深入地理解 T2D 的发病机制。同时,研究也存在一些局限性,如部分变量通过患者自我报告收集,可能存在准确性问题;数据集未包含心理压力相关变量;模型解释性有待提高等。
尽管存在这些局限性,该研究仍具有重要意义。它为 T2D 的早期诊断和预防提供了新的方法和思路,有助于合理分配医疗资源,对高风险患者进行更精准的干预。未来的研究可以进一步探索遗传信息、深度学习模型等对 T2D 诊断和预后的影响,同时提高模型的可解释性,以更好地应用于临床实践。该研究成果发表在《Medical & Biological Engineering & Computing》上,为该领域的研究提供了有价值的参考。