编辑推荐:
研究人员为解决高尿酸血症预测难题,开展基于粒子群融合机器学习的研究,模型准确率达 97.8%,意义重大。
在健康管理的大舞台上,高尿酸血症正逐渐成为一个不容忽视的 “主角”。近年来,它的发病率持续攀升,而且越来越多的年轻人也被其 “盯上”。高尿酸血症就像一颗隐藏在身体里的定时炸弹,不仅与痛风紧密相关,还是慢性肾病、高血压、心脑血管疾病以及糖尿病等多种疾病的独立危险因素,严重威胁着人类健康。然而,这颗 “炸弹” 在早期却十分 “低调”,没有明显症状,使得患者很难察觉,往往在出现痛风或其他严重并发症时才被发现。
目前,诊断高尿酸血症的传统方法存在诸多弊端。一方面,大规模人群诊断成本高、耗时长;另一方面,现有的风险预测模型也存在问题,大多数模型需要同时使用血常规和生化指标作为输入特征,而生化检测既耗时又昂贵。并且,由于数据质量问题,部分模型准确率较低,还有一些深度学习算法训练的模型资源需求大、能耗高。因此,开发一种更高效、低成本的高尿酸血症风险预测模型迫在眉睫。
杭州师范大学等机构的研究人员勇挑重担,开展了一项极具创新性的研究。他们构建了一种基于粒子群优化(Particle Swarm Optimization,PSO)与机器学习相融合的高尿酸血症风险预测模型,该模型仅依靠常规血常规数据就能准确评估高尿酸血症的风险。研究成果发表在《BMC Medical Informatics and Decision Making》上。
在研究过程中,研究人员用到了多种关键技术方法。首先,数据来源于浙江两个地区医院的体检和疾病记录,包含 26 项血常规特征。针对数据集中的类别不平衡问题,采用基于 SMOTE 的过采样方法进行处理。接着,运用 t 检验和 Cohen's d 值进行单因素分析,筛选出影响高尿酸血症的关键因素,再通过多元逻辑回归进一步确定相关指标。然后,选取逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、深度神经网络(DNN)和极端梯度提升(XGBoost)这五种机器学习方法作为基线模型,利用 PSO 算法对模型参数进行优化。最后,通过模型集成方法提升预测精度,并引入可解释人工智能(XAI)方法分析特征重要性。
研究结果令人瞩目:
- 特征分析:通过 t 检验和 Cohen's d 值分析,发现中性粒细胞百分比(NEUT%)、中性粒细胞绝对值(ANC)、体重(WEIGHT)等多个特征在高尿酸血症组和非高尿酸血症组之间存在显著差异。经过多元逻辑回归分析,确定 LYM、NEUT%、ANC 等指标与高尿酸血症的发生相关。
- 模型构建与评估:对五种基线模型进行参数调整和性能评估,结果显示 XGBoost 模型结合 SMOTE 方法在各项指标上表现出色。进一步使用 PSO 算法优化后,该模型的 AUC 达到 0.997,准确率为 0.973。在此基础上,采用 Stacking 和 Voting 两种模型集成方法,其中 Stacking 集成模型的准确率高达 0.978,相比之前的模型有了显著提升。
- 模型性能对比:与其他先进模型相比,该研究提出的模型在预测准确率上提高了 11% 以上,展现出明显的优势。
- 模型解释性:利用 XGBoost 模型计算特征重要性,结合 SHAP 和 LIME 等 XAI 方法,从不同角度分析了各个特征对模型预测的影响。结果表明,年龄(AGE)、体重(WEIGHT)等特征对模型输出影响较大。
- 疾病风险预测平台:研究人员开发了健康画像平台,将风险预测模型集成到平台中。该平台已覆盖杭州临安 65 万常住人口的数据,拥有约 10000 名用户,访问量达 10 万左右,能够实现疾病风险的在线评估和健康管理。
这项研究意义非凡。从临床角度看,其构建的预测模型仅依靠血常规数据,大大降低了检测成本和检测周期,有助于高尿酸血症高危人群的及时诊断和干预,为临床医生提供了有力的辅助诊断工具。从公共卫生角度而言,该模型为大规模人群的高尿酸血症筛查提供了新的技术手段,有助于提高公众对高尿酸血症的认知和防控意识。此外,研究中采用的数据处理和模型优化方法,以及开发的疾病风险预测平台,为其他疾病的风险预测和健康管理提供了宝贵的经验和借鉴。不过,研究也存在一定的局限性,如数据来源有限可能影响模型的普遍性,数据不平衡和合成数据可能存在偏差等。未来,研究人员将继续优化模型,拓展数据来源,提升模型性能,让这一成果更好地服务于人类健康。