编辑推荐:
慢性肾脏病(CKD)危害严重且早期诊断困难。研究人员开展基于机器学习算法和集成模型检测 CKD 的研究。他们用 UCI 机器学习库数据,提出多种新方法。结果显示多种模型准确率高,为 CKD 早期检测提供新途径。
在人体的精密 “运转” 中,肾脏扮演着极为重要的角色,它就像一台勤劳的 “过滤器”,过滤血液中的废物、毒素和多余水分,同时还参与调节电解质平衡、血压和酸碱平衡等关键生理过程。然而,慢性肾脏病(Chronic Kidney Disease,CKD)却如同隐藏在暗处的 “杀手”,悄无声息地侵蚀着肾脏功能。全球超过 10% 的人口深受其害,每年约 130 万人因它失去生命。CKD 早期往往没有明显症状,一旦症状显现,病情可能已发展至难以治愈的阶段,患者可能面临肾脏透析或移植的困境。传统的 CKD 检测方法,如血液和尿液检测,不仅效率低、成本高,而且结果准确性欠佳。因此,寻找一种更精准、高效的 CKD 早期检测方法迫在眉睫。
在这样的背景下,研究人员开展了针对 CKD 早期检测的研究。他们利用来自 UCI 机器学习库的 “Chronic Kidney Disease (CKD15)” 和 “Risk Factor Prediction of Chronic Kidney Disease (CKD21)” 数据集,运用机器学习算法和集成模型,致力于实现 CKD 的早期精准检测。该研究成果发表在《Computer Methods and Programs in Biomedicine Update》上,为 CKD 的防治带来了新的希望。
研究人员在本次研究中运用了多种关键技术方法。首先是数据处理技术,包括数据收集、预处理、编码、拆分和采样等。他们收集 CKD15 和 CKD21 数据集,对有缺失值的 CKD15 数据集进行 KNN 插补等预处理;采用离散编码和范围编码技术统一数据集特征类型;将数据集按特定比例拆分,并利用合成少数过采样技术(SMOTE)处理数据不平衡问题。其次是特征选择技术,使用递归特征消除交叉验证(RFECV)、互信息(MI)、皮尔逊相关系数、最小绝对收缩和选择算子(LASSO)等方法挑选重要特征。最后是模型构建技术,构建了包括决策树、随机森林等多种基础模型以及 Tri - phase Ensemble、Multi - layer Blending 和 Multi - layer Stacking 等集成模型。
下面来看看具体的研究结果:
- 不同分类器的性能指标:研究人员对多种分类器在不同数据集上的性能进行评估,用准确率、精确率、召回率、F1 分数和 AUC 分数衡量。在离散合并数据集上,Tri - phase Ensemble 表现最佳,准确率达 99.5% ;在范围合并数据集上,AdaBoost 准确率为 97.5% ;在离散 CKD21 验证中,Logistic Regression 表现突出;在范围 CKD21 验证中,Random Forest 和 Support Vector Machine 达到 100% 的准确率。这表明不同模型在不同数据集上各有优势。
- 特征选择方法对过采样数据集的性能分析:研究发现,不同特征选择技术与分类器结合,在不同数据集上效果各异。如在离散合并数据集上,Tri - phase Ensemble、MLP、KNN 和 SVM 使用 RFECV 特征选择时准确率可达 99.5%;在范围合并数据集上,Logistic Regression 使用 LASSO 特征选择时准确率为 97.5% 等。说明合适的特征选择方法能提升模型性能。
- 多层分类器层交换的性能分析:通过交换 Multi - layer Blending 和 Multi - layer Stacking 的层,研究发现 Multi - layer Stacking 在多数情况下准确率提高,如离散合并数据集上从 96.5% 提升到 99.5%;Multi - layer Blending 在范围合并数据集上准确率有小幅度提升。表明层交换对模型性能有影响,且不同模型表现不同。
- 可解释人工智能(LIME):利用 LIME 对 Tri - phase Ensemble 分类器预测进行解释,在离散合并数据集上,发现 htn、dm、al 等特征对预测 CKD 起着关键作用。这有助于理解模型预测机制,为临床诊断提供依据。
研究结论和讨论部分指出,CKD 早期检测意义重大。研究中提出的 Tri - phase Ensemble、Multi - layer Stacking 和 Multi - layer Blending 等集成模型,相较于单一基础模型,在检测 CKD 时表现更优,能有效降低过拟合风险,提高模型泛化能力,更好地处理数据不平衡和复杂数据模式。不过,该研究也存在一定局限性,如仅依赖表格数据,未考虑图像等多模态数据,数据集未包含传感器连续数据,且模型仅适用于 CKD 检测。但总体而言,该研究为 CKD 早期检测提供了新的思路和方法,未来可通过扩大数据集、纳入多模态数据、整合传感器连续数据等方式进一步拓展研究,有望为 CKD 的防治带来更多突破,为全球众多 CKD 患者带来新的希望。