塞拉利昂袋鼠式母亲护理的机器学习预测:特征选择技术与分类算法的比较研究
《International Journal of Medical Microbiology》:Machine learning prediction of kangaroo mother care in Sierra Leone: a comparative study of feature selection techniques and classification algorithms
【字体:
大
中
小
】
时间:2025年11月03日
来源:International Journal of Medical Microbiology 3.6
编辑推荐:
本研究针对塞拉利昂袋鼠式母亲护理(KMC)实践预测难题,研究人员通过比较三种特征选择技术(ACO、RFE、Backward Elimination)与七种分类算法的组合效能,发现随机森林(Random Forest)和XGBoost模型在共识特征集上表现最优(准确率0.72,F1-score 0.78,ROC-AUC≈0.77),为资源有限地区的母婴健康干预提供了数据驱动的决策支持。
在新生儿死亡率居高不下的塞拉利昂,袋鼠式母亲护理(Kangaroo Mother Care, KMC)作为一种经济有效的干预措施,被证实能够降低高达40%的新生儿死亡风险。然而,尽管其临床效益明确,KMC在不同地区和人群中的实施率存在显著差异。传统统计方法虽然能够识别部分影响因素,但难以捕捉多变量间复杂的非线性关系。为此,Augustus Osborne等研究人员在《International Journal of Medical Microbiology》上发表论文,首次将多种机器学习技术应用于塞拉利昂全国性人口健康调查数据,系统比较不同特征选择与分类算法在KMC实践预测中的效能。
研究团队采用2019年塞拉利昂人口与健康调查(Demographic and Health Survey, DHS)的7,377份母婴健康记录,构建了一套完整的机器学习分析流程。关键技术方法包括:使用SMOTE(Synthetic Minority Over-sampling Technique)处理数据不平衡问题,采用5折和10折交叉验证进行模型稳健性评估,并通过GridSearchCV进行超参数优化。特征选择阶段对比了自适应蚁群优化(Adaptive Ant Colony Optimization, ACO)、递归特征消除(Recursive Feature Elimination, RFE)和向后特征选择(Backward Feature Selection)三种技术,最终选取至少被两种方法共同选中的特征作为共识特征集。模型开发阶段测试了逻辑回归(Logistic Regression, LR)、支持向量机(Support Vector Machine, SVM)多种核函数、K近邻(K-Nearest Neighbours, KNN)、随机森林(Random Forest, RF)、XGBoost以及堆叠(Stacking)和投票(Voting)两种集成方法共七类算法。
3.1. 特征选择技术的结果比较
ACO筛选出23个特征,RFE和向后选择各选出10个特征。共识特征包括出生顺序、母亲教育水平、分娩情况(剖宫产、分娩地点等)和社会经济指标等关键变量。这些特征与既往研究中影响KMC实践的因素高度吻合,证实了模型筛选的生物学合理性。
3.2. 不同特征集下的模型性能
在RFE特征集上,随机森林和XGBoost均达到0.69的平衡准确率;使用向后选择特征时,两者性能提升至0.71准确率;ACO特征集也支持了相似结论。值得注意的是,线性模型(逻辑回归和线性SVM)在特定特征集下展现出与集成方法相近的ROC-AUC(0.776-0.777),提示特征工程的重要性。
3.3. 共识特征的验证性能
基于共识特征集的交叉验证显示,随机森林和XGBoost的5折AUC分别达到0.7753和0.7741,显著优于其他模型。最终测试集评估中,随机森林和XGBoost均取得0.72的准确率、0.78的F1-score和约0.77的ROC-AUC,而集成方法并未显著超越这两个基础集成算法。
3.4. 特征选择方法的比较
向后选择和ACO的整体表现优于RFE,说明全局搜索策略(ACO)和逐步剔除策略(向后选择)更适用于KMC预测场景。ACO的元启发式搜索特性使其能够发现传统贪心算法可能忽略的特征组合。
研究结论表明,机器学习模型(尤其是随机森林和XGBoost)能有效预测KMC实践,共识特征集包含的出生顺序、教育水平、分娩情况等变量为制定针对性干预措施提供了科学依据。该研究的创新点在于首次系统比较了多种特征选择与分类算法在非洲地区KMC预测中的应用,为资源有限 settings 的精准医疗实践提供了方法论参考。未来研究可关注模型的外部验证、临床转化路径以及结合定性研究的混合方法探索。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号