
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习模型预测内罗毕两阶段癫痫流行病学调查中的失访决定因素及其临床意义
【字体: 大 中 小 】 时间:2025年05月27日 来源:Global Epidemiology CS5.0
编辑推荐:
研究人员针对多阶段横断面研究中普遍存在的失访(attrition)问题,在内罗毕城市健康与人口监测系统(NUHDSS)开展了两阶段癫痫患病率调查。通过应用随机森林(RF)、极限梯度提升(XGB)等7种机器学习算法,构建出AUC达0.98的预测模型,发现工业区邻近性、男性性别等因素与失访显著相关。该研究为优化癫痫筛查流程、开发风险预测工具提供了重要依据,对实现WHO"癫痫全球行动计划"(IGAP)服务覆盖目标具有实践价值。
癫痫作为影响全球5000万患者的神经系统疾病,80%病例集中在低中收入国家(LMICs)。世界卫生组织(WHO)2022年颁布的"癫痫全球行动计划"(IGAP)明确提出到2031年将癫痫服务覆盖率提高50%的战略目标,而准确估算患病率是实现该目标的关键前提。然而在采用多阶段筛查设计的流行病学调查中,失访(attrition)问题严重制约数据质量——当第一阶段筛查出的疑似病例未能参加第二阶段神经科医生评估时,将导致患病率低估。这一问题在城市贫民窟等流动人口集中区域尤为突出,但传统逻辑回归方法难以捕捉复杂的预测因子交互关系。
非洲人口与健康研究中心的研究团队基于内罗毕城市健康与人口监测系统(NUHDSS)数据,对Korogocho和Viwandani两个城市非正规居住区的1126名癫痫筛查阳性者展开研究。通过机器学习方法构建预测模型,旨在识别高风险失访人群及其决定因素,为针对性干预提供科学依据。该研究成果发表于《Global Epidemiology》。
研究采用7:3比例划分训练集与测试集,应用合成少数类过采样技术(SMOTE)处理23%的类别不平衡问题。通过10折交叉验证调参,比较了随机森林(RF)、支持向量机(SVM)等7种算法性能,最终采用500次Bootstrap抽样评估模型稳定性。
在"背景"部分,研究阐明了多阶段调查中5%-10%的失访率即可能引起估计偏差,而传统统计方法受限于线性假设。在"方法"章节详细描述了在NUHDSS两阶段调查的设计:第一阶段采用14项标准化筛查问卷,第二阶段由神经科医生确诊,间隔4-7个月。
"结果"显示:随机森林(RF)表现最优(AUC=0.98,准确率0.95),极端梯度提升(XGB)和支持向量机(SVM)紧随其后。集成学习的超级学习器(Super Learner)组合前三名基学习器后保持同等优异性能。重要预测因子包括:工业区邻近性(OR=2.1)、男性性别(OR=1.8)、就业状态(OR=1.5)等,而复杂部分性发作病史使失访风险增加2.3倍。
"讨论"部分指出,这是首个在癫痫筛查中系统评估机器学习预测性能的研究。建立的网络算法可提前识别79%的高风险个体,使随访资源分配效率提升40%。该成果对实现IGAP战略目标具有双重价值:既提高患病率估算准确性,又能通过靶向动员将临床评估参与率提升至92%。
研究创新性体现在三方面:首次将超级学习器(Super Learner)应用于神经流行病学调查;发现城市贫民窟特有的环境暴露因素;开发的可扩展预测模型适用于类似资源受限地区。未来可整合移动医疗(mHealth)技术,将预测算法嵌入社区癫痫管理平台。这些发现为完善全球神经系统疾病监测体系提供了方法学范式。
生物通微信公众号
知名企业招聘