基于机器学习与NFHS-5数据解析印度女性哮喘流行规律及多维度预测因子
《BMC Public Health》:Prevalence and predictors of asthma among Indian women: a machine learning-based analysis of NFHS-5 data
【字体:
大
中
小
】
时间:2025年11月09日
来源:BMC Public Health 3.6
编辑推荐:
本研究针对印度育龄女性哮喘研究不足的现状,利用NFHS-5数据(n=550,746),通过随机森林等机器学习模型识别非线性的高风险预测因子。结果显示哮喘患病率为15.4‰,膳食评分、年龄、财富指数为关键预测因子(随机森林AUC=0.912),揭示了环境、行为与营养因素的复杂交互作用,为精准干预提供数据支撑。
哮喘作为一种慢性炎症性气道疾病,全球患者超过2.62亿,每年导致约40万人死亡。在印度,这一疾病负担尤为沉重,但现有研究多聚焦于儿童或泛成人群体,对育龄女性的关注严重不足。传统统计模型难以捕捉环境、社会经济和行为因素间复杂的非线性关系,导致高风险人群的识别不够精准。为此,Mehta等学者在《BMC Public Health》发表研究,首次将机器学习技术应用于印度全国健康调查数据,系统揭示15-49岁女性哮喘的流行特征及多维度预测因子。
研究团队采用印度第五轮全国家庭健康调查(NFHS-5)2019-2021年数据,覆盖55万余名女性,通过分层两阶段抽样确保全国代表性。技术方法核心包括:利用卡方检验筛选显著变量;采用上采样技术解决类别不平衡问题;比较逻辑回归、随机森林和XGBoost三种机器学习模型性能;以曲线下面积(AUC)和准确率为评估指标,通过特征重要性排序识别关键预测因子。
样本中98.6%女性无哮喘史,1.4%(7505人)自报患病。人群以农村居民(71.9%)、印度教徒(75.8%)为主,半数仅完成中学教育(51.1%),财富分布相对均衡。多数居住于砖混结构房屋(57.8%)、使用清洁燃料(58.9%)并拥有改良厕所(82.3%),但超重(22.6%)与烟草使用(5.8%)等风险行为依然存在。
卡方检验显示,砖混住房(16.3‰ vs 13.9‰)、独立厨房(15.9‰ vs 14.2‰)与改良厕所(15.8‰ vs 13.6‰)反而与更高患病率相关,可能源于密闭空间内过敏原积聚。厨房通风无显著影响(p=0.51),而清洁燃料使用(15.8‰)与非清洁燃料(14.7‰)差异显著(p<0.05)。行为方面,吸烟(27.0‰)和饮酒(23.3‰)群体风险显著升高(p<0.001)。
患病率随年龄增长而上升,>34岁人群达23.7‰。教育呈现“U型”关联,初等教育者最高(21.5‰),高等教育者最低(12.0‰)。中等财富群体风险突出(17.0‰),基督徒(25.9‰)与其他种姓(18.5‰)患病率较高。营养指标中,超重者风险达23.4‰,显著高于体重正常者(p<0.001),而膳食评分越高,哮喘风险反而增加(p<0.001)。
随机森林模型表现最优(AUC=0.912,准确率84.3%),显著优于XGBoost(AUC=0.767)和逻辑回归(AUC=0.650)。特征重要性分析显示,膳食评分(贡献度约25%)、年龄和财富指数(各约22%)为前三位的预测变量,种姓、教育、宗教及厨房类型紧随其后。
均值预测概率(MPP)表明,>34岁女性(0.7717)、超重者(0.7547)、基督徒(0.7099)及吸烟者(0.7213)风险最高。高膳食评分群体MPP达0.5554,城市居民(0.6188)显著高于农村(0.5458),印证了“富裕悖论”现象——改善的生活条件可能伴随新的环境暴露风险。
本研究通过机器学习模型突破了传统线性分析的局限,揭示印度育龄女性哮喘的流行受膳食模式、年龄结构、社会经济地位等多维度因素交织影响。随机森林模型的高精度预测为公共卫生实践提供新思路:可将哮喘筛查整合至孕产妇保健计划(如RMNCH+A),结合Ujjwala计划推广清洁燃料,并通过社区健康工作者(ASHA)开展针对性宣教。未来需结合临床检测数据(如肺功能测定)和遗传信息,进一步优化风险分层模型,实现从群体预警到个体化干预的跨越。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号