
-
生物通官微
陪你抓住生命科技
跳动的脉搏
结合预测建模与情感分析提升拉沙热预测及公共卫生干预效能
【字体: 大 中 小 】 时间:2025年07月09日 来源:Next Research
编辑推荐:
本研究针对拉沙热(Lassa Fever)预测中缺乏公众情感数据整合的空白,开发了整合流行病学建模与情感分析的双阶段机器学习框架。研究人员利用NCDC流行病学数据和公开调查情感数据,训练了七种分类器(如Logistic Regression、Random Forest),通过SMOTE和TF-IDF处理数据不平衡问题,并采用5-fold cross-validation评估。结果显示,AdaBoost(AUC: 0.9655)和Gradient Boosting(MCC: 0.9674)在流行病学预测中领先,而情感分类中Random Forest(accuracy: 0.9718)和KNN(Kappa: 0.9696)表现优异。该框架为公共卫生规划提供了行为敏感的预测工具,提升了风险沟通和疾病控制效能。
在非洲西部,拉沙热(Lassa Fever)是一种致命的病毒性出血热,每年导致约10万至30万病例和5000人死亡,其中尼日利亚、塞拉利昂和几内亚是高发区。尽管已有基于流行病学的预测模型,如Recursive Prediction模型能达到96.7%的准确性,但这些方法存在显著局限:它们往往忽视公众情感和行为数据,导致预测结果无法反映社区的真实风险感知和防控意愿。例如,Agusto和Solasa的研究指出,低风险认知会加速疾病传播,而Lewis和Novosel强调,情感数据(如公众恐慌或认知偏差)是强化风险沟通的关键。此外,现有模型常忽略数据不平衡问题(如少数类样本不足),并缺乏对气候、地理等环境因素的综合分析,使得预测在现实应用中不够可靠。这些问题不仅限制了疫情响应效率,还可能导致公共卫生资源错配——在2023年尼日利亚爆发中,尽管有快速响应团队,但医疗工作者感染率仍居高不下,凸显了预测与干预脱节的弊端。
为了填补这一空白,尼日利亚埃多州大学(Edo State University)的研究人员开展了一项创新研究,通过结合流行病学数据挖掘和情感分析,构建了一个双阶段机器学习框架,旨在提供更全面、行为敏感的预测工具。研究人员首先从尼日利亚疾病控制中心(NCDC)获取结构化流行病学数据,覆盖了埃多州及其邻州(如阿南布拉州和翁多州)的病例、地理和人口统计信息;同时,他们收集了超过21,000条公开调查响应作为情感数据集。在数据处理阶段,流行病学数据采用标签编码(Label Encoding)、相关性特征消除(Correlation Feature Elimination)和SMOTE(Synthetic Minority Over-sampling Technique)技术来解决类不平衡问题;情感数据则使用TextBlob进行极性评分(划分为积极、中立和消极三类),再通过Count Vectorizer和TF-IDF(Term Frequency-Inverse Document Frequency)进行向量化。在模型训练中,七种监督学习算法(包括Logistic Regression、Decision Tree、Naive Bayes、Random Forest、Gradient Boosting、AdaBoost和K-Nearest Neighbor)被应用于两个阶段,所有模型均通过5-fold分层交叉验证(5-fold Stratified Cross-Validation)来确保鲁棒性。评估指标涵盖多维度指标,如准确度(Accuracy)、Matthews相关系数(MCC)、Cohen's Kappa、平衡准确度(Balanced Accuracy)、对数损失(Log Loss)和ROC曲线下面积(AUC)。最终,研究在《Next Research》上发表,证明了该框架不仅提升了预测精度,还为公共卫生决策提供了动态反馈机制。
Dataset Description
研究人员使用了两个核心数据集:流行病学数据源自NCDC公开仓库,覆盖埃多州及邻近州(如阿南布拉州和翁多州),包含病例数、地理位置和患者人口统计等结构化临床信息;情感数据则来自超过21,000条公众查询响应,通过TextBlob划分为10,534条积极、3,510条消极和7,020条中立情感。
Results
在流行病学预测阶段,七种算法均表现优异,其中AdaBoost在准确度(0.9596)、Kappa(0.9698)和AUC(0.9655)上领先,Gradient Boosting则在Kappa(0.9692)、MCC(0.9674)和AUC(0.9543)上突出,表明集成方法(Ensemble Methods)能有效处理复杂特征;情感分析阶段,Random Forest以最高准确度(0.9718)和AUC(0.9667)成为最优模型,而KNN凭借Kappa(0.9696)、MCC(0.9603)和最低对数损失(0.0)展示了出色的一致性。这些结果证实了情感数据对预测的补充价值——积极情感占比高反映公众认知度良好,但中立和消极情感提示需改进沟
生物通微信公众号
知名企业招聘