基于机器学习的数据驱动框架预测阿斯利康与国药COVID-19疫苗副作用
《Scientific Reports》:A data-driven machine learning framework to predict side effects of AstraZeneca and sinopharm COVID-19 vaccines
【字体:
大
中
小
】
时间:2025年11月20日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对COVID-19疫苗接种后副作用预测的临床需求,构建了涵盖1,110例伊朗西北部人群的回顾性数据集,通过支持向量机(SVM)、随机森林(RF)等8种机器学习算法,系统评估了阿斯利康与国药疫苗的局部、全身及总体副作用风险。结果显示,SVM与梯度提升(GB)对首剂局部副作用预测AUC达0.77,RF对第二剂总体副作用预测AUC提升至0.85,SHAP分析明确年龄、疫苗类型、症状出现时间为关键影响因素。该框架为个性化疫苗接种策略提供了数据驱动支持,对提升公众接种信心具有重要价值。
随着COVID-19疫苗的全球大规模接种,疫苗副作用成为影响公众接种意愿的关键因素。尽管多数副作用为轻微反应,但其发生频率和类型受年龄、性别、基础疾病等多因素影响,传统统计方法难以实现精准预测。伊朗西北部地区主要接种阿斯利康(ChAdOx1 nCoV-19)和国药(BBIBP-CorV)疫苗,但两种疫苗的副作用风险差异及个体化预测模型尚属空白。为此,研究团队首次在该区域开展机器学习驱动的副作用预测研究,旨在通过临床特征与人口统计学数据构建可解释的预测模型,为优化疫苗接种策略提供科学依据。
研究团队整合了两项横断面研究数据,共纳入1,110名接种者的完整信息,包括 demographic(年龄、性别、BMI、教育程度等)、clinical backgrounds(基础疾病、COVID-19感染史、用药史)以及疫苗接种后记录的局部(如注射部位疼痛、红肿)和全身(如发热、头痛、肌肉疼痛)副作用。数据预处理采用中位数/众数填补缺失值,并通过标准化处理连续变量。研究采用8种机器学习算法(决策树DT、随机森林RF、XGBoost、K近邻KNN、逻辑回归LR、支持向量机SVM、梯度提升GB和人工神经网络ANN),利用网格搜索优化超参数,并通过分层10折交叉验证评估模型性能。关键创新点在于引入SHAP(SHapley Additive exPlanations)分析量化特征贡献度,增强模型可解释性。
首剂接种后,18-34岁人群副作用发生率显著高于≥65岁群体(P<0.001),女性比男性更易报告副作用(局部症状P<0.001)。阿斯利康疫苗的副作用发生率高于国药疫苗(P<0.001),且有COVID-19感染史者副作用风险更高。第二剂接种时,首剂副作用史成为最强预测因子,凸显剂量间反应的连续性。
首剂局部副作用预测中,SVM与GB表现最优(AUC=0.77),SHAP分析显示年龄、症状出现时间、疫苗类型为关键特征。第二剂预测中,XGBoost与RF的AUC提升至0.87,模型特异性达90%,首剂局部副作用史成为核心影响因素。
首剂全身副作用预测中,SVM、GB和LR的AUC均达0.75以上,年龄与疫苗类型为主要贡献因子。第二剂预测时,LR与RF的AUC升至0.80,首剂全身副作用史与症状持续时间成为关键预测变量。
首剂总体副作用预测中,SVM、GB和ANN的AUC为0.82;第二剂预测中RF表现突出(AUC=0.85),且SHAP分析明确第二剂症状出现时间与首剂副作用史为决定性因素。
本研究通过机器学习模型成功实现了COVID-19疫苗副作用的精准预测,并首次在伊朗西北部人群中验证了阿斯利康与国药疫苗的副作用风险差异。结果表明,集成树模型(如RF、XGBoost)和SVM在副作用预测中具有稳定优势,且SHAP分析增强了临床可解释性。研究局限性包括样本性别比例失衡(女性占54.95%)和未纳入加强针数据,但为后续多中心研究和深度学习模型拓展奠定了基础。该框架有望集成至疫苗接种决策系统,通过个性化风险提示提升公众信任度,并为其他疫苗的副作用预测提供方法论参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号