编辑推荐:
流感 A 病毒(IAV)威胁全球健康,禽流感病毒跨物种传播风险高。研究人员基于 PB2 序列,用回归模型和 SHAP 值分析评估其跨物种传播风险。结果显示随机森林回归模型表现优,还确定关键残基和突变。该研究为风险评估提供新框架。
在全球公共卫生领域,流感 A 病毒(Influenza A virus,IAV)堪称一颗 “不定时炸弹”,时不时引发季节性流行,甚至偶尔还会引发全球大流行。这其中,禽流感病毒的跨物种传播潜力更是令人担忧,一旦它们突破物种屏障感染人类,极有可能引发难以预估的公共卫生危机。一直以来,科学家们都在努力寻找一种有效的方法,来精准评估禽流感病毒的跨物种传播风险,以便提前做好防控准备。在此背景下,来自国外的研究人员开展了一项极具意义的研究,相关成果发表在《BMC Genomics》杂志上。
研究人员主要运用了两种关键技术方法。一是收集来自全球共享禽流感数据倡议组织(GISAID)的 185,530 条全长 PB2 氨基酸序列,并进行分类整理,构建研究数据集。二是采用多种机器学习和统计方法,包括回归模型(如线性回归、LASSO 回归、随机森林回归等)以及基于 SHAP(SHapley Additive exPlanation)值的分析方法,对数据进行深入分析。
回归模型性能比较
研究人员构建多种回归模型评估禽流感病毒跨物种感染风险,将其视为有序回归问题,把 PB2 序列分为低、中、高风险三组。通过 5 折分层交叉验证,用均方误差(MSE)和分类指标评估模型性能。结果显示,随机森林回归模型表现最佳,在 MSE 和分类指标(如加权 Cohen's Kappa、Macro F1、Custom - weighted F1)上均领先。深度学习模型表现较差,可能是数据样本不足或任务无需复杂特征交互建模。
中风险组目标值的消融研究
风险目标值目前设定缺乏理论和实践依据,研究人员对中风险组目标值进行消融研究。发现设定为 0.5 是合理基准,随机森林模型在不同目标值下表现稳健,但较高目标值会增加回归误差,因模型难以区分禽类和跨物种类别。后续还需进一步研究确定更严谨的目标值选择方法。
含模糊残基序列对模型性能的影响
研究人员保留含模糊残基(‘X’)的序列进行实验,结果表明这些序列能提升模型在 F1 和加权 F1 分数等指标上的性能,说明其非模糊部分能为模型训练提供有价值信息。
亚型保留对模型性能的影响
为评估模型在现实场景中的性能,研究人员实施基于流感亚型保留的评估策略。排除特定亚型序列训练随机森林模型,用其验证。结果显示,模型在面对新亚型时,虽能保持较低 MSE 和较高准确率,但加权 F1 分数较低,说明在分类少数类时存在挑战,凸显处理类别不平衡问题的重要性。
基于回归的风险评估分布
随机森林模型在风险值回归和风险组分类任务中表现出色,不过在 ROC 曲线高真阳性率区域优势减弱。分析发现,跨物种类别样本常被误分类为禽类类别,且大部分样本风险分数集中在对应狭窄区间。
基于 SHAP 值的特征归因
基于随机森林模型计算 SHAP 值,确定了 10 个对风险模型重要的残基,包括 271A、627K 等,其中部分残基已被传统实验证实与病毒宿主特异性有关。不同组中特征重要性顺序有差异,但 271A 始终是最重要的特征。用前 100 个特征构建的紧凑模型性能与全特征模型相近,验证了特征重要性排序方法的有效性。
基于 SHAP 值的风险模型
通过聚合 SHAP 值构建风险模型,该模型虽分类性能不如基于回归的风险评估模型,但能分析每个风险类别内的相对重要性和组间样本相似性,有助于进行物种特异性和家族特异性风险评估。
突变效应的定量分析
研究人员量化了错义突变的风险收益,确定了 T271A、Q368K/R 等多个高风险突变,不过因样本数量限制,一些突变(如 D701N)未被列入。
禽类序列风险分数的分布
对禽类类别样本按鸟类家族分类分析风险分数分布,发现雉科(Phasianidae)在高风险十分位数中占比较大。进一步评估雉科中与风险相关的突变,确定了 I292V/T、Q368R 等重要突变。
PB2 蛋白的结构建模
用 AlphaFold 2 预测 PB2 蛋白结构,发现关键残基分布在蛋白表面,部分残基空间聚集,表明它们影响跨物种传播潜力的机制可能多样。
研究人员成功开发两种互补方法评估禽流感病毒 PB2 序列的跨物种传播潜力。确定了关键残基和突变,发现雉科在禽流感病毒跨物种传播中可能扮演重要角色。不过研究也存在局限,如模型对其他宿主来源的流感序列预测能力有限,未考虑多个基因组片段间的协同作用。未来研究可拓展范围,纳入多种宿主的流感病毒和所有基因组片段,深入探究病毒跨物种传播机制,为防控禽流感病毒跨物种传播提供更坚实的理论基础和技术支持。