使用H3流感基因组数据评估用于宿主预测的机器学习方法

《PLOS One》:Evaluating machine learning approaches for host prediction using H3 influenza genomic data

【字体: 时间:2025年11月06日 来源:PLOS One 2.6

编辑推荐:

  H3流感病毒跨物种传播的机器学习预测模型研究。通过整合所有8个基因组段的序列数据,采用随机森林和XGBoost算法训练模型,验证其在宿主预测中的高准确性(总体准确率0.995-0.997,κ值0.984-0.990),并成功识别犬类H3N8、猪H3N2 2010.2等案例中的跨物种传播模式。研究提出特征选择优化和样本均衡化改进方向。

  H3型流感A病毒(IAV)在跨越物种屏障方面表现出较高的频率,这种现象可能对病毒的持续传播和扩散产生重要影响。为了更准确地预测H3 IAV的宿主范围,研究人员采用机器学习算法,并结合了所有八个IAV基因组段的序列数据来训练预测模型,并对模型的性能进行了验证。这一研究旨在为识别具有更高跨物种传播潜力的病毒变种提供一个坚实的基础框架。

本研究的数据集主要来源于公开的基因组序列数据库,包括NCBI流感病毒数据库(IVD)、细菌与病毒生物信息学资源中心(BV-BRC)以及全球流感数据共享倡议(GISAID)的Epiflu数据库。数据预处理过程中,研究人员从每个数据库中提取了完整的基因组序列,并对其进行了筛选,排除了重复数据和样本量不足的宿主类别。对于某些类别,如鸭子和鹅,保留它们作为案例研究对象,以便进一步探讨其作为宿主的潜在传播能力。

在数据预处理后,每个基因组段的序列需要满足一定的条件,例如每个基因组段必须有完整的核苷酸序列和蛋白质序列,同时排除了包含大量缺失数据的序列。此外,研究还筛选了所有不属于H3亚型的序列,确保了模型训练的准确性。对于每个基因组段,研究人员提取了不同长度的k-mer序列,包括核苷酸序列中的长度1-6的k-mer和蛋白质序列中的长度1-3的k-mer。同时,还提取了六个氨基酸属性,如氨基酸长度、gravy值、bulk值、疏水性指数、极性以及总体电荷。这些特征为后续的模型训练提供了全面的输入信息。

为了减少计算复杂性并提高模型的预测能力,研究人员对每个基因组段的特征进行了选择。通过初步训练随机森林模型,并根据特征重要性评分(mean decrease Gini scores)筛选出每个基因组段中最重要的10%特征,从而构建了最终的预测模型。特征选择的结果显示,所有模型都选择了所有可用的核苷酸和蛋白质k-mer类别,这表明这些特征对于宿主预测具有普遍的重要性。

模型训练过程中,研究人员使用了三种算法:多元逻辑回归(multinomial logistic regression)与岭惩罚(ridge penalization)、随机森林(random forest)以及XGBoost。为了确保模型的泛化能力,这些模型在训练时采用了五折分层交叉验证(stratified cross-validation)的方式。此外,模型的超参数通过网格搜索(grid search)进行了调优,以获得最佳的预测效果。XGBoost模型在某些基因组段中表现出更优的性能,而随机森林模型则在其他段中略胜一筹。整体来看,所有模型在测试数据集上的表现都非常优异,总体准确率和κ值(kappa值)分别在0.9951–0.9967和0.9844–0.9896之间。

模型的验证结果显示,大多数序列都被正确分类,所有基因组段都被预测为相同的宿主类别。然而,也有少量序列被误分类,且这些误分类的序列具有较高的预测概率。通过文献验证,这些高预测概率的误分类序列经常与跨物种传播事件相关。此外,对于正确分类和误分类的序列,它们的预测概率接近某些宿主类别,这也可能暗示了近期的跨物种传播或者潜在的传播可能性。这些结果表明,机器学习模型在预测H3 IAV宿主方面具有很高的可靠性,并且能够为跨物种传播提供重要的线索。

为了进一步分析模型的预测结果,研究人员构建了代表性的最大似然法(maximum likelihood)系统发育树,以探究特定案例研究中的传播模式。通过将不同宿主类别的代表序列进行比对和聚类,研究人员发现,某些序列虽然被误分类,但它们的系统发育位置与已知的跨物种传播事件一致。例如,某些被误分类为鹅或鸭子的序列,其系统发育位置显示与家禽和野生动物的序列存在密切关系,这可能意味着这些序列在传播过程中经历了复杂的宿主转换。

此外,研究人员还利用热图(heatmaps)对模型的预测概率进行了可视化分析。热图显示了正确分类和误分类序列的预测概率分布情况,其中一些序列的预测概率显示出较高的混合性,这可能与它们在多个宿主之间的传播有关。例如,某些序列被预测为同时具有较高的鸭子和鹅的预测概率,这表明这些序列可能是在鸭子和鹅之间传播的产物。通过进一步分析这些序列的来源,研究人员发现它们可能来源于环境中的某些区域,这些区域是跨物种传播的高风险区域。

案例研究的结果进一步支持了模型的预测能力。例如,在案例研究1中,所有犬类H3N8病毒的基因组段都被预测为马类,这与文献中记载的犬类H3N8病毒最初来源于马类并随后传播至犬类的情况一致。同样,在案例研究2中,猪类H3N2 2010.2亚型的病毒在多个基因组段中被预测为人类病毒,这表明这种病毒可能是通过反向宿主传播(reverse zoonosis)从人类传播至猪类的。此外,案例研究3中的鸭子序列被预测为多个不同的宿主类别,这反映了鸭子作为多种宿主的潜在传播能力。而案例研究4中的环境序列则被预测为鸭子或猪类,这表明这些环境中的序列可能与家畜或野生鸟类存在一定的联系。

尽管模型在预测宿主方面表现优异,但研究也指出了其局限性。首先,模型在某些宿主类别上的预测能力较低,例如鹅类,这可能是由于可用的序列数量较少导致的。其次,模型的特征选择过程中没有进行交叉验证,这可能导致某些特征的偏差,影响模型的泛化能力。因此,未来的研究可以考虑在特征选择过程中引入交叉验证,以确保模型的鲁棒性和无偏性。

总的来说,本研究通过结合机器学习算法和H3 IAV的基因组数据,成功地构建了能够准确预测宿主的模型。这些模型不仅能够为H3 IAV的宿主预测提供快速和准确的工具,还能帮助识别具有更高跨物种传播潜力的病毒变种。然而,研究结果也表明,模型的预测能力在某些情况下仍存在不足,需要进一步优化数据集的多样性和完整性,以及改进特征选择和模型训练的方法。未来的研究可以结合更多数据来源,并考虑引入其他特征,如重组事件,以提高模型的预测精度和实用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号