
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度学习的流感病毒宿主特异性识别模型Flu-CNN:大规模基因组数据分析与跨物种传播预警
【字体: 大 中 小 】 时间:2025年08月24日 来源:Human Genomics 4.3
编辑推荐:
本研究针对流感A病毒(IAV)宿主特异性识别难题,开发了基于卷积神经网络的Flu-CNN模型。研究人员通过分析911,098条基因组序列,实现了对H5N1/H7N9等高危亚型宿主特异性的精准预测(准确率99%),并鉴定出PB2蛋白关键氨基酸突变位点。该成果为流感病毒跨物种传播风险预警提供了创新性计算工具,发表于《Human Genomics》具有重要公共卫生价值。
流感病毒如同自然界高超的"变形大师",其不断变化的宿主特异性始终威胁着全球公共卫生安全。历史上H1N1亚型曾造成1918年大流行导致5000万人死亡,而近年来H5N1、H7N9等禽流感病毒跨物种感染人类的事件更是频频敲响警钟。尽管科学家已发现受体结合亲和力等影响宿主特异性的因素,但面对海量基因组数据,传统实验方法捉襟见肘,计算预测工具又受限于特征提取导致的信息丢失。这个困局亟需突破性解决方案——能否让AI直接"读懂"病毒基因组,像经验丰富的病毒学家那样准确判断其宿主偏好?
北京国防科技大学等团队在《Human Genomics》发表的这项研究给出了肯定答案。研究人员构建了Flu-CNN深度学习模型,其核心技术包括:1)从NCBI Virus等数据库收集911,098条IAV序列构建训练集;2)采用六层卷积神经网络架构处理氨基酸序列的one-hot编码;3)通过UMAP降维可视化特征提取效果;4)对PB2等关键蛋白进行突变位点筛选。特别值得注意的是,模型训练采用200个epoch和128的batch size,在配备双Xeon Platinum处理器的计算平台上完成。
研究结果部分展现出多层次的重要发现:
【Host specificity identification】模型在PB2、PA、HA等片段测试中准确率超99%,较VIDHOP等现有方法提升达29.8%。即使对样本量少的H5N1等亚型,预测稳定性仍显著优于传统方法。

【Model interpretability】UMAP可视化显示,模型能自动将人源/禽源毒株按宿主和亚型聚类,证实其有效捕获了基因组特征。

【Key amino acid substitutions】在PB2蛋白中发现8个关键突变位点,其中E627K等5个位点已被实验验证与宿主适应相关,而T108V等新位点为后续研究指明方向。

【Identification of zoonotic strains】分析显示人源H7N9毒株呈现"基因马赛克"模式,其HA等片段保留禽类特征,而PB2片段已获得人源适应性突变。
讨论部分强调,该研究首次实现单片段基因组水平的宿主特异性精准预测,对H5N1等缺乏预警标志的亚型尤为关键。发现的未报道突变位点(如PB2-A274S)为理解宿主适应机制提供新线索。未来可将该模型整合至流感监测网络,实时评估流行毒株的跨种传播风险。研究也存在局限,如未考虑糖基化修饰等表观遗传因素,这将是改进方向。总体而言,Flu-CNN不仅革新了病毒宿主预测方法,更为全球流感防控提供了智能化的"早期预警雷达"。
生物通微信公众号
知名企业招聘