基于大语言模型的病毒跨种传播风险预测:BERT-infect模型在26个病毒科中的性能评估与局限性分析

【字体: 时间:2025年05月21日 来源:Communications Medicine 5.4

编辑推荐:

  为解决病毒跨种传播风险评估中数据不足和模型泛化能力有限的问题,研究人员通过构建覆盖26个病毒科的扩展数据集,开发了基于预训练大语言模型(LLM)的BERT-infect预测系统。该模型在分段RNA病毒和短序列输入场景中表现优异,但揭示出现有机器学习模型对SARS-CoV-2相关病毒等特定谱系预警能力的普遍缺陷。这项发表于《Communications Medicine》的研究为疫情预警提供了新工具,同时指出模型改进的紧迫方向。

  

动物源性病毒的跨种传播(zoonotic spillover)一直是全球公共卫生的重大威胁。尽管高通量测序技术揭示了动物体内庞大的病毒多样性,但传统方法难以快速评估这些病毒的人类感染风险。现有机器学习模型面临三大挑战:数据集覆盖范围有限、对分段RNA病毒预测能力不足,以及无法有效预警新兴病毒如SARS-CoV-2的传播风险。

日本早稻田大学等机构的研究团队通过整合NCBI病毒数据库中26个病毒科的140,638条序列,构建了比既往数据集大29倍的训练集。研究创新性地采用两种预训练大语言模型(DNABERT和ViBE)开发了BERT-infect系统,该系统在分段RNA病毒和短序列输入场景中表现突出,但对特定高致病性病毒谱系的预警存在普遍缺陷。这项突破性成果发表于《Communications Medicine》,为完善疫情预警体系提供了重要基准。

关键技术包括:1)从NCBI病毒数据库筛选26个病毒科的基因组数据,按采集时间划分为2017年前(训练集)和2018年后(测试集);2)对分段RNA病毒进行序列分组和冗余消除;3)基于4-mer tokenization的DNABERT和ViBE模型微调;4)采用五折分层交叉验证评估模型性能;5)通过系统发育树分析预测失败案例的进化特征。

主要结果
构建覆盖26个病毒科的大规模数据集
通过严格筛选NCBI数据,研究构建了包含29倍于传统Virus-Host Database的新数据集,其中15个病毒科的人类感染病毒样本量首次超过50株,解决了既往模型因数据偏倚导致的性能虚高问题。

LLM预训练显著提升模型性能
BERT-infectDNABERT和BERT-infectViBE在18个病毒科的PR-AUC(精确率-召回率曲线下面积)中表现最优,尤其在Orthomyxoviridae等分段RNA病毒科提升显著。而未经预训练的模型则完全失效,证实了LLM在特征提取中的关键作用。

短序列输入的适用性验证
模型对250bp高通量测序读长和500-5000bp拼接序列保持稳定预测性能(PR-AUC>0.8),而基于k-mer频率的humanVirusFinder模型在短输入时性能骤降,证实BERT-infect更适合宏基因组数据挖掘。

新发病毒预测的局限性
虽然模型对多数2018年后发现的病毒保持预测力(中位F1分数0.75),但在SARS-CoV-2相关病毒(sarbecoviruses)和H5亚型禽流感病毒等WHO重点监控病原体上普遍失效。系统发育分析显示,Flavivirus属等频繁发生宿主转换的病毒谱系预测难度显著增高。

讨论与展望
该研究揭示了当前病毒风险评估模型的"阿喀琉斯之踵":尽管BERT-infect在多数场景表现优异,但其对SARS-CoV-2和H5N1等关键病原体的预警失败暴露出根本性缺陷。研究者推测这可能与病毒通过少量突变获得跨种能力(如SARS-CoV-2的S蛋白变异)的机制有关,而基于核苷酸序列的模型难以捕捉这类细微但关键的变化。

研究建议未来从三方面改进:1)开发整合蛋白质语言模型的多模态系统;2)建立感染性-传播性分级预测框架;3)构建包含明确实验验证数据的金标准数据集。值得注意的是,DNABERT(人类基因组预训练)和ViBE(病毒基因组预训练)模型表现相当,暗示病毒人类感染可能涉及宿主因子模仿之外的多种机制,这为理解病毒宿主适应提供了新视角。

这项研究不仅为疫情防控提供了更强大的计算工具,更重要的是建立了模型性能评估的黄金标准。研究者强调,机器学习模型应作为病毒监测网络的组成部分,而非独立解决方案——增强动物病毒 surveillance、深化实验验证与计算预测的协同,才是应对未来人畜共患病威胁的终极策略。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号