基于深度学习和宿主-群体选择压力模拟的SARS-CoV-2流行突变预测框架ViralForesight

【字体: 时间:2025年06月19日 来源:Briefings in Bioinformatics 6.8

编辑推荐:

  本研究针对SARS-CoV-2流行突变预测的难题,开发了整合蛋白质语言模型(PLM)和计算机模拟病毒进化的深度学习框架ViralForesight。通过宿主-群体选择压力模拟策略,该研究不仅成功复现了历史流行突变,还提前半年预测到未来主导疫情的关键突变(如T478E/F486A等),并经体外实验验证。这项发表于《Briefings in Bioinformatics》的工作为新兴病毒感染的主动防控提供了创新工具。

  

研究背景与意义
新冠病毒SARS-CoV-2的持续变异给全球公共卫生带来严峻挑战。病毒在宿主内和群体间的进化过程中,受到包括ACE2结合亲和力、表达水平和抗体逃逸等多重选择压力的影响,导致不断出现具有传播优势的变异株。然而,现有预测方法存在明显局限:深度突变扫描(DMS)实验成本高昂;传统计算模型往往只关注单一选择压力;而进化轨迹分析方法仅能事后解释已观察到的变异。如何整合多重选择压力、实现对未来流行突变的主动预测,成为亟待解决的科学难题。

研究设计与方法
由北京大学深圳研究生院、鹏城实验室和广州国家实验室等机构联合开展的研究,开发了名为ViralForesight的生成式深度学习框架。该研究创新性地提出"宿主-群体选择压力模拟"策略:

  1. 使用650M参数的ESM-2蛋白质语言模型,通过SARS-CoV-2谱系特异性变异序列进行微调
  2. 采用突变位点引导的变体生成方法,模拟RBD区域百万级变异
  3. 构建宿主级表达预测模型和群体级量化抗体屏障模型进行筛选
  4. 通过假病毒实验验证预测突变的入侵效率和中和抗体逃逸能力

主要研究结果

生成式预测框架的构建
ViralForesight包含四个核心模块:PLM微调模块利用实时进化信息调整模型参数;突变位点引导生成模块根据位点突变概率分布指导变异;选择压力筛选模块通过表达预测模型和抗体屏障模型(基于DMS数据分组计算群体逃逸分数)进行双重过滤;最终通过突变频率排序推荐潜在流行突变。

预测可靠性验证
通过生成规模(100万变异体达到进化适应度上限)、预测稳定性(三次重复实验排名相关系数PCC>0.95)和筛选有效性(86%的历史流行突变经筛选后排名上升)三个维度的实验证实,BA.2.1和BA.5.1作为起始谱系时,ViralForesight对历史流行突变的预测准确率比现有方法MLAEP提高42.9%-85.7%。

未来流行突变的精准预测
以XBB.1.5为起始谱系的预测中,排名前12的单点突变经假病毒实验验证显示:T478S/F486A/F486T使293T-hACE2细胞感染效率显著提升(P<0.0001);T478E/T478S/F486A/F486I对全部测试血清表现出强中和抗体逃逸。截至2024年6月,T478E/F486A/F486I在真实世界变异株中占比超80%,其中KP谱系占比达57.9%。

结论与展望
该研究开创性地将宿主内进化与群体传播的选择压力整合到深度学习框架中,实现了SARS-CoV-2流行突变的生成式预测。ViralForesight不仅能解释病毒进化轨迹,更重要的是可提前半年预警高风险突变,为疫苗和药物研发争取宝贵时间。当前框架尚限于单点突变预测,未来需整合传播力、致病性等更高层次因素以进一步提升预测效能。这项发表于生物信息学顶级期刊的研究,展示了人工智能在应对新发传染病威胁中的变革性潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号