基于废水基因组测序与机器学习的新冠病毒变异株早期监测系统ICA-Var的开发与应用

【字体: 时间:2025年07月09日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对传统临床监测SARS-CoV-2变异株(VoCs)的资源消耗大、时效性差等问题,开发了基于独立成分分析(ICA)的废水监测管道ICA-Var。通过分析内华达州3659份废水样本和8810份临床基因组数据,该方法成功提前检测到Delta、Omicron及XBB等变异株,并发现未报道的共变突变模式。其多变量特性显著提升统计效能,为新型病原体监测提供了无偏倚解决方案。

  

在全球新冠疫情持续演变的背景下,病毒变异株的快速出现对公共卫生监测体系提出严峻挑战。传统临床检测依赖个体主动就医,存在报告延迟、样本偏差等问题,而现有生物信息学工具如Freyja受限于预定义变异条形码,难以识别未表征的新型变异株。更棘手的是,农村地区医疗资源匮乏与检测意愿低下导致流行病学数据缺口,亟需开发新型监测手段。

针对这一系列问题,美国内华达州的研究团队创新性地将环境科学与人工智能技术相结合,构建了名为ICA-Var的多变量监测系统。该研究通过两年间持续收集南内华达州城乡3659份废水样本,结合8810份当地临床基因组数据,开发出基于独立成分分析(ICA)的无监督学习框架。相关成果发表于《Nature Communications》,为全球传染病防控提供了突破性技术方案。

研究团队主要采用三项关键技术:1) 靶向扩增测序技术获取高覆盖率(>80%)的废水病毒基因组;2) 多变量ICA算法将突变频率转化为独立信号源;3) 双回归分析实现时间演化特征的动态追踪。通过严格质控筛选1385份高质量样本,覆盖59,422个基因组位点,确保数据可靠性。

早期检测新兴变异株
通过对比标准工具Freyja,ICA-Var在2021-2023年监测中展现出显著优势。对于Delta和Omicron等已知变异株,两种方法检测时间基本一致。但在新兴变异如EG.5的识别中,ICA-Var通过整合多个样本的微弱信号(3/8主导突变位点),较Freyja提前4周(2023年6月vs7月)实现检出。类似优势也见于HV.1和BA.2.86等变异株监测,证实其多变量分析可增强统计效能。

城乡传播动态解析
研究首次系统比较城乡变异株传播差异。在18个受关注变异株(VoCs)中,16个呈现"城市首发-农村迟发"模式,与流行病学调查相符。例外情况如FL.1.5.1在乡村样本的异常高载量(7/2023),提示局部暴发可能。时空分析表明XBB.1虽被Freyja误报为"农村首发",ICA-Var通过城市样本的早期弱信号(10/2022)修正了这一结论。

突变贡献度时空图谱
ICA-Var成功识别730个显著贡献突变位点,其中177个呈现明确时间演化特征。如图4所示,Delta变异株25个主导突变中16个在2021年贡献峰值,而XBB.1的22个特征突变在2022年9月后活跃。这些突变簇的共变特征(图4C橙色框)为重组变异株的机制研究提供了新线索。

潜在新型变异预警
通过聚类分析113个未关联已知VoCs的突变位点,发现6个特征簇(图5A)。其中簇1的8个突变(图5C)在2023年8月后呈现协同演化,但GISAID数据库检索显示临床检出率极低(补充图5),提示可能存在尚未流行的新型变异株前体。

该研究的创新价值体现在三方面:首先,ICA-Var突破传统工具对预定义条形码的依赖,通过数据驱动发现共变突变模式;其次,多样本整合策略将检测灵敏度提升至单个样本突变频率<15%的水平;最后,城乡对照研究为资源调配提供科学依据。局限性在于需要较高测序深度(>50x)和样本量(≥8份/变异株)以保证稳定性,但模拟显示在40%覆盖率条件下仍保持可靠。

这项研究开创性地将盲源分离技术应用于病原体监测,其框架可扩展至其他传染病预警系统。正如作者强调,废水基因组监测不仅能弥补临床检测缺口,更能通过突变模式预测揭示病毒进化轨迹。随着全球WBE网络的完善,ICA-Var或将成为新型公共卫生危机的"哨兵"技术。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号