编辑推荐:
在 COVID-19 疫情期间,废水采样对监测传染病动态意义重大。如今疫情趋缓,并非所有采样点都需持续运行。研究人员开展评估可停止采样位点的研究,利用机器学习预测突变频率,发现瑞士 5 个地点中有 2 个可停止采样,为合理分配监测资源提供依据。
新冠疫情期间,废水采样成为监测传染病动态的有力武器,它能比临床样本更早检测到新冠疫情的浪潮,还能发现令人担忧的病毒变种。可随着疫情逐渐平息,当初为获取尽可能多信息而设立的众多采样点,如今并非都有继续运行的必要。毕竟持续采样需要投入大量的人力、物力和财力资源,如何在保证对疫情动态有足够了解的前提下,合理削减采样点,成为了亟待解决的问题。在这样的背景下,来自国外的研究人员开展了一项极具意义的研究,相关成果发表在《Epidemics》上。
研究人员的目标是找到一种方法,能精准评估哪些废水处理厂的采样可以停止,同时将信息损失降到最低。为了实现这一目标,研究人员采用了多种关键技术方法。首先,他们利用来自 NCBI BioProject PRJEB44932 的数据,这些数据来自瑞士旅游热门地区 6 个地点 2021 年 2 月 1 日至 11 月 30 日的废水短读序列。由于部分数据采样频率较低,研究人员对数据进行了聚合处理,将其整合到每周水平。在数据处理过程中,运用 minimap2 v2.28 将短读序列与武汉 - 1 参考序列(NC_045512)进行比对,识别出相对于参考序列的突变,并记录突变的观察次数(counts)和覆盖深度,进而计算出突变频率。之后,研究人员运用多种机器学习方法,包括基于线性和非线性建模的方法,如 LASSO(Least Absolute Shrinkage and Selection Operator,最小绝对收缩和选择算子)、岭回归(Ridge regression)、随机森林(Random Forests)和 XGBoost 等,以其他地点的历史数据(包括滞后项)作为预测变量,来预测目标地点的突变频率。
下面来看具体的研究结果:
- 数据处理与特征分析:研究人员对原始数据进行了一系列处理,经过筛选,确定了 1061 个独特的氨基酸突变用于后续分析。通过绘制图表展示突变频率随时间的变化以及突变的覆盖情况,发现突变频率具有高变异性且缺乏平滑的时间趋势,同时展示了从 Alpha 到 Delta 变异株的转变过程。
- 交叉相关性分析:通过交叉相关性分析,研究人员计算了不同地点之间的交叉相关函数(CCF)。结果显示,所有地点之间的相关性都较高,其中苏黎世和库尔的相关性最高,且所有地点对在滞后 0 时相关性最高,随着滞后时间向正负方向增加,相关性呈线性下降。
- 建模结果分析:在建模过程中,研究人员比较了不同机器学习方法的性能。结果表明,除了 “Average” 和 “XGBoost” 模型外,对于大多数目标地点和模型,使用 2 - 4 个预测变量时,均方根误差(RMSE)没有显著差异,这意味着使用一个预测地点通常足以预测目标地点。随机森林等基于树的方法在预测准确性上往往优于线性方法,说明突变频率之间可能存在非线性关系。此外,研究人员还分析了每个地点作为预测变量的重要性,发现苏黎世、阿尔滕莱茵和库尔是最常出现在最佳预测变量集合中的地点,而卢加诺和劳彭则很少被用作预测变量。最后,通过对删除两个地点的情况进行分析,发现删除阿尔滕莱茵和库尔后,剩余地点之间的预测误差最高,这表明这两个地点最容易从剩余地点的信息中被预测,且剩余地点之间相互预测的能力最差。
在研究结论和讨论部分,研究人员指出,他们的研究展示了一种选择可停止采样地点的方法,该方法基于使用多个地点(包括其滞后项)作为预测变量,运用机器学习方法最大化样本外预测误差,从而确定哪些采样点在预测准确性方面提供的益处最少。然而,该研究也存在一些局限性。例如,在数据处理过程中存在数据丢失的问题,由于并非所有地点每天都进行采样,难以找到记录所有突变的相互作用日期。此外,在随机森林模型中采用的保守调优参数可能会影响整体预测性能。同时,该方法仅确定了 “基于预测的冗余”,没有考虑数据质量问题,如高变异性或低覆盖度。而且,该方法没有衡量与关注变种相关的任何内容,可能会忽略某些地点作为特定变种领先指标的重要性。尽管存在这些局限性,该研究为在减少采样工作的同时最小化对疫情了解的影响提供了一种有效的方法,为疫情监测资源的合理优化配置提供了重要参考,在未来的疫情监测和防控工作中具有重要的指导意义,也为后续相关研究指明了方向,比如可以探索信号处理技术在该领域的应用等。