预测病毒宿主密码子适应性及跨宿主转移:基于密码子使用偏好和基因组特征的树模型学习

【字体: 时间:2025年04月11日 来源:Scientific Reports 3.8

编辑推荐:

  为解决病毒宿主范围难以定量测量、缺乏有效预测宿主转移方法等问题,研究人员开展了通过树模型机器学习预测病毒宿主密码子适应性(VCF)及跨宿主转移的研究。结果表明病毒基因组的相对同义密码子使用(RSCU)等可预测 VCF,还发现 SARS-CoV-2 宿主密码子适应性无明显向非人类转移趋势。该研究为病毒进化和监测提供新视角。

  在 2019 年末,COVID-19 疫情如一场突如其来的风暴,席卷全球,给人类社会带来了巨大的冲击,造成了数百万人死亡和难以估量的经济损失。随着测序技术的飞速发展,科学家们获得了大量的病毒基因组测序数据。然而,一个关键问题却一直困扰着科研人员:如何快速、准确地判断病毒是否能感染人类,以及其宿主范围有哪些?这对于疫情的早期防控和预警至关重要。
传统研究中,病毒宿主范围的定量测量十分匮乏,导致早期预防预测效果不佳。虽然病毒宿主范围受多种因素影响,如进入宿主的机制、免疫逃逸机制等,但密码子适应性(VCF)作为其中关键因素,却很少在定量层面进行研究。病毒基因的翻译高度依赖宿主的翻译机制,密码子适应性体现了病毒密码子使用偏好与宿主 tRNA 库的相关性,若二者不匹配,会致使病毒蛋白翻译效率低下,进而影响病毒的增殖。因此,研究病毒宿主密码子适应性意义重大。

深圳大学先进技术学院、中国科学院深圳先进技术研究院等机构的研究人员,针对上述问题展开了深入研究。他们运用树模型机器学习算法,以病毒基因组的相对同义密码子使用(RSCU)和其他基因组组成特性作为输入数据,构建模型来预测病毒宿主密码子适应性的概率。研究成果发表在《Scientific Reports》上,为病毒研究领域带来了新的曙光。

研究人员在开展研究时,主要运用了以下几种关键技术方法:首先,从 NCBI 的 “Viral genome browser” 获取病毒基因组参考序列及宿主范围标签,筛选出特定宿主范围的样本用于后续研究;接着,利用 Biopython 工具包下载编码序列,计算 RSCU 以衡量密码子使用偏好;随后,通过 Z-score 归一化、主成分分析(PCA)和均匀流形近似与投影(UMAP)算法对 RSCU 数据进行降维分析;最后,运用随机森林(RF)机器学习算法,并采用合成少数过采样技术(SMOTE)处理样本不平衡问题,通过 OPTUNA 框架进行超参数调优,构建预测模型 。

下面来详细看看研究结果:

  • 不同宿主密码子适应性的病毒密码子使用偏好差异:研究人员分析了 RSCU 组成,并通过 UMAP 降维算法进行可视化。结果显示,噬菌体与其他病毒的分布明显不同,排除噬菌体后,其他病毒的分布仍存在差异。对 RSCU 数据矩阵转置分析发现,病毒密码子的摆动位置(第三个核苷酸)具有关键作用,A/U 结尾和 G/C 结尾的密码子呈现不同聚类模式,且有两个特殊密码子 UUG 和 AGG 聚类异常。此外,通过独立 T 检验发现,在人类病毒中,A/U 结尾密码子的 RSCU 值普遍高于 G/C 结尾密码子,但也存在例外,如 AGG、GGG 和 CCC 等 G/C 结尾密码子的 RSCU 值较高,而 CGU、GGU 和 CGA 等 A/U 结尾密码子则不太受青睐。
  • 通过机器学习准确预测病毒宿主范围:研究人员运用基于树的机器学习算法,以 RSCU 数据集预测病毒感染特定宿主的可能性。通过 SMOTE 方法对数据进行重采样,使训练数据类别平衡。结果显示,不同训练测试分割比例下,模型预测准确率随训练数据量增加而提高,即使训练数据比例低至 0.05,准确率也优于随机猜测。加入分类学数据集和 CDS 长度数据集等额外特征后,模型性能进一步提升。通过留一法(LOO)验证,发现基于所有样本训练的通用 RF 模型预测未知病毒宿主密码子适应性可靠,其中训练的召回优化 RF 模型性能最佳。
  • SARS-CoV-2 在 COVID-19 疫情期间的宿主密码子适应性转移:研究人员将树分类模型得出的人类病毒密码子适应性评分(HVCF)作为 SARS-CoV-2 在人类宿主中 VCF 的指标。分析发现,人类和非人类来源的病毒基因组序列数据预测标签无明显差异,但非人类来源的病毒基因组序列预测的 HVCF 分数较低。对美国在疫情期间测序的 SARS-CoV-2 基因组 HVCF 分数计算和排序后发现,SARS-CoV-2 在疫情期间没有明显向非人类宿主转移的趋势,其对人类和脊椎动物的 VCF 一直较高,对其他宿主的感染概率较低。
  • 通过 HVCF 梯度模拟 SARS-CoV-2 从其他贝塔冠状病毒的突变过程:为探究 SARS-CoV-2 与非人类感染性贝塔冠状病毒的遗传联系,研究人员以 HVCF 作为梯度分数,模拟病毒间的密码子突变过程。结果发现,相对于其他贝塔冠状病毒参考基因组,Tylonycteris 蝙蝠冠状病毒 HKU4(NC_009019)在 “进化” 为 SARS-CoV-2 等效 VCF 方面效率最高。此外,还发现 Leu、Asp、Tyr、Ala 和 Gly 氨基酸的密码子使用在中间菌株中可能发生显著变化,且大部分突变是同义突变,尤其是摆动位置的 U 到 C 突变。

研究结论和讨论部分指出,不同宿主范围的病毒基因组存在明显的密码子使用偏好差异,密码子摆动位置对病毒宿主密码子适应性和宿主范围至关重要。机器学习可检测不同宿主范围病毒基因组密码子使用偏好的差异,密码子使用偏好对预测病毒宿主密码子适应性和感染概率具有重要意义。该研究提出的预测病毒宿主密码子适应性的新方法,为理解病毒宿主范围提供了新视角,可用于监测新兴病毒的潜在宿主范围。同时,模拟病毒突变过程的方法有助于确定病毒间的 VCF 关系,为病毒溯源研究提供指导。然而,该研究也存在一定局限性,如样本数量有限且不平衡,预测不同类型病毒的准确性可能受影响,未来可通过样本合成算法或生成式深度学习网络等方法加以改进。总之,这项研究成果为病毒研究领域开辟了新的方向,具有重要的理论和实践意义 。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号