CGR 与 2D MF-DFA 助力冠状病毒及 SARS-CoV-2 变异株精准分类:开启病毒研究新征程

【字体: 时间:2025年04月30日 来源:Scientific Reports 3.8

编辑推荐:

  为解决病毒快速进化带来的分类难题,研究人员开展基于混沌游戏表示(CGR)和二维多重分形去趋势波动分析(2D MF-DFA)的冠状病毒及 SARS-CoV-2 变异株分类研究。结果显示该方法分类物种准确率达 100%,变异株达 76%,为病毒研究提供新工具。

  在病毒的世界里,RNA 病毒就像一群不断变身的 “小怪兽”,给人类带来了诸多挑战。冠状病毒作为 RNA 病毒的一员,尤其是 SARS-CoV-2 及其相关物种,它们的高突变率使得新的变异株不断涌现。这些变异株可能会巧妙地避开人体免疫系统的 “追捕”,让现有的治疗方法和疫苗效果大打折扣。因此,准确且及时地对病毒物种进行分类就显得至关重要。它不仅能帮助我们深入了解病毒的致病机制,有效监测病毒的传播模式,还能为开发实用的诊断工具、设计针对性的治疗方案以及制定公共卫生政策提供关键依据。然而,传统的基于形态特征和基因序列分析的分类方法,在面对这些狡猾的病毒时,却常常显得力不从心。它们难以捕捉到病毒基因组中复杂的非线性动态变化,一些微小的基因变化也容易被忽视。于是,来自巴西多所大学(如里约格兰德联邦大学、里约格兰德州立大学等)的研究人员决心另辟蹊径,开展了一项极具意义的研究。
研究人员巧妙地将混沌游戏表示(CGR)和二维多重分形去趋势波动分析(2D MF-DFA)这两种技术结合起来,并借助支持向量机(SVM)算法,对冠状病毒物种和 SARS-CoV-2 变异株进行分类研究。他们从 NCBI 数据库中精心挑选了 6 种感染人类的冠状病毒(HCoV-HKU1、HCoV-OC43、HCoV-NL63、HCoV-229E、MERS-CoV 和 SARS-CoV-2)的 1373 个样本,以及从 GISAID 数据库和 Github 上获取的 SARS-CoV-2 的 5 种变异株(Alpha、Beta、Delta、Gamma 和 Omicron)的 2000 个样本。

在研究过程中,研究人员首先运用 CGR 技术,将复杂的病毒基因组序列转化为直观的二维图像。就像是给病毒的基因序列绘制了一幅独特的 “地图”,通过这幅 “地图”,可以清晰地看到不同病毒序列的特征。接着,他们对这些图像进行 2D MF-DFA 分析,从中提取出各种分形参数。这些分形参数就像是病毒的 “身份密码”,蕴含着病毒的重要信息。最后,研究人员将这些分形参数作为特征输入到 SVM 算法中,让算法学习如何区分不同的病毒样本。

经过一系列严谨的研究,研究人员取得了令人瞩目的成果。在冠状病毒物种分类方面,他们构建的模型展现出了超高的准确性,准确率高达 100%。这意味着,通过他们的方法,可以精准地识别出每一种冠状病毒。对于 SARS-CoV-2 变异株的分类,虽然变异株之间的基因相似度很高,给分类带来了很大的挑战,但该模型依然取得了 76% 的准确率。这表明,即使面对基因高度相似的变异株,他们的方法也能有效地捕捉到其中的细微差异,实现较为准确的分类。

这项研究成果意义非凡。它为病毒分类提供了一种高效且强大的新工具,在生物信息学、公共卫生和疫苗开发等多个领域都具有重要的应用价值。例如,在公共卫生领域,快速准确地识别病毒物种和变异株,能够帮助公共卫生部门及时采取有效的防控措施,阻止病毒的传播;在疫苗开发方面,准确的病毒分类可以为研发更具针对性的疫苗提供关键支持,提高疫苗的有效性。

在技术方法上,研究人员主要运用了以下几种关键技术:一是 CGR 技术,将病毒基因组序列转化为二维图像,直观展示序列特征;二是 2D MF-DFA 技术,对 CGR 图像进行分析,提取分形参数;三是 SVM 算法,利用提取的分形参数进行病毒样本的分类。样本则来源于 NCBI 数据库和 GISAID 数据库等。

下面具体来看研究结果:

  • 混沌游戏表示(CGR):研究人员为所有 1373 个样本构建了 CGR 图像,发现不同冠状病毒物种的 CGR 图像存在相似性,但也有差异。像 SARS-CoV-2 和 MERS-CoV 的图像呈现出更清晰、更规则的几何图案,暗示它们的基因组中存在保守区域。同时,所有物种的 CGR 图像都存在空区域,这与病毒序列中 CG 二核苷酸的低频率有关,可能是由于胞嘧啶的高突变性导致的。
  • 2D MF-DFA:对 CGR 图像进行 2D MF-DFA 分析后发现,所有图像都具有多重分形性质。通过计算不同的分形参数,如h(q)ΔhαmaxαminΔfΔα等,研究人员发现不同物种之间的分形参数差异较大,而 SARS-CoV-2 变异株之间的分形参数相对较为接近。这表明不同冠状病毒物种在基因组结构上存在较大差异,而同一物种的变异株之间则具有较高的相似性。
  • 参数空间:研究人员通过定义种内变异性σin和种间变异性σbet,并计算它们的比值I0,来评估分形参数在区分物种和变异株中的有效性。结果发现,冠状病毒物种在由分形参数构成的状态空间中分布较为分散,很容易通过直线进行区分;而 SARS-CoV-2 变异株的样本在状态空间中分布更为集中,相互之间的区分难度较大。
  • SVM:研究人员使用 SVM 算法对冠状病毒物种和 SARS-CoV-2 变异株进行分类。对于冠状病毒物种,使用不同的分形参数组合作为特征,模型的准确率高达 100% 或超过 97%。对于 SARS-CoV-2 变异株,使用具有最高I0值的 4 个参数作为特征,模型的平均准确率约为 76%。通过混淆矩阵计算出的 Precision、Recall 和 F1-score 等指标,进一步评估了模型对不同变异株的分类性能。

研究结论和讨论部分再次强调了该研究的重要意义。研究人员利用 CGR 和 2D MF-DFA 技术,结合 SVM 算法,成功构建了一个能够有效区分冠状病毒物种和 SARS-CoV-2 变异株的模型。虽然在对 SARS-CoV-2 变异株的分类中,由于变异株之间较高的基因相似性导致准确率受到一定影响,但依然取得了令人满意的结果。这一研究成果为多方面的研究提供了有力支持,同时也为后续研究指明了方向,如进一步扩大变异株数据库、使用更强大的机器学习算法等。然而,该研究也存在一定的局限性,例如对基因组数据质量的依赖,以及分形参数与物种特异性基因组特征之间的生物学解释尚未完全明确等。但总体而言,这项研究为生物信息学中多重分形分析技术的发展做出了重要贡献,为未来利用 CGR 图像和机器学习算法进行生物分类研究开辟了新的道路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号