CPMFD:一种用于相关mRNA序列中点突变分类及移码位点确定的算法

《Mutation Research - Fundamental and Molecular Mechanisms of Mutagenesis》:CPMFD: An algorithm for Classification of Point Mutations together with Frameshift Determination in related mRNA sequences

【字体: 时间:2025年11月16日 来源:Mutation Research - Fundamental and Molecular Mechanisms of Mutagenesis 1.5

编辑推荐:

  本文提出了一种新型算法CPMFD,通过构造质数组合的分数来检测mRNA序列中的突变类型和位置,区分点突变中的沉默和错义突变,识别插入、删除和移码突变,并成功应用于抗氯喹药 Resistence基因分析和阿尔茨海默病相关基因研究。

  在基因研究领域,突变是导致多种疾病遗传基础的重要因素。当前的突变识别技术往往难以全面检测复杂基因组中的所有突变,这在疾病的诊断、治疗和预防方面造成了障碍。因此,我们提出了一种新的算法,用于识别突变在参考mRNA序列中的位置和类型。该算法不仅能够识别插入和删除,还通过构建适当的素数组合,创新性地对点突变进行分类,特别是区分错义突变与沉默突变。此外,该方法还能识别序列中发生移码突变的区域。实验表明,该算法在样本数据集上表现出良好的效率。在对疟疾寄生虫 *Plasmodium falciparum* 的两个单倍型数据进行分析时,我们发现它们在发展氯喹耐药性方面具有不同的突变特征。尽管在猪尾猴和普通黑猩猩的 β-珠蛋白基因之间存在显著的相似性,该算法仍能精准识别两者之间的细微突变差异,从而区分这两个物种。在阿尔茨海默病相关的基因数据中,该方法也能够细致地识别出真正的变异。

突变可以被定义为核酸序列中的变化,通常分为多种类型。最常见的形式包括插入、删除和移码突变。其中,移码突变会改变阅读框架,通常是由插入或删除引起的后果。此外,点突变是一种单个碱基被替换的情况。同时,DNA序列中也存在倒位和重复等现象。为了检测突变,需要借助多种计算和实验技术,包括高通量下一代测序(NGS)和传统的Sanger测序等。在生物信息学中,基于机器学习的模型被广泛用于分析序列数据,并预测其中的突变。已有多种算法被应用于检测DNA序列中的突变。例如,BLAST(基本局部比对搜索工具)和多重序列比对(MSA)等工具被设计用于将序列与参考基因组进行比对,从而区分保守区域和突变区域。隐藏马尔可夫模型(HMM)也被用于检测进化中的突变。一些软件工具,如基因组分析工具包(GATK)和VarScan,被证明在变异发现、体细胞突变识别、检测拷贝数变异以及插入和删除识别方面非常有效。在突变检测之后,一些工具如SIFT和PolyPhen可以预测氨基酸替换的影响,而数据库如ClinVar和COSMIC则提供了与致病突变相关的临床信息。

本文中,我们开发了一种新的算法,主要用于在密码子层面区分突变的性质和位置。密码子由三个核苷酸组成,每个核苷酸可以是四种可能性之一,即腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(U)。因此,典型的密码子可能看起来像AGU、CCG等。虽然理论上存在64种不同的密码子,但生物上它们只能编码出20种不同的氨基酸。这意味着不同的密码子可能代表相同的氨基酸。例如,当密码子CGA发生突变,变为AGG时,密码子内部的两个点突变发生在位置1和3,即C变为A和A变为G。但从氨基酸层面来看,这种变化并不存在。事实上,CGA、AGG、CGC、CGG、CGU和AGA这六个密码子都代表同一种氨基酸——精氨酸。这种类型的突变被称为沉默突变。另一方面,如果一个典型的密码子AGG发生突变,变为AGC,那么在位置3发生了一个点突变(G变为C)。而AGC代表的是一种不同的氨基酸——丝氨酸。因此,这种点突变会导致氨基酸层面的变化:精氨酸变为丝氨酸。这种现象被称为错义突变。上述两种类型的突变在保持mRNA序列长度方面具有相似性。然而,还存在一些突变可能会改变序列的长度。例如,由于突变,某些位置可能形成一个或多个新的核苷酸,这种现象被称为插入。同样,如果某些位置的核苷酸消失,则被称为删除。有时,由于在某些位置发生单个或多个插入或删除,不仅包含这些新插入或删除核苷酸的密码子发生变化,而且后续的三个连续核苷酸被识别为一个密码子的过程也会随之改变。这种变化是由于插入或删除在序列中产生的整体偏移自然导致的。插入或删除的影响可能会延伸到其发生的位置,使得该位置的长度发生变化,或者序列中核苷酸的分布本身可能通过沉默突变来“修复”这种缺陷。这种由单个或多个插入或删除引起的密码子层面的连续阅读框架变化被称为移码突变。

为了检测突变的性质和位置,我们首先将前四个素数与四种核苷酸进行关联,并通过适当组合这些素数来构建理性的数值。这些理性的数值在我们的算法(以下简称CPMFD)中起着关键作用,用于确定可能的突变性质和位置。CPMFD将检测的突变范围包括插入、删除和移码突变,以及点突变。此外,CPMFD还预期能够区分错义突变与沉默突变。这种区分在密码子层面尤为重要,因为只有错义突变才会导致氨基酸的变化。进一步地,我们研究了由插入或删除引起的移码突变情况。

本文的结构如下:在第二部分,我们将解释如何在算法中整合不同类型突变的检测。在第三部分,我们将详细介绍该算法的两个部分。接下来的部分将通过样本数据集展示CPMFD的准确性。第五部分将应用CPMFD来识别某些 *Plasmodium falciparum* 基因变异中的突变,这些基因变异与抗疟疾药物耐药性有关。我们还分析了两种密切相关灵长类动物——猪尾猴和普通黑猩猩的基因数据,以检测其中的精确突变。此外,我们使用CPMFD对三个关键的阿尔茨海默病相关基因进行了详细研究,以揭示其中的突变特征。

在算法的实现中,我们首先将前四个素数分别与四种核苷酸进行对应。这四个素数分别是2、3、5和7。我们将每个核苷酸赋予一个特定的素数,从而形成一种映射关系。例如,A对应2,G对应3,C对应5,U对应7。通过这种方式,我们可以将密码子转换为一组由这些素数组成的数值。这些数值在后续的计算过程中将用于识别和分类突变。具体来说,当比较参考序列和突变序列时,我们可以计算它们的匹配得分,该得分是衡量两个序列相似性的指标。匹配得分的计算基于密码子之间是否能够编码相同的氨基酸。因此,当两个密码子编码相同的氨基酸时,它们的匹配得分将增加。通过这种方法,我们能够识别出参考序列和突变序列之间的相似性和差异性。

在构建算法的过程中,我们考虑了多种突变类型,包括插入、删除、点突变和移码突变。对于插入和删除,我们首先将参考序列和突变序列进行比对,以确定它们的匹配得分。然后,我们尝试通过调整比对方式来最大化匹配得分。例如,如果在某个位置发生插入,那么该位置的核苷酸将被添加到参考序列中,从而影响后续的密码子识别。同样,如果在某个位置发生删除,那么该位置的核苷酸将被移除,进而影响后续的密码子识别。在调整比对方式的过程中,我们需要确保不会影响到其他位置的核苷酸,以免造成不必要的误差。此外,我们还需要考虑如何处理由插入或删除引起的移码突变。例如,如果在某个位置发生插入,那么该位置的核苷酸将被添加到参考序列中,从而改变后续的密码子识别。这种变化可能会导致氨基酸的改变,进而影响到整个mRNA序列的功能。因此,我们需要对这些情况进行详细的分析,以确保算法的准确性。

在算法的第二部分,我们考虑了点突变的分类问题。由于点突变只涉及单个核苷酸的替换,因此我们需要通过比较参考序列和突变序列中的每个密码子来确定其是否发生变化。为了实现这一点,我们使用了由前四个素数组成的理性的数值。这些数值不仅能够帮助我们识别点突变,还能帮助我们区分错义突变和沉默突变。例如,如果两个密码子编码相同的氨基酸,那么它们的理性的数值将相同,从而表明该突变属于沉默突变。相反,如果两个密码子编码不同的氨基酸,那么它们的理性的数值将不同,从而表明该突变属于错义突变。这种区分方法在算法中起着关键作用,因为它能够帮助我们更准确地识别突变的性质和位置。

此外,我们还研究了移码突变的情况。移码突变通常是由插入或删除引起的,因此我们需要通过调整比对方式来识别这些情况。例如,如果在某个位置发生插入,那么该位置的核苷酸将被添加到参考序列中,从而改变后续的密码子识别。这种改变可能会导致氨基酸的改变,进而影响到整个mRNA序列的功能。因此,我们需要对这些情况进行详细的分析,以确保算法的准确性。

在算法的应用过程中,我们首先将参考序列和突变序列进行比对,以确定它们的匹配得分。然后,我们尝试通过调整比对方式来最大化匹配得分。例如,如果在某个位置发生插入,那么该位置的核苷酸将被添加到参考序列中,从而影响后续的密码子识别。同样,如果在某个位置发生删除,那么该位置的核苷酸将被移除,进而影响后续的密码子识别。在调整比对方式的过程中,我们需要确保不会影响到其他位置的核苷酸,以免造成不必要的误差。此外,我们还需要考虑如何处理由插入或删除引起的移码突变。例如,如果在某个位置发生插入,那么该位置的核苷酸将被添加到参考序列中,从而改变后续的密码子识别。这种改变可能会导致氨基酸的改变,进而影响到整个mRNA序列的功能。因此,我们需要对这些情况进行详细的分析,以确保算法的准确性。

在算法的测试过程中,我们使用了样本数据集来验证其准确性。通过将参考序列和突变序列进行比对,并计算它们的匹配得分,我们能够识别出各种类型的突变。例如,在样本数据集中,我们发现某些位置发生了插入或删除,导致密码子识别的变化。通过调整比对方式,我们能够最大化匹配得分,并准确识别出这些突变。此外,我们还发现某些位置发生了点突变,导致氨基酸的改变。通过比较参考序列和突变序列中的每个密码子,我们能够区分这些点突变是否属于错义突变或沉默突变。在这些分析过程中,我们还发现某些位置的插入或删除可能会导致移码突变,从而影响到整个mRNA序列的功能。

在应用该算法到 *Plasmodium falciparum* 基因数据时,我们发现两种单倍型(SVMNT和CVIET)在发展氯喹耐药性方面具有不同的突变特征。尽管这两种单倍型在某些方面表现出高度相似性,但通过算法的分析,我们能够识别出它们之间的细微差异。例如,某些位置的插入或删除可能会导致密码子识别的变化,进而影响到氨基酸的改变。通过比较参考序列和突变序列中的每个密码子,我们能够识别出这些突变,并区分它们是否属于错义突变或沉默突变。此外,我们还发现某些位置的插入或删除可能会导致移码突变,从而影响到整个mRNA序列的功能。

在分析猪尾猴和普通黑猩猩的 β-珠蛋白基因数据时,我们发现尽管这两种基因在整体上表现出高度相似性,但通过算法的分析,我们能够识别出它们之间的细微突变差异。例如,某些位置的插入或删除可能会导致密码子识别的变化,进而影响到氨基酸的改变。通过比较参考序列和突变序列中的每个密码子,我们能够识别出这些突变,并区分它们是否属于错义突变或沉默突变。此外,我们还发现某些位置的插入或删除可能会导致移码突变,从而影响到整个mRNA序列的功能。

在阿尔茨海默病相关基因数据的分析中,我们使用该算法来识别真正的变异。通过比较参考序列和突变序列中的每个密码子,我们能够识别出它们之间的相似性和差异性。例如,某些位置的插入或删除可能会导致密码子识别的变化,进而影响到氨基酸的改变。通过调整比对方式,我们能够最大化匹配得分,并准确识别出这些突变。此外,我们还发现某些位置的插入或删除可能会导致移码突变,从而影响到整个mRNA序列的功能。

通过这些分析,我们可以看到该算法在不同类型的突变识别中表现出良好的性能。它不仅能够识别插入、删除和移码突变,还能区分错义突变和沉默突变。这种区分方法在算法中起着关键作用,因为它能够帮助我们更准确地识别突变的性质和位置。此外,该算法在样本数据集上的应用表明其在实际操作中的可行性。通过调整比对方式,我们能够最大化匹配得分,并准确识别出各种类型的突变。

总的来说,本文提出了一种新的算法,用于识别mRNA序列中的突变。该算法通过将前四个素数与四种核苷酸进行对应,并构建理性的数值来实现这一目标。这些理性的数值在算法中起着关键作用,用于确定可能的突变性质和位置。通过调整比对方式,我们能够最大化匹配得分,并准确识别出各种类型的突变。此外,该算法还能够区分错义突变和沉默突变,这对于理解突变对基因功能的影响具有重要意义。在实际应用中,该算法表现出良好的性能,并能够处理不同类型的突变数据。因此,该算法在基因突变识别方面具有广阔的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号