《Genes》:Construction of Phylogenetic Relationships Based on 8-mer Spectra Distribution Characteristics of Vertebrate Whole Genome Sequences
编辑推荐:
本研究提出了一种基于全基因组8-mer谱分布特征构建系统发育关系的新方法。通过分析16个XYi子集的8-mer谱,作者定义了186个“纲级”系统发育特征(包括93个分离度特征和93个保守度特征),用于捕获宏观进化模式;同时,利用CGi子集的长尾分布,通过排序65,536个8-mer的频率生成了“目级”系统发育特征,用于捕获微观进化模式。验证结果表明,该方法能够有效构建脊椎动物的系统发育关系,为全基因组水平的进化研究提供了新思路。
基于全基因组8-mer谱分布特征构建脊椎动物系统发育关系
1. 引言
随着测序技术的飞速发展,全基因组序列已成为解读物种进化的重要资源。然而,如何从海量数据中高效提取系统发育信息仍是一个巨大挑战。传统的多序列比对方法计算强度大,且在分析远缘物种时表现不佳。相比之下,k-mer分析为高效捕获基因组组成和进化特征提供了新的方向。
k-mer分析已广泛应用于基因组学研究中,从功能元件注释到物种进化模式识别。在系统发育研究中,基于k-mer频率的无比对算法(Alignment-free algorithms)逐渐成为构建全基因组系统发育关系的基础技术。其中,特征频率谱(Feature Frequency Profile, FFP)方法是最著名的方法之一。研究表明,基因组序列的k-mer谱分布是反映物种特异性基因组组成和进化特征的独特“签名”。随着物种从原始向复杂进化,其基因组k-mer谱分布呈现出从单峰向多峰转变的趋势,这进一步证明了k-mer谱分布与基因组序列进化的密切相关性。
本研究旨在系统性地研究脊椎动物全基因组序列8-mer谱的分布特征,以揭示其中蕴含的进化信息。基于此,我们开发了一种创新的计算方法,通过捕获进化特征进行序列比较,为全基因组水平的系统发育关系构建提供新方法。
2. 材料与方法
2.1. 脊椎动物基因组数据
研究从UCSC和NCBI数据库获取了118个物种的基因组序列及相应的注释数据,涵盖了哺乳动物、鸟类、鳞龙类、两栖类和辐鳍鱼类等主要脊椎动物类群。
2.2. 基因组序列的8-mer谱分布
对于一个给定的DNA序列,以8 bp为窗口,1 bp为步长滑动计算所有8-mer的出现频率。相对模体数(Relative Motif Number, RMN)定义为:RMN = Ni/ 48,其中Ni是频率为i的8-mer数量。以8-mer频率i为x轴,RMN为y轴构建的分布即为8-mer谱分布。
2.3. 随机中心
随机中心(Random Center)定义为所有8-mer的平均频率,即N? = ∑i=148Ni/ 48。
2.4. XY二核苷酸分类方法
为了分析8-mer出现频率与组成特征之间的关系,我们将所有8-mer划分为不同的子集。提出了XY二核苷酸分类方法:不包含XY二核苷酸的8-mer记为XY0,包含一个XY二核苷酸的记为XY1,包含两个或更多XY二核苷酸的记为XY2。总共获得了48个XYi(X, Y ∈ {A, T, C, G}; i = 0, 1, 2)8-mer子集的谱。
2.5. 分离度与保守度特征
为了研究基因组序列中CGi/XYi_CGj 8-mer谱的位置差异和保守程度,并比较不同基因组间的特征,我们定义了分离度(Separability)和保守度(Conservatism)值。
- •
分离度:δi= log2(x? / x?i),其中x?是随机中心,x?i是第i个8-mer子集的平均频率。该参数量化了第i个子集谱与随机中心之间的分离程度。若δi> 1,表明该子集谱分布在低频端,偏离随机中心;若δi= 1,则表明其分布与随机中心相似。
- •
保守度:βi= log2(SD / SDi),其中SD是总8-mer谱的标准差,SDi是第i个子集谱的标准差。βi代表了第i个子集谱相对于总8-mer谱的保守程度。
2.6. 构建系统发育关系
- •
使用纲级特征构建系统发育树:我们使用CGi/XYi_CGj子集谱的分离度和保守度作为特征参数来构建系统发育树。两个物种基因组之间的进化距离Dnm定义为:Dnm= ∑k=193√[(δnk- δmk)2+ (βnk- βmk)2]。根据距离矩阵,使用Mega12软件的邻接法构建系统发育树。
- •
使用目级特征构建系统发育树:两个物种基因组之间的进化距离Wnm定义为:Wnm= ∑k=165,536√[(Rnk- Rmk)2],其中Rnk和Rmk分别代表第n个和第m个物种基因组中第k个8-mer的排序值。根据距离矩阵,使用Mega12软件的邻接法构建系统发育树。
3. 结果
3.1. 非CG类子集的谱分布
在真核生物基因组中,选择k=8的原因包括:当k≥8时,k-mer谱分布趋于稳定并出现三峰分布特征;真核生物转录因子结合位点的长度通常约为8 bp;以及为了确保统计显著性。
对16个XY二核苷酸分类的分析发现,只有CG分类表现出三个特性:进化独立性、进化分离性和进化保守性。我们称这些独特的谱分布特征为基因组序列中的CG-独立选择现象(CG-independent selection phenomenon)。该现象表明,三个CGi子集的8-mer谱分布特征与物种进化密切相关。
为了全面代表基因组的进化信息,我们进一步分析了脊椎动物基因组序列中其他15个XYi子集的8-mer谱分布特征,并将其统称为非CG类子集。分析发现,随着脊椎动物基因组的进化越来越复杂,非CG类子集的8-mer谱分布呈现出与总8-mer谱相同的从单峰向多峰转变的过程。我们推测,非CG类子集中8-mer谱的多峰分布特征必然包含更多关于基因组组成和进化的信息。
3.2. 纲级系统发育特征
为了系统地表征非CG类子集的组成特征,我们对其进行了进一步分类。每个XYi子集(i = 0, 1)根据MN二核苷酸(M, N = A, T, C, G)含量进一步分为三个子集:XYi_MN0(不含MN二核苷酸)、XYi_MN1(含一个MN二核苷酸)和XYi_MN2(含两个或更多MN二核苷酸)。
分析发现,在哺乳动物基因组序列中,XYi_CG0、XYi_CG1和XYi_CG2的8-mer谱形成了独立的单峰分布,且三个峰的分布是分离的。XYi_CG1和XYi_CG2子集的最可能频率处于低频,远低于随机中心;而XYi_CG0子集的最可能频率在随机中心附近。此外,XYi_CG1和XYi_CG2子集的谱比XYi_CG0子集的谱窄得多,这表明XYi_CG1和XYi_CG2 8-mer的使用是保守的。这些结果表明,XYi_CG0、XYi_CG1和XYi_CG2子集中8-mer谱的分布特征一致地表现出CG-独立选择现象的三个特性。
通过分析CGi/CGi_NMj子集中的8-mer分布,我们获得了一组186个纲级系统发育特征,包括93个分离度特征和93个保守度特征。
3.3. 目级系统发育特征
根据CG-独立选择现象,基因组序列的总8-mer谱可以分为三个子集:CG2、CG1和CG0。研究表明,这三个CGi子集的8-mer谱分布不服从正态分布,而是遵循对数正态分布,并表现出长尾分布特征。在分析大规模基因组序列时,高频8-mer(如‘TTTTTTTT’和‘AAAAAAAA’)往往集中在分布的长尾区域。
为了解决高频8-mer可能对进化特征贡献产生偏差的问题,我们将频率转换为排序信息。具体步骤是:将频率最高的8-mer赋值为1,次高的赋值为2,依此类推,频率最低的8-mer赋值为65,536。这样,我们获得了65,536个目级系统发育特征。我们认为排序信息可以更准确地捕捉基因组之间细微的距离差异。
3.4. 基于纲级特征的系统发育关系
基于基因组序列中CGi和XYi_CGj子集的8-mer谱分布特征,我们识别了CG-独立选择现象,并从中提取了与分离度和保守度相关的特征。为了验证这些特征与物种进化的密切关系,我们提取了一组包含186个特征的综合集(93个δi和93个βi)。根据距离矩阵构建的系统发育关系显示,物种被清晰地划分为五个纲:哺乳动物、鸟类、鳞龙类、两栖类和辐鳍鱼类。聚类模式表现出很强的系统发育一致性,进化上相关的物种始终聚集在同一簇中。这表明,脊椎动物基因组序列中CGi和XYi_CGj子集的8-mer谱分布特征能够有效捕获全基因组序列中包含的进化信息,并且这186个纲级系统发育特征能够清晰地区分脊椎动物的纲级分类。
3.5. 基于目级特征的系统发育关系
- •
哺乳动物基因组序列的系统发育关系:为了验证所选目级系统发育特征的可靠性,我们使用所有65,536个8-mer的排序信息作为特征构建了系统发育关系。结果显示,基于65,536个8-mer排序信息构建的系统发育关系与已知的系统发育数据库高度一致。我们的系统发育分析清晰地划分了四个主要的哺乳动物目:灵长目、啮齿目、偶蹄目和食肉目。在灵长类谱系中,识别出了三个科级分支。类人猿和旧大陆猴形成了一个姐妹支系,与新大陆猴的分支明显不同。与经典的FFP方法相比,我们的方法在构建哺乳动物进化关系方面表现出更高的准确性和稳定性。
- •
其他脊椎动物基因组序列的系统发育树:为了评估我们方法的普适性,我们将其扩展到其他脊椎动物物种的基因组序列。基于65,536个8-mer的排序信息推断的系统发育关系显示,我们的方法能够清晰地划分鸟类、两栖类和辐鳍鱼类的主要目级分类单元。这些结果证实,基于65,536个8-mer的基因组目级系统发育特征能够实现目级的精确物种分类。此外,分析揭示了“分离的基因组吸引子”的进化结构,表明主要的脊椎动物谱系被组织成离散的基因组簇,而不是在系统发育空间中形成连续体,这为分离的基因组吸引子模型提供了有力的视觉支持。
4. 讨论
先前的研究揭示了在16个XY二核苷酸分类中,只有CG分类中的三个CGi(i = 0, 1, 2)子集满足CG-独立选择现象的所有三个特性。在此基础上,我们进一步分析了非CG类子集中8-mer谱的分布特征。随着进化过程中基因组复杂性的增加,这些分布一致地从单峰转变为多峰,这表明非CG类8-mer谱包含更多的基因组进化特征。因此,对于非CG类8-mer中的每个XYi(i = 0, 1)子集,我们进一步将其划分为XYi_MNj子集,其中只有XY1_CGi/XY0_CGi(i = 0, 1, 2)子集表现出CG-独立选择现象。
我们进一步将CG-独立选择现象的分析从XY二核苷酸扩展到XYZ三核苷酸k-mer谱。分析发现,64个XYZi子集中9-mer谱的分布模式未能表现出独立的单峰分布,而是保持了与总9-mer分布一致的模式。特别是,CGXi/XCGi(X = A, T, C, G)子集的谱未能表现出独立的单峰分布,从而否定了进化独立性的特性。我们的结果表明,CG-独立选择现象仅在XY二核苷酸分类模体子集中观察到,而在XYZ三核苷酸分类模体子集中未观察到。
目前基于k-mer的系统发育学研究面临两个方法学限制:一是需要过滤掉高或低频k-mer,导致信息丢失;二是仅使用k-mer频率作为进化特征是不充分的。为了克服这些挑战,本研究引入了一种新颖的基于排序的转换方法。通过将k-mer频率转换为基于排序的特征,我们生成了一个序数特征谱。这种方法避免了过滤带来的信息丢失,同时通过排序机制固有地平衡了每个k-mer的贡献。
全基因组序列为揭示新的进化见解提供了丰富的分子数据来源。然而,我们目前缺乏能够捕获全基因组进化异质性的数学模型。我们的研究表明,8-mer谱全面捕获了全基因组进化信息。通过比较8-mer谱分布特征,我们建立了一种在全基因组水平构建系统发育关系的强大新方法。
本研究主要关注脊椎动物,发现与分离度和保守度相关的186个特征能够有效构建纲级的系统发育关系,而利用65,536个排序特征则进一步提高了分辨率,实现了目级的精细区分。未来的工作将把这种方法扩展到无脊椎动物,以系统地检验该特征集在跨支系间的稳健性和普适性。
5. 结论
基于8-mer谱的分布特征,我们开发了一种新的双特征策略,用于从基因组序列推断系统发育关系。首先,我们分析了16个XYi子集的谱分布特征,并识别了与物种进化密切相关的CG-独立选择现象。基于这一发现,我们定义了186个纲级系统发育特征,包括93个分离度特征和93个保守度特征。其次,利用CGi子集8-mer谱的长尾分布,我们推导出了65,536个目级系统发育特征。为了评估所提出的特征,我们在涵盖哺乳动物、鸟类、鳞龙类、两栖类和鱼类的多个基因组数据集上进行了测试。结果表明,纲级和目级特征在基因组序列比较中都是有效的鉴别器。进一步的系统发育分析表明,基于纲级特征构建的树解析了纲级关系,而基于目级特征构建的树则达到了目级的分辨率。本研究为在基因组水平构建进化关系提供了一种新方法。