基于PacBio长读长测序的秘鲁帕索马线粒体基因组组装与系统发育分析

《Scientific Reports》:Mitochondrial genome assembly of the Peruvian Paso horse through PacBio long-read sequencing

【字体: 时间:2025年12月22日 来源:Scientific Reports 3.9

编辑推荐:

  为解决秘鲁帕索马马(PPH)缺乏高质量参考基因组的问题,研究人员利用PacBio HiFi长读长测序技术,首次完成了该品种线粒体基因组的从头组装。研究揭示了其16,617 bp的完整环状结构,鉴定出35个异质性变异位点,并发现其母系血统与南欧和中欧品种密切相关。该成果为马属动物系统发育、品种保护及进化研究提供了重要的遗传学资源。

  
秘鲁帕索马(Peruvian Paso Horse, PPH)是一种原产于秘鲁的独特马种,以其标志性的“帕索·亚诺”(paso llano)步态而闻名,被公认为秘鲁文化遗产的一部分。自16世纪西班牙殖民者将马匹引入美洲以来,南美地区的克里奥尔马(Creole horses)经过400多年的自然选择和人工选育,已高度适应了当地环境。然而,尽管秘鲁帕索马在繁殖生理和性状遗传力方面已有初步研究,但其遗传背景,特别是母系遗传的线粒体基因组(mitogenome)信息仍十分有限。
在动物中,线粒体基因组是约14-20 kb的环状DNA分子,因其比核DNA更高的突变率以及包含保守区和可变区的特点,被广泛用于推断不同分类水平的系统发育关系。然而,线粒体基因组中存在复杂的区域,特别是控制区(Control Region, CR)内的重复序列和片段重复,传统上一直是测序和组装的难点。以往的研究多依赖于桑格测序或第二代测序技术(如Illumina),这些方法因读长较短,难以跨越重复区域,导致组装不完整或准确性受限。第三代测序(Third-Generation Sequencing, TGS)技术,如PacBio和Oxford Nanopore,能够产生超过10-20 kbp的长读长,理论上可以一次性覆盖整个线粒体基因组,为解析复杂区域提供了前所未有的机会。
为了填补这一空白,并利用先进技术解决线粒体基因组组装中的难题,Carla L. Salda?a等研究人员在《Scientific Reports》上发表了题为“Mitochondrial genome assembly of the Peruvian Paso Horse through PacBio long-read sequencing”的研究论文。该研究首次利用PacBio HiFi长读长测序技术,成功组装了秘鲁帕索马的完整线粒体基因组,并对其结构特征、异质性、重复序列以及系统发育地位进行了深入分析,为理解该品种的母系血统和进化历史提供了宝贵的遗传学证据。
关键方法
研究人员从一匹名为“Amunet”的秘鲁帕索马母马(注册号YN-19315)采集血液样本,提取高分子量DNA。利用PacBio Revio系统进行全基因组HiFi测序,共获得约239.2 Gb数据。使用MitoHiFi v3.2.3软件从全基因组数据中提取并组装线粒体基因组,并进行环化和注释。通过MitoRSaw软件检测异质性(heteroplasmy)位点,利用Tandem Repeats Finder和MISA软件分析串联重复序列。最后,将组装得到的线粒体基因组与NCBI数据库中681个马属线粒体基因组进行比对,构建最大似然(Maximum Likelihood)系统发育树,以确定秘鲁帕索马的进化地位。
研究结果
1. 基因组组织
研究成功组装了一个高质量的环状线粒体基因组,总长度为16,617 bp,平均测序深度约为310.3倍。该基因组包含13个蛋白质编码基因(Protein-Coding Genes, PCGs)、22个tRNA基因、2个rRNA基因和1个控制区(D-loop)。重链(Heavy strand, H)编码了12个PCGs和14个tRNA,而轻链(Light strand, L)编码了ND6和8个tRNA。基因组碱基组成为:A(24.44%)、T(25.13%)、C(25.62%)、G(24.81%),表现出典型的AT偏好性。
2. 蛋白质编码基因与密码子使用偏好
在13个PCGs中,10个以ATG为起始密码子,ND2和ND3以ATA起始。终止密码子方面,ND1、ND2、ATP8和ND3使用TAG,COX1、COX2、ATP6、ND4L、ND5和ND6使用TAA,CYTB使用AGA,而ND4和COX3则分别使用不完整的TA(A)和T(AA)终止密码子。密码子使用偏好(Codon Usage Bias, CUB)分析显示,CUA(Leu)、AUC(Ile)和AUA(Ile)是使用频率最高的密码子,表明线粒体蛋白合成过程中存在翻译优化。
3. rRNA、tRNA与非编码区
两个rRNA基因(12S和16S)总长2,556 bp,位于tRNAPhe和tRNALeu2之间。共鉴定出22个tRNA基因,除tRNASer外,其余均呈现典型的三叶草二级结构。非编码区包括复制起点和D-loop控制区,其中D-loop长度为1,152 bp。
4. 异质性、重复序列与比较基因组分析
研究共检测到35个异质性位点,其中85.7%位于12S rRNA基因,11.4%位于tRNAPhe基因,控制区仅有1个变异,而蛋白质编码基因中未发现异质性。串联重复分析在控制区鉴定出一个192 bp的主要重复序列,以及两个短串联重复(Short Tandem Repeats, STRs)基序:CATAA(三拷贝)和TCT(四拷贝)。与14个代表性马品种的比较基因组分析显示,秘鲁帕索马线粒体基因组结构高度保守,主要变异集中在控制区(~16,000-16,600 bp)以及~1,500 bp和~10,000 bp附近。
5. 系统发育分析
基于681个线粒体基因组构建的最大似然系统发育树将秘鲁帕索马归入单倍群B。系统发育分析显示,秘鲁帕索马与南欧和中欧品种亲缘关系最近,主要与Maremmano(意大利)、Westphalian(德国)、Holsteiner(德国)、Shagya-Arab(匈牙利)以及来自德国和塞尔维亚的个体聚为一支。该分支内还包括来自亚洲和大洋洲的纯血马(Thoroughbred)个体,表明其母系血统中可能混有亚洲谱系。
结论与讨论
本研究首次利用PacBio HiFi长读长测序技术,成功组装了秘鲁帕索马的完整线粒体基因组,其16,617 bp的环状结构和基因组成与已报道的马属线粒体基因组高度一致。密码子使用偏好分析揭示了CUA(Leu)、AUC(Ile)和AUA(Ile)等密码子的高频使用,反映了线粒体蛋白合成过程中的翻译优化。异质性分析发现,变异主要富集在rRNA和tRNA基因中,而蛋白质编码基因未受影响,这支持了功能区域受到纯化选择(purifying selection)作用的假说。控制区内的串联重复序列,包括一个192 bp的串联重复和两个短串联重复基序(CATAA和TCT),与线粒体DNA复制调控密切相关。
系统发育分析是本研究的关键发现。秘鲁帕索马被明确地归入单倍群B,并与南欧和中欧品种(如Maremmano、Westphalian、Holsteiner等)聚为一支。这一结果支持了秘鲁帕索马起源于欧洲马种的假说,但其母系血统并非直接来源于传统上认为的安达卢西亚马(Andalusian),而是与地中海和中欧地区的品种有更紧密的联系。此外,该分支内包含亚洲谱系的个体,暗示了历史上复杂的基因交流事件。
综上所述,本研究不仅为秘鲁帕索马这一重要文化遗产品种提供了首个高质量的线粒体基因组参考序列,还通过高分辨率的系统发育分析,揭示了其复杂的母系血统,为理解南美克里奥尔马的起源和进化提供了新的视角。该成果为马属动物的遗传资源保护、系统发育研究和育种改良奠定了坚实的遗传学基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号