首次构建高原鳅属鱼类端粒到端粒无缝基因组,解锁高原适应遗传密码

【字体: 时间:2025年04月11日 来源:Scientific Data 5.8

编辑推荐:

  为探究高原鱼类适应极端环境的遗传机制,华中农业大学等机构研究人员对姚培志高原鳅(Triplophysa yaopeizhii)开展研究。利用 PacBio HiFi、Ultra-long ONT 和 Hi-C 测序技术,构建出首个端粒到端粒(T2T)无缝基因组,为揭示高原鱼类适应性遗传机制提供重要参考。

  在世界屋脊青藏高原,平均海拔超 4000 米的地方,独特的地理环境孕育出许多适应极端环境的生物,高原鳅属鱼类便是其中的典型代表。高原鳅属是青藏高原三大主要鱼类类群之一,它们多为中小型鱼类,广泛分布在青藏高原及其周边水域。这些鱼类拥有独特的生物学特征,如圆柱状的身体和发达的尾柄,有助于在湍急的高原水流中高效游动;它们还拥有扩大的口腔和特殊的消化系统,以适应高海拔食物稀缺的生态系统,并且采用特殊的繁殖策略来确保种群在寒冷的高原环境中延续。
然而,目前关于高原鳅属鱼类的研究还相对较少,尤其是在遗传层面。已发表的高原鱼类基因组存在许多缺口和不完整区域,特别是在端粒和着丝粒等富含重复序列的区域。端粒(Telomeres)反映了生物体的健康和寿命,在基因组稳定性和 DNA 损伤修复中起着至关重要的作用,其长度的变化可能与遗传特征和环境压力有关;着丝粒(Centromeres)则是细胞分裂时与纺锤体相连的染色体区域,确保遗传物质在子细胞间的公平分配。对于像姚培志高原鳅(Triplophysa yaopeizhii)这样的高原鱼类,这些区域的遗传信息可能在其适应高原独特环境的进化过程中发挥重要作用。

为了深入探究高原鳅属鱼类适应高原环境的遗传机制,填补相关基因组研究的空白,华中农业大学、华电金沙江上游水电开发有限公司叶巴滩分公司、西南大学等机构的研究人员展开了一项重要研究。他们成功构建了姚培志高原鳅的首个端粒到端粒(T2T)无缝基因组,这一成果发表在《Scientific Data》上,为后续研究提供了关键的遗传资源和重要参考。

研究人员运用了多种先进的关键技术方法:首先,从四川省西昌市安宁河采集姚培志高原鳅样本,提取高质量基因组 DNA(gDNA)。然后利用 PacBio HiFi 测序技术,通过制备 SMRTbell 目标文库并在 PacBio Sequel II 平台上进行测序;采用 Ultra-long ONT 测序技术,对大 gDNA 片段进行富集、修复和建库后在 PromethI ON P48 sequencer 上测序;同时构建 Hi-C 文库,在 Illumina NovaSeq 6000 平台进行高通量配对末端测序。最后,将这些数据整合,利用多种软件进行基因组组装、注释等分析 。

基因组组装与特征分析


研究人员通过整合 PacBio HiFi reads、Ultra-long ONT 数据和 Hi-C 数据,使用 NextDenovo 和 Hifiasm 等软件进行基因组组装。经过一系列复杂的处理和分析,最终获得了高质量的 T2T 基因组。该基因组大小为 671.58 Mb,contig N50 长度达到 26.04 Mb,GC 含量为 39.11%,并且所有序列都被准确地锚定到 25 条染色体上,包含完整的着丝粒和端粒。这一成果表明基因组具有高度的完整性和连续性。

端粒和着丝粒的识别


研究人员利用 Ultra-long ONT 数据,通过特定的映射和分析方法,准确识别出所有 25 条染色体两端的端粒序列。同时,运用 TRASH 和 StringDecomposer 软件,成功确定了着丝粒的位置和序列特征。这些结果进一步证明了基因组组装的准确性,也为后续研究端粒和着丝粒在高原适应中的作用奠定了基础。

重复序列注释


研究人员采用同源预测和从头预测相结合的方法,对基因组中的重复序列进行注释。结果显示,重复序列大小为 293.98 Mb,占基因组的 43.77%。其中,SINEs 占基因组大小的 0.54%,LINEs 占 7.02%,LTRs 占 10.40%,DNA 元件占 20.90%。这些重复序列在基因组的进化和功能中可能扮演着重要角色。

蛋白质编码基因的预测与功能注释


研究人员综合运用从头预测、同源预测和转录组预测等多种方法,对姚培志高原鳅基因组中的蛋白质编码基因进行预测。最终成功预测出 26,487 个蛋白质编码基因,平均基因长度为 12,653.76 bp,平均编码序列长度为 1,512.01 bp,平均外显子数为 8.82 个。通过与多个数据库进行比对,对这些基因进行功能注释,发现 96.98% 的基因至少在一个数据库中得到注释,这为深入了解基因功能提供了丰富的信息。

非编码 RNA 的注释


研究人员利用特定软件和参考序列,对基因组中的非编码 RNA 进行注释。共注释出 406 个 miRNA、23,001 个 tRNA、124 个 rRNA 和 1,480 个 snRNA。这些非编码 RNA 在基因表达调控等生物学过程中具有重要作用,进一步丰富了对基因组功能的认识。

技术验证


研究人员使用多种方法对姚培志高原鳅基因组的准确性和完整性进行验证。Hi-C 热图显示染色体间高度一致,表明测序、排序和定向准确;着丝粒和端粒的准确识别证明了染色体的完整性;Illumina 测序数据、ONT reads 和 HiFi reads 的高比对率以及与相关物种基因数据的一致性分析,都表明基因组的准确性较高。此外,通过计算得到的高质量值(QV)和 BUSCO 评估结果,进一步证明了基因组的完整性和准确性。

综上所述,该研究成功构建了姚培志高原鳅的首个 T2T 无缝基因组,全面分析了其基因组特征,包括端粒、着丝粒、重复序列、蛋白质编码基因和非编码 RNA 等。这些研究结果为深入探究高原鳅属鱼类适应高原环境的遗传机制提供了重要的数据支持和理论依据,有助于进一步理解高原生物的进化历程和适应策略,也为鱼类遗传育种和生物多样性保护等领域提供了有价值的参考。未来,研究人员可以基于这一高质量基因组,开展更深入的功能基因组学研究,探索高原鳅属鱼类适应高原环境的具体分子机制,为保护高原生物多样性和开发利用高原鱼类资源提供更有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号