深海笠螺(Bathyacmaea lactea)染色体水平基因组组装:为冷泉生态系统适应性进化研究提供高质量资源
《Scientific Data》:An improved chromosome-level genome assembly of a deep-sea limpet (Bathyacmaea lactea)
【字体:
大
中
小
】
时间:2025年11月27日
来源:Scientific Data 6.9
编辑推荐:
本研究针对深海冷泉特有物种Bathyacmaea lactea缺乏高质量染色体水平基因组资源的问题,通过整合PacBio长读长、Illumina短读长和高分辨率染色体构象捕获(Hi-C)技术,成功构建了首个深海笠螺染色体水平基因组组装。该组装大小为769.80 Mb,contig N50和scaffold N50分别达到1.27 Mb和82.05 Mb,成功锚定至10条染色体,BUSCO完整性评估达96.90%,并注释出21,122个蛋白质编码基因。这一高质量基因组为深入研究冷泉动物适应性进化机制提供了关键数据基础,对揭示深海极端环境生物适应规律具有重要意义。
在浩瀚的海洋深处,隐藏着一个与我们熟悉的阳光世界截然不同的神秘领域——深海。这里终年黑暗,承受着数百倍于大气压的强大水压,氧气稀薄,温度接近冰点,食物资源极其有限。长期以来,深海被视为生命的荒漠。然而,随着深海探测技术的进步,科学家们惊奇地发现,这片极端环境中竟然孕育着丰富而独特的生物群落。其中,冷泉生态系统尤为引人注目,它们依靠化学合成而非光合作用维持生命活动,成为深海中的"生命绿洲"。
在这些奇特的生态系统中,深海笠螺Bathyacmaea lactea是一种 endemic(特有)且生态地位重要的物种。作为笠螺类(Patellogastropoda)——这一被认为是最原始腹足类谱系之一的成员,笠螺在进化生物学研究中具有特殊的模型价值。它们能够在这种化学合成驱动的极端环境中繁衍生息,必然演化出了一系列独特的适应机制。然而,要深入解析这些适应机制背后的遗传基础,高质量基因组资源是不可或缺的研究基础。
虽然此前已有研究报道了B. lactea的contig水平基因组组装,但缺乏染色体水平的基因组信息限制了科学家们进行更深入的分析,如基于同线性的系统基因组学研究、适应性结构变异检测以及染色质拓扑结构 mapping等。这些高层次基因组特征对于全面理解物种如何适应极端环境至关重要。正是为了填补这一研究空白,来自中国海洋大学和中国科学院海洋研究所的研究团队在《Scientific Data》上发表了题为"An improved chromosome-level genome assembly of a deep-sea limpet (Bathyacmaea lactea)"的研究论文,报道了这一深海笠螺的高质量染色体水平基因组组装。
研究人员采用了多技术平台整合的策略来构建这一高质量基因组。首先,他们利用Illumina HiSeq X Ten平台产生了36.95 Gb的短读长测序数据,用于基因组调查和后续的组装校正。接着,PacBio长读长测序技术提供了105.13 Gb的数据,平均读长达到9.00 kb,为基因组组装提供了关键的长范围信息。最为重要的是,研究团队应用了高分辨率染色体构象捕获(Hi-C)技术,通过Dovetail Omni-C Kit构建文库,并在Illumina NovaSeq 6000平台上进行测序,为将基因组锚定到染色体水平提供了必要的数据支持。
研究团队使用Canu version 2.2软件对PacBio长读长数据进行初步组装,基因组大小参数设置为792.9 Mb。随后,利用Pilon v1.23软件和Illumina短读长数据对组装进行校正,去除可能的单核苷酸多态性(SNPs)和小片段插入缺失(indels)。为了消除重复序列带来的组装问题,研究人员还应用了Purge_dups v1.2.5软件,根据读深分布直方图自动估计cutoff参数进行处理。
在Hi-C数据处理方面,研究团队首先使用Juicer v1.6软件处理Hi-C测序数据,然后应用3D-DNA v201008进行支架构建。通过Juicebox v1.11.08可视化染色体组装结果,研究人员能够根据相互作用热图选择最佳结果并精确界定染色体边界。经过这一系列精细的处理,最终成功将95.22%的组装序列锚定到10条染色体上,这一结果与先前浅水笠螺的核型研究结果一致,证明了组装的可靠性。相互作用热图清晰展示了10条染色体的结构特征,为基因组质量提供了直观的验证。
转座元件(TEs)是基因组的重要组成部分,对基因组结构和功能演化具有重要影响。研究人员使用RepeatModeler2 v2.0.1构建了de novo(从头)重复序列库,同时结合LTR_FINDER v1.07和LTR_retriever v2.9.0专门识别长末端重复(LTR)序列。通过RepeatMasker v4.13软件,整合RepBase数据库、LTR库和物种特异性de novo库,全面注释了B. lactea基因组中的重复序列。
分析结果显示,B. lactea基因组中重复序列占总基因组的43.68%,这一比例与之前报道的contig水平基因组(61.4%)相比有所降低,可能反映了更准确组装带来的改进。其中,反转录元件(retroelement)占25.68%,DNA转座子(DNA transposon)占16.74%。具体而言,SINE(短散在核元件)占3.73%,LINE(长散在核元件)占12.54%,LTR元件占9.41%。这些详细的重复序列注释为后续研究基因组演化提供了重要基础数据。
蛋白质编码基因的预测采用了三种互补的方法:ab initio(从头预测)、homology-based(基于同源性)预测和transcript-based(基于转录本)预测。ab initio预测使用Braker2 v2.1.6软件完成;homology-based预测则利用了8个物种的蛋白质序列,包括智人(Homo sapiens)、海葵(Nematostella vectensis)、果蝇(Drosophila melanogaster)、虾夷扇贝(P. yessoensis)、皱纹盘鲍(Haliotis discus)、绿叶海天牛(Elysia chlorotica)、福寿螺(P. canaliculata)和加州海兔(Lottia gigantea);transcript-based注释通过将RNA-seq数据比对到基因组,使用PASA v2.5.2进行基因集预测。三种方法的结果通过EvidenceModeler v1.1.1整合,最终获得非冗余的基因集。
功能注释方面,研究人员使用了六个公共数据库:KEGG(京都基因与基因组百科全书)、GO(基因本体论)、NCBI-NR(非冗余蛋白质数据库)、Swiss-Prot、SMART和InterProScan。通过BLASTP v2.2.23进行比对,设置e-value cutoff为1e-5。令人印象深刻的是,96.50%的预测基因(20,387个)至少被一个数据库成功注释,其中KEGG注释比例为74.70%,GO为50.70%,NR高达96.30%,Swiss-Prot为72.50%,Pfam为62.60%。这一高注释率反映了基因组注释的完整性和可靠性。
非编码RNA的注释同样全面,使用tRNAscan-SE和基于Infernal的Rfam数据库进行。结果显示,B. lactea基因组中含有472个miRNA(微RNA)、3,600个tRNA(转运RNA)以及丰富的rRNA(核糖体RNA)和sRNA(小RNA)。这些非编码RNA的准确注释为研究基因表达调控提供了重要资源。
基因组质量的验证是确保数据可靠性的关键环节。基于19-mer频率分布分析,B. lactea的基因组大小估计为792.90 Mb,与最终组装大小769.80 Mb高度一致,表明组装具有较好的完整性。BUSCO评估使用"metazoan_odb10"数据库,结果显示基因组组装的完整性达到96.9%(其中单拷贝基因95.5%,重复基因1.4%),碎片化率为1.5%,缺失率为1.6%。基因注释的BUSCO评估显示完整性为87.6%(单拷贝86.7%,重复0.9%),碎片化4.7%,缺失7.7%。
此外,研究人员还将用于基因组调查的Illumina短读长数据比对到组装好的基因组,使用Bowtie2 v2.4.5软件,获得了98.20%的比对率。这一高比对率进一步证实了基因组组装的准确性和完整性。
与之前报道的contig水平基因组相比,本研究取得的进步十分显著。虽然contig N50略低于之前报道(1,265 kb vs 1,568 kb),但通过Hi-C技术成功将基因组提升至染色体水平,scaffold N50达到82.05 Mb,这是一个质的飞跃。基因预测数量为21,122个,略少于之前的23,574个,可能反映了更严格注释标准带来的精简,而BUSCO完整性从94.3%提升至96.9%,则明确显示了本组装质量的提升。
这项研究的成功完成,标志着深海生物学研究迈入了新的阶段。Bathyacmaea lactea作为第一个拥有染色体水平基因组的深海笠螺,为科学家们提供了前所未有的研究工具。这一高质量基因组资源不仅有助于解析深海笠螺适应冷泉极端环境的遗传机制,更为比较基因组学研究提供了宝贵数据。通过分析基因组结构特征、基因家族扩张与收缩、正选择信号等,研究人员能够更深入地理解深海生物适应极端环境的演化历程。
更重要的是,这一基因组资源为后续的功能基因组学研究奠定了基础。科学家们可以利用这一参考基因组进行转录组、表观基因组等多组学整合分析,全面揭示深海生物适应性的分子网络调控机制。随着更多深海物种基因组数据的积累,我们有望构建深海生物适应性演化的全景图,最终回答那个困扰科学家多年的问题:生命是如何征服深海这一极端环境的?
这项研究的价值不仅限于基础科学研究,对深海生物资源保护与可持续利用也具有重要指导意义。随着人类对深海资源开发的不断深入,理解深海生态系统的运行机制和生物多样性维持机制变得愈发紧迫。高质量基因组资源为我们评估人类活动对深海生态系统的影响、制定科学保护策略提供了分子水平的依据。
总之,这项研究通过提供Bathyacmaea lactea的高质量染色体水平基因组组装,为深海生物学研究开启了新的篇章。它不仅填补了深海软体动物基因组资源的空白,更为解析生命在极端环境中的适应机制提供了关键数据支持。随着研究的深入,这一基因组资源必将催生更多重要发现,推动我们对深海生命奥秘的理解不断向前迈进。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号