《Scientific Data》:Chromosome-level genome assembly of the dwarf cattail Typha minima
编辑推荐:
本研究针对濒危湿地植物极小香蒲(Typha minima)缺乏高质量基因组资源的现状,通过整合PacBio HiFi长读长测序和Hi-C染色质构象捕获技术,成功构建了首个染色体级别的基因组组装(大小324.66 Mb,锚定至30条伪染色体),其连续性(contig N50=10.84 Mb)和完整性(BUSCO=99.2%)表现优异,注释获得34,541个蛋白编码基因。该基因组为揭示其濒危机制和香蒲属进化研究奠定了重要基础。
在湿地生态系统中,香蒲属(Typha)植物如同天然的净化器,不仅构筑了复杂的栖息地结构,还能通过根系吸附和分泌抗菌物质有效去除水中的病原微生物。其中,极小香蒲(Typha minima)作为一种生长纤弱的物种,分布于温带欧亚地区,但其生存现状堪忧,在瑞士被列为濒危物种,在其他欧洲国家也仅存于零星、孤立的小种群中。从进化角度看,它与Typha elephantina构成一个单系群,是所有其他香蒲物种的姐妹群。尽管已有三个香蒲物种(T. latifolia, T. angustifolia 和 T. domingensis)的基因组被公布,但获取濒危物种T. minima的高质量基因组对于深入进行香蒲属的系统基因组学研究、阐明其濒危的遗传机制以及制定有效的保护策略至关重要。
为了填补这一空白,来自武汉大学梁子湖淡水生态系统国家野外科学观测研究站/生命科学学院的杜俊帅、黄雷、徐欣伟研究员团队在《Scientific Data》上发表了题为“Chromosome-level genome assembly of the dwarf cattail Typha minima”的研究论文,报道了首个染色体级别的极小香蒲基因组组装。研究人员通过整合PacBio HiFi长读长测序和Hi-C染色质交互数据,成功构建了一个高质量基因组。该基因组大小为324.66 Mb,具有极高的连续性,其contig N50和scaffold N50分别达到10.84 Mb和10.90 Mb。高达99.65%的组装序列被成功锚定到30条伪染色体上。基因组完整性评估结果优异,BUSCO完整性评分达到99.2%,测序reads的回比率高达98.19%。研究人员对基因组内容进行了深入解析,发现重复序列占基因组的33.20%,其中长末端重复(LTR)反转录转座子最为丰富(12.48%),主要以Gypsy(5.13%)和Copia(1.15%)家族为主。基因注释共预测出34,541个蛋白质编码基因,其中96.42%(33,304个)获得了功能注释。此外,还注释了包括1,261个rRNA、230个miRNA和467个tRNA在内的非编码RNA。通过整合正交分析,研究人员在五个功能数据库中鉴定出10,055个具有一致支持的直系同源基因。这项研究提供的染色体级别高质量基因组资源,为探究极小香蒲的濒危遗传基础以及香蒲属的进化和系统发育关系奠定了坚实的基础。
为开展此项研究,作者团队运用了几个关键技术方法。样本采自中国新疆喀什(39°14'15.2"N, 76°09'41.4"E;海拔1,228米)。首先,利用PacBio HiFi长读长测序技术进行基因组测序,并通过Hifiasm进行从头组装和单倍型纯化。其次,利用Hi-C技术获取染色质空间交互数据,辅助完成染色体级别的支架构建。再次,结合来自根、茎、叶、果实组织的RNA-seq短读长数据和PacBio Iso-Seq全长转录组数据,采用综合流程进行重复序列注释、非编码RNA注释和蛋白质编码基因预测与功能注释。最后,通过k-mer分析(k=23)和BUSCO评估等多种方法对基因组组装质量进行严格验证。
方法部分涉及的关键技术概述
本研究的技术路线清晰。基因组测序与组装部分,首先对采自新疆喀什的极小香蒲新鲜叶片进行DNA提取,并利用Illumina NovaSeq 6000平台进行基因组调查,通过K-mer分析(k=23)估计基因组大小约为331.55 Mb,并提示其可能为异源四倍体。随后,利用PacBio HiFi技术进行高质量长读长测序,并通过Hifiasm进行从头组装,再经过purge_dups去除单倍型冗余,获得初步组装结果。Hi-C辅助基因组组装部分,通过构建Hi-C文库并测序,利用Hi-C数据将初步组装结果提升至染色体水平,通过3D-DNA和Juicebox进行支架构建和手动校正,最终获得包含30条伪染色体的高质量基因组。基因组注释部分则综合使用了转录组证据(来自根、茎、叶、果的RNA-seq和PacBio Iso-Seq)、同源比对和从头预测等方法,对重复序列、非编码RNA和蛋白质编码基因进行了全面注释,并进行了功能富集分析。
数据记录
本研究中产生的所有原始测序数据(包括基因组调查短读长、PacBio HiFi读长、Hi-C读长、RNA-seq短读长和Iso-Seq读长)均已存储于国家基因组科学数据中心(NGDC)的基因组序列档案(GSA)中。组装的全基因组序列已存入NGDC的基因组仓库(GWH),并在欧洲核苷酸档案(ENA)中备份,确保数据的公开可及性。
技术验证
研究人员对最终获得的染色体级别基因组组装(324.66 Mb)进行了多方面的严格验证。Hi-C支架将99.65%的组装序列锚定到30条染色体上,染色质交互热图显示出清晰的染色体区室化结构。组装完整性得到了BUSCO评分(99.2%)和K-mer分析(估计基因组大小为331.55 Mb,与最终组装大小仅偏差2.1%)的支持。短读长和PacBio HiFi读长的比对率均超过98%,RNA-seq比对率达到98.09%,证明了数据的高保真度。严格的污染筛查,包括组装前对NT数据库的BLASTN比对和组装后GC含量-深度分布分析(未显示异常簇),确认了无可检测的外源序列。基因注释获得了34,541个蛋白质编码基因,其中96.42%获得了功能注释,10,055个基因在所有数据库中均得到一致支持。
代码可用性
研究中使用的所有生物信息学工具和软件均严格按照官方用户手册操作,未使用自定义代码。软件版本和参数已在方法部分详细记录。
综上所述,该研究成功构建了极小香蒲(Typha minima)的首个染色体级别的高质量参考基因组。该基因组在连续性、完整性和准确性方面均表现出色。通过对基因组结构、重复序列和基因集的深入注释,为这一濒危物种的遗传学研究提供了宝贵的资源。这一基因组资源将极大地推动对极小香蒲濒危遗传机制的解析,并为香蒲属植物的比较基因组学、进化生物学以及湿地植物保护生物学研究奠定坚实的基础。研究成果以开放获取形式发布,便于全球研究者使用,体现了科学数据的共享价值。