
-
生物通官微
陪你抓住生命科技
跳动的脉搏
龙须菜基因组的染色体水平组装与基因注释
【字体: 大 中 小 】 时间:2025年02月13日 来源:Scientific Data 5.8
编辑推荐:
中国科学院海洋研究所(Key Lab of Breeding Biotechnology & Sustainable Aquaculture, Shandong Province Key Lab of Experimental Marine Biology, Institute of Oceanology, Chinese Academy of Sciences)的研究人员 Zhiyin Zhou、Yu Ma、Jie Zhang 等,在《Scientific Data》期刊上发表了题为 “Chromosome-level assembly and gene annotation of Kappaphycus striatus genome” 的论文。该研究构建了高质量的龙须菜染色体水平参考基因组,为龙须菜后续的育苗、育种工作,以及真核生物功能基因组学解释和进化研究提供了宝贵的数据参考,在海洋生物研究领域具有重要意义。
中国科学院海洋研究所(Key Lab of Breeding Biotechnology & Sustainable Aquaculture, Shandong Province Key Lab of Experimental Marine Biology, Institute of Oceanology, Chinese Academy of Sciences)的研究人员 Zhiyin Zhou、Yu Ma、Jie Zhang 等,在《Scientific Data》期刊上发表了题为 “Chromosome-level assembly and gene annotation of Kappaphycus striatus genome” 的论文。该研究构建了高质量的龙须菜染色体水平参考基因组,为龙须菜后续的育苗、育种工作,以及真核生物功能基因组学解释和进化研究提供了宝贵的数据参考,在海洋生物研究领域具有重要意义。
江蓠科(Solieriaceae)的麒麟菜属(Kappaphycus)和琼枝属(Eucheuma)等红藻是重要的经济海藻,广泛分布于热带和亚热带地区,是全球卡拉胶的主要生产原料,在食品和化妆品行业应用广泛。在东南亚国家,这些红藻的商业养殖和加工为沿海社区提供了重要的生计来源,其年养殖产量在海藻养殖中位居前列。同时,红藻也是研究真核生物系统发育,尤其是内共生进化、形态多样性和生态功能的理想材料。
龙须菜(Kappaphycus striatus)作为提取 κ - 卡拉胶的主要来源,在形态上具有独特特征,其分支密集、呈厚圆柱状,尖端钝且分叉,直径不超过 5 毫米,存在直立不规则分支和匍匐密集丛生两种形态。然而,由于缺乏染色体水平的基因组研究记录,对江蓠科红藻的分子分析尚不明确。此前虽有基于 PacBio 和 HiSeq 测序数据组装的长心卡帕藻(K. alvarezii)基因组草图,但该草图并不完整,且缺乏全面的基因组注释。因此,解析龙须菜高质量参考基因组对了解其基因组结构及后续遗传和进化研究至关重要。
研究人员从印度尼西亚西努沙登加拉省东龙目岛 Seriwe 村 Seriwe 湾的海藻养殖场采集龙须菜样本。采用十六烷基三甲基溴化铵(CTAB)法提取基因组 DNA,经 0.5% 琼脂糖凝胶电泳和 Qubit 4.0 荧光计检测,提取的 DNA 浓度为 97.2 ng/μL ;使用多糖多酚植物总 RNA 提取试剂盒(DP441,天根)提取 RNA,经 Nanodrop 和 Qubit 4.0 荧光计检测,RNA 浓度为 149.6 ng/μL 。
分别构建 Illumina、PacBio、Hi-C 和 RNA - seq 文库并进行测序。Illumina 文库插入片段大小为 350 bp,在 Illumina NovaSeq 6000 平台测序,获得 48.45 Gb 的 clean data,覆盖度约为 239×;PacBio 文库插入片段大小为 15Kb,在 PacBio Revio 平台测序,产生 18.48 Gb 的 clean data,覆盖度约为 91×,N50 读长为 18.27 Kb ;Hi-C 文库构建时,DNA 经甲醛固定、限制性内切酶(DpnII)消化、生物素标记、末端修复和环化后,在 Illumina NovaSeq 6000 平台测序,得到 99.50 Gb 的 clean reads,覆盖度达 470×;RNA - seq 文库按 Illumina 标准协议构建并测序,获得 7.58 Gb 的 clean reads 用于后续基因预测和注释。
在基因组组装前,利用 k - mer 分析估计基因组大小和杂合度。使用 Illumina NovaSeq X plus 平台的短读长数据,经 fastp 进行质量过滤,Jellyfish 软件统计 21 - mers,Genomescope 软件分析基因组特征,估计龙须菜基因组大小约为 202.87 Mb,重复率为 40.08%,杂合度为 0.48%。随后,利用 18.48 Gb 的 HiFi 长读长数据,通过 Hifiasm 软件进行基因组的从头组装。组装后,将基因组与 NCBI NT 数据库、线粒体和质体数据库比对,过滤掉污染和细胞器序列,得到最终组装基因组。利用 Hi - C 数据进行锚定重叠群筛选,通过 BWA 将 Hi - C 文库的 clean reads 对映射到抛光后的基因组,经筛选和聚类,结合手动调整,将 199.42 Mb 的基因组序列锚定到 33 条假定染色体上。
采用从头预测和基于同源性的方法筛选龙须菜基因组中的重复序列。从头预测使用 Repeat Modeler、RECON、Repeat Scout 等软件,结合 Dfam 数据库分类重复序列家族,预测长末端重复序列(LTRs)并整合结果。利用 Repeat Masker 软件结合构建的重复序列数据库预测转座元件(TEs),同时使用 MicroSatellite identification tool(MISA v2.1)和 Tandem Repeat Finder(TRF v4.09)预测串联重复序列。对于非编码 RNA(ncRNA)预测,tRNA 通过 RNAscan - SE 算法识别,rRNA 使用 barrnap 检测,miRNA、snoRNA 和 snRNA 基于 Rfam 数据库,通过 Infernal 软件预测。
综合从头预测、同源搜索和转录组辅助方法注释蛋白质编码序列。从头预测使用 Augustus 和 SNAP 软件;同源性预测收集拟南芥、皱波角叉菜等物种的蛋白质序列,通过 GeMoMa 与龙须菜基因组比对;转录组分析将 RNA - seq 数据经 Hisat 映射到参考基因组,由 Stringtie 组装,GeneMarkS - T 基于转录数据预测基因,PASA 基于 PacBio(ONT)测序的单基因和全长转录本预测基因,最后通过 EVM 软件整合不同方法预测的基因模型,并经 PASA 更新。根据与多个蛋白质数据库比对结果推断基因功能,利用 InterProScan 注释蛋白质结构域,获取基因的 GO ID。使用 GenBlastA 扫描全基因组预测假基因,经 GeneWise 分析终止密码子和移码突变。
基因组测序结果显示,Illumina、PacBio、Hi - C 和 RNA - seq 测序分别产生了相应数量的 clean data,各平台在插入片段大小、平均读长、N50 读长和覆盖度等指标上表现不同(见表 1)。基因组组装方面,PacBio 组装和 Hi - C 组装的总长度分别为 211,461,192 bp 和 211,462,692 bp ,Hi - C 组装后的 scaffold N50 长度为 5,386,916 bp ,最终将 199.42 Mb 的基因组序列锚定到 33 条染色体上,占基因组的 94.31%,染色体大小范围为 3.38 Mb 至 17.95 Mb(见表 2、表 3)。
研究共鉴定出 100.96 Mb 的重复序列,占组装基因组的 47.73%。其中,LTRs 是最丰富的重复元件,占基因组的 32.08%,长度为 67.86 Mb ;LINEs 占 7.76%(16.42 Mb);DNA 转座子占 5.71%(12.07 Mb)(见表 4)。在非编码 RNA 预测中,共鉴定出 1080 个 tRNA 和 593 个 rRNA,未检测到 miRNA、snRNA 和 snoRNA(见表 5)。
通过多种方法整合预测出 15,341 个蛋白质编码基因,平均基因长度为 1,804.72 bp ,平均编码长度为 1,476.69 bp ,平均每个基因有 1.43 个编码外显子。在功能注释方面,约 96.14%(14,596 个)的预测蛋白质编码基因被注释到已知基因,注释数据库涵盖 GO、KEGG、KOG 等多个数据库(见表 6)。此外,预测出 151 个假基因。
利用 BUSCO 评估基因组完整性,结果显示在 255 个单拷贝直系同源基因中,约 78.43% 在龙须菜基因组中被鉴定到。将 Illumina 短读长和 HiFi 读长分别与组装基因组比对,比对率分别为 97.00% 和 97.64%。PacBio 测序读长的深度覆盖呈泊松分布,分析 10 kb 窗口内的读长深度和 GC 含量,结果表明组装基因组无污染,是高质量的基因组组装(见表 7)。
本研究成功构建了龙须菜高质量染色体水平的参考基因组,明确了其基因组大小、基因数量、重复序列和非编码 RNA 等特征。研究结果为龙须菜的遗传育种提供了关键的基因组资源,有助于深入了解其生长发育、代谢调控等分子机制,进而指导龙须菜的良种选育,提高其产量和品质,促进海藻养殖产业的可持续发展。
在真核生物进化研究方面,龙须菜基因组数据为探讨真核生物的起源和演化提供了重要线索。通过与其他真核生物基因组的比较分析,可以深入研究基因家族的进化、基因调控网络的演变等,为揭示真核生物的进化历程提供理论依据。
然而,本研究也存在一定的局限性。虽然获得了高质量的基因组组装和注释,但对于一些复杂的基因调控机制和功能尚未完全解析。未来的研究可以进一步结合转录组学、蛋白质组学和代谢组学等多组学技术,深入探究龙须菜基因的功能和调控网络,为其在生物技术和生物产业中的应用提供更全面的理论支持。
综上所述,该研究成果不仅在龙须菜的研究领域具有重要的理论和实践意义,也为海洋生物基因组学研究提供了有价值的参考,推动了相关领域的发展。