基于PacBio HiFi与Hi-C技术的云斑尖塘鳢染色体级别基因组组装及注释
《Scientific Data》:Chromosome-level genome assembly of the marble goby (Oxyeleotris marmorata)
【字体:
大
中
小
】
时间:2025年10月01日
来源:Scientific Data 6.9
编辑推荐:
本研究针对云斑尖塘鳢(Oxyeleotris marmorata)缺乏高质量参考基因组的现状,利用PacBio HiFi长读长测序和Hi-C技术,成功构建了首个染色体级别的基因组图谱。该组装基因组大小为1,068.42 Mb,contig N50达13.72 Mb,并成功锚定至23条染色体。研究共预测出22,964个蛋白编码基因,其中99.25%获得功能注释。该高质量基因组为解析其生长、性别决定等重要性状提供了关键资源,对分子育种和进化研究具有重要意义。
在东南亚和华南地区的水产养殖版图上,云斑尖塘鳢(Oxyeleotris marmorata)无疑是一颗璀璨的明星。这种俗称“泰国笋壳鱼”的底栖鱼类,凭借其肉质鲜嫩、营养丰富、生长速度快等优点,在市场上备受青睐,价格不菲。然而,在这片繁荣的养殖景象背后,却隐藏着一个制约其产业发展的“卡脖子”难题——缺乏高质量的参考基因组。
长期以来,科学家们对云斑尖塘鳢的研究多集中于种群遗传学、营养饲料和繁殖技术等领域。虽然通过线粒体DNA和微卫星标记等手段,初步揭示了其遗传背景,但对于决定其经济价值的关键性状,如快速生长和性别二态性(雄性个体比雌性大56.3%),其背后的分子机制却始终笼罩在迷雾之中。例如,尽管已发现vasa、dmrt1和foxl2等基因与性腺发育相关,但它们在性别决定中的具体作用尚不明确。更令人困惑的是,细胞遗传学分析并未发现该物种存在异形性染色体,这为解析其性别决定机制增添了难度。因此,构建一个高质量的染色体级别参考基因组,就如同为这座“基因迷宫”绘制一张精确的地图,是开启分子育种和功能基因组学研究大门的金钥匙。
为了填补这一空白,来自中山大学海洋科学学院的研究团队在《Scientific Data》期刊上发表了题为“Chromosome-level genome assembly of the marble goby (Oxyeleotris marmorata)”的研究论文。该研究综合利用PacBio HiFi长读长测序、Illumina短读长测序和Hi-C技术,成功构建了云斑尖塘鳢的首个染色体级别高质量参考基因组,为深入解析其重要性状的遗传基础提供了宝贵的资源。
本研究采用多组学整合策略。首先,从中国珠海采集的雌性云斑尖塘鳢肌肉组织中提取DNA,利用Illumina NovaSeq 6000平台进行短读长测序,用于基因组调查和评估。其次,利用PacBio Sequel II系统进行HiFi长读长测序,用于高质量基因组组装。同时,利用Hi-C技术进行染色体构象捕获,用于染色体挂载。此外,从脾脏、肾脏、脑、肌肉、卵巢、肝脏、肠道、心脏、鳃和鳔等10个组织中提取RNA进行转录组测序,用于基因注释。最后,利用BUSCO评估基因组完整性,并通过序列比对验证组装准确性。
研究人员首先利用Illumina短读长数据进行了17-mer分析,初步估计云斑尖塘鳢的基因组大小约为847.18 Mb,杂合率为0.213%,重复序列含量为49.8%。随后,利用PacBio HiFi长读长数据,通过Hifiasm软件进行从头组装,获得了包含640个contig的初步组装结果,总长度为1,068.42 Mb,contig N50达到13.72 Mb。这一结果显示了HiFi长读长测序在组装大片段上的优势。
为了将contig提升至染色体水平,研究团队利用Hi-C数据,通过Juicer和3D-DNA软件进行染色体挂载,并结合Juicerbox进行人工校正。最终,成功将95.51%的基因组序列锚定到23条染色体上,获得了包含332个scaffold的染色体级别基因组。该组装的scaffold N50高达45.09 Mb,最长scaffold达到64.39 Mb,显示出极高的连续性和完整性。
对基因组中的重复序列进行系统注释发现,云斑尖塘鳢基因组中重复序列含量高达51.80%。其中,转座元件(TE)是重复序列的主要组成部分,占基因组的41.44%。在各类转座元件中,DNA转座子最为丰富,占22.30%,其次是长散在核元件(LINE, 10.29%)、长末端重复序列(LTR, 5.58%)和短散在核元件(SINE, 1.83%)。此外,串联重复序列和简单重复序列(SSR)分别占1.18%和0.74%。这些重复序列的分布特征为理解该物种的基因组进化提供了重要线索。
研究采用整合策略,结合转录组证据、同源比对和从头预测三种方法,共预测出22,964个高可信度的蛋白编码基因。这些基因的平均长度为18,806 bp,平均包含9.97个外显子。功能注释结果显示,99.25%的预测基因在至少一个数据库中获得了功能注释,其中在SwissProt、KEGG、KOG、GO和NR数据库中的注释比例分别为93.77%、64.96%、67.78%、67.94%和98.52%。这为后续的功能基因组学研究奠定了坚实基础。
为了评估基因组组装的质量,研究人员利用BUSCO软件,以“actinopterygii_odb10”数据库为参考,对基因组完整性进行了评估。结果显示,该基因组组装的整体完整性高达98.19%,其中97.14%的基因是完整且单拷贝的,仅有1.10%的基因缺失。此外,PacBio、Illumina和RNA-seq测序数据对最终组装基因组的比对率分别达到99.85%、99.13%和95.38%。这些综合指标充分证明了该基因组组装的高质量、高准确性和高完整性。
本研究成功构建了云斑尖塘鳢的首个染色体级别高质量参考基因组。该基因组组装连续性好、完整性高,为后续的分子育种、比较基因组学和进化生物学研究提供了宝贵的资源。这一成果不仅解决了该物种长期以来缺乏高质量参考基因组的难题,更为深入解析其快速生长、性别决定、抗病性等重要性状的分子机制打开了大门。未来,基于该基因组,研究人员可以更精确地定位与性别相关的分子标记,筛选与生长相关的候选基因,从而加速云斑尖塘鳢的良种选育进程,推动其养殖产业的可持续发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号