染色体级别基因组破译:伞节马陆(Agaricogonopus acrotrifoliolatus)为螺带目巨型马陆进化研究提供关键资源
《Scientific Data》:Chromosome-level genome assembly of Agaricogonopus acrotrifoliolatus (Diplopoda: Spirostreptida)
【字体:
大
中
小
】
时间:2025年12月17日
来源:Scientific Data 6.9
编辑推荐:
本期推荐一项填补螺带目(Spirostreptida)基因组空白的重要工作。为解决该类群生态关键但基因组资源匮乏的问题,研究人员利用PacBio HiFi长读长、Illumina短读长与Hi-C技术,首次完成了中国最大马陆物种——伞节马陆(Agaricogonopus acrotrifoliolatus)染色体级别基因组组装。最终获得2.24 Gb的基因组,96.16%序列锚定至11条伪染色体,scaffold N50达360.24 Mb,BUSCO完整性为96.20%,并注释出12,492个蛋白编码基因和大量重复序列。该基因组为马陆比较基因组学、分解者生态功能与体型演化机制研究提供了高质量参考。
在土壤生态系统中,马陆(Diplopoda)作为重要的分解者,在有机质分解和养分循环中扮演着关键角色。其中,螺带目(Spirostreptida)马陆以其异常巨大的体型(常超过300毫米)而著称,能够有效破碎粗有机残体,促进早期分解和微生物定殖,生态功能显著。然而,尽管马陆类群多样性高(16目、>12,000种),基因组学研究却严重滞后。截至2025年7月,美国国家生物技术信息中心(NCBI)数据库中仅收录了36个马陆基因组组装,覆盖7个目,且仅有3个物种拥有染色体级别的基因组。螺带目作为马陆中体型最大、生态作用突出的类群,其基因组资源竟完全空白,这极大限制了对马陆宏观演化、体型决定机制及其生态功能遗传基础的理解。
为解决这一瓶颈问题,刘冲、王佳佳等研究人员在《Scientific Data》上发表了题为“Chromosome-level genome assembly of Agaricogonopus acrotrifoliolatus (Diplopoda: Spirostreptida)”的论文,报道了螺带目首个染色体级别基因组组装。他们以中国最大马陆物种——伞节马陆(Agaricogonopus acrotrifoliolatus)为研究对象,该物种产于云南西双版纳热带雨林,以其生殖肢上具一对显著的伞形突起和三叶状基板而形态独特,是进行基因组学研究的理想代表。
本研究采用多平台测序策略:利用PacBio Revio平台产生约85 Gb的HiFi长读长数据,Illumina HiSeq 2000平台产生约118 Gb短读长数据用于基因组调查,并利用Hi-C技术进行染色体挂载。此外,还采集了头部、步足、生殖肢和体肌等多种组织进行转录组测序(RNA-seq),为基因注释提供支持。基因组调查通过k-mer分析(k=21)估计基因组大小约为2.28 Gb。初步组装使用Hifiasm软件完成,获得2.33 Gb的初步组装结果。随后利用AutoHiC自动化流程整合Hi-C数据,将96.16%的组装序列成功锚定到11条伪染色体上,最终获得2.24 Gb的染色体级别基因组。
研究人员首先对测序数据进行了严格质控。基因组调查分析显示,伞节马陆基因组大小约2.28 Gb,杂合率约为0.22%,重复序列长度约1.46 Gb。使用Hifiasm对HiFi长读长进行初步组装,获得大小为2.33 Gb的contig级别基因组,contig N50为31.44 Mb。经过Hi-C辅助的染色体挂载后,最终基因组大小为2.24 Gb,scaffold N50高达360.24 Mb,11条染色体长度在53 Mb至394 Mb之间。使用BUSCO(Benchmarking Universal Single-Copy Orthologs)软件基于arthropoda_odb10数据集评估基因组完整性,初步组装和染色体级别组装的BUSCO完整性分别为96.30%和96.20%,表明组装高度完整。
研究人员利用RepeatModeler构建了伞节马陆特异性的从头重复序列库,并结合Dfam和RepBase数据库,使用RepeatMasker对基因组重复序列进行注释。结果显示,重复序列占基因组的76.27%,其中长散在核元件(LINE)占比最高,达34.10%,其次是未分类重复序列(25.40%)、DNA转座子(8.20%)、长末端重复序列(LTR,7.58%)、短散在核元件(SINE,0.37%)和其他重复序列(0.62%)。如此高比例的重复序列,尤其是LINE的丰度,是马陆基因组的显著特征。
蛋白编码基因的预测综合了转录组证据、同源预测和从头预测三种策略。利用BRAKER3软件整合来自Illumina RNA-seq和PacBio全长转录组的数据,以及五个代表性马陆物种的同源蛋白序列,最终预测出12,492个蛋白编码基因,平均基因长度为26,861 bp。基因集BUSCO评估显示完整性达95.8%。功能注释方面,分别有10,757(86.11%)、10,356(82.90%)、8,797(70.42%)、7,823(62.62%)和10,202(81.67%)个基因在eggNOG、KOG、GO(Gene Ontology)、KEGG(Kyoto Encyclopedia of Genes and Genomes)和Pfam数据库中获得注释。非编码RNA注释共预测出9,740个rRNA(核糖体RNA)、1,046个snRNA(核小RNA)、51个miRNA(微RNA)和16,342个tRNA(转运RNA)。
本研究成功构建了螺带目马陆首个染色体级别的高质量参考基因组,填补了该重要类群基因组资源的空白。组装表现出高度的连续性和完整性,为后续比较基因组学和进化生物学研究奠定了坚实基础。基因组中高比例的重复序列,特别是LINE元件的扩张,为了解马陆基因组结构和演化提供了新视角。精确注释的基因集和非编码RNA信息则为功能基因组学研究提供了宝贵资源。该基因组的发布将极大推动对马陆,尤其是大型土壤无脊椎动物在生态系统中的功能、体型演化的遗传机制以及特殊形态发育等重大科学问题的探索。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号