中国特有沙地蟋蟀吉莫裂跗蟋(Schizodactylus jimo)染色体水平基因组图谱的破译及其适应性进化意义
《Scientific Data》:Chromosome-level genome assembly of Schizodactylus jimo He, 2021 from China (Ensifera: Schizodactylidae)
【字体:
大
中
小
】
时间:2025年12月11日
来源:Scientific Data 6.9
编辑推荐:
本研究针对沙地适应性昆虫裂跗蟋科(Schizodactylidae)基因组数据匮乏的问题,报道了中国特有物种吉莫裂跗蟋(Schizodactylus jimo)的首个染色体水平基因组组装与注释。研究人员结合PacBio HiFi长读长测序与Hi-C scaffolding技术,构建了大小为1.192 Gb、Scaffold N50达198.77 Mb的高质量基因组,其中94.65%的序列锚定至9条假染色体。注释揭示其40.51%为重复序列,并预测出14,215个蛋白编码基因。该基因组为研究直翅目昆虫的适应性进化、染色体结构变异及系统发育提供了关键资源。
在昆虫世界的庞大谱系中,直翅目(Orthoptera)占据着举足轻重的地位,其成员超过29,000种,在陆地生态系统中扮演着植食者、捕食者和分解者等多重关键角色。然而,直翅目基因组普遍具有尺寸大、结构复杂的特点,这为获得高质量参考基因组带来了巨大挑战,进而限制了对该类群宏观进化、染色体结构变异以及重要功能基因家族演化历史的深入探索。裂跗蟋科(Schizodactylidae)作为直翅目螽亚目(Ensifera)中的一个古老且系统发育位置关键的类群,是理解螽斯总科(Grylloidea)和螽斯科(Tettigonioidea)等主要类群间演化关系的关键节点。化石与分子证据表明,裂跗蟋科最晚在三叠纪时期便已从其姊妹群螽斯总科中分化出来。现生裂跗蟋科昆虫呈现出典型的间断分布格局,包括亚洲的裂跗蟋亚科(Schizodactylinae)和南部非洲的Comicinae亚科。这些昆虫以其独特的形态特化而闻名,尤其是适应沙地生活的跗节结构以及穴居、捕食的生活方式。尽管其演化意义重大,但该科长期以来处于“基因组荒漠”状态,其独特形态和生态适应的遗传机制鲜为人知。
吉莫裂跗蟋(Schizodactylus jimo)是目前中国有记录的唯一一种沙丘蟋蟀,仅分布于云南省。它是一种典型的夜行性捕食昆虫,白天藏身于自建的洞穴中,夜间外出捕食小型节肢动物。其最显著的特征是末端跗节上具有可扩张的桨状叶,这被认为是其在松散沙地上高效运动和挖掘的关键适应性状。这种独特的运动方式及其相关的形态结构,使得吉莫裂跗蟋成为研究特殊环境适应的理想模型。然而,高质量基因组资源的缺乏,使得从分子水平理解这些复杂性状演化驱动力变得困难重重。
为了填补这一知识空白,并为直翅目的比较基因组学和进化生物学研究提供关键参考,由陕西师范大学的姚彬彬、蒋涛、徐胜权等研究人员领导的研究团队,在《Scientific Data》上发表了题为“Chromosome-level genome assembly of Schizodactylus jimo He, 2021 from China (Ensifera: Schizodactylidae)”的研究论文,首次报道了吉莫裂跗蟋的染色体水平基因组组装与注释。
研究人员为开展此项研究,主要应用了以下几项关键技术:研究样本采自云南省保山市怒江右岸。首先,利用Illumina短读长测序数据,通过K-mer(K=21)分析预估基因组大小约为1.178 Gb。随后,结合PacBio HiFi长读长测序和Hi-C(高通量染色体构象捕获)技术进行基因组组装。使用Hifiasm软件进行初步组装,并利用Purge_Haplotigs去除冗余序列,获得初步的contig(重叠群)级组装。接着,利用Hi-C数据,通过Juicer和YAHS等软件流程将contig锚定和排序到染色体水平,并借助Juicebox进行手动检查和优化,最终获得染色体水平的基因组组装。此外,还通过转录组测序(RNA-seq)为基因注释提供支持。基因注释则整合了从头预测(de novo prediction)、同源比对(homology-based annotation)和转录本证据(transcriptome-based annotation)三种策略。
研究人员于2023年5月1日从中国云南省保山市怒江右岸采集了吉莫裂跗蟋的雄性标本。采用CTAB法从肌肉组织中提取高分子量DNA,并通过琼脂糖凝胶电泳、NanoDrop分光光度计和Qubit荧光测定法对DNA质量进行严格评估。同时,从头部和肌肉组织提取总RNA,用于后续的转录组测序和基因注释。所有核酸样本均通过质量控制后用于测序。
本研究产生了四种类型的测序数据:用于基因组调查的Illumina短读长数据(82.83 Gb);用于高质量组装的PacBio HiFi长读长数据(23.47 Gb);用于染色体支架构建的Hi-C数据(157.76 Gb);以及用于基因注释的转录组数据(11.95 Gb)。
利用Illumina短读长数据,通过K-mer(K=21)分析评估基因组特征。使用Jellyfish计算K-mer分布,并通过GenomeScope v2.0进行拟合分析,预估吉莫裂跗蟋的基因组大小约为1.178 Gb,杂合度为0.334%,重复序列比例为72%。
首先使用Hifiasm v0.19.4-r575对HiFi reads进行初步组装,随后使用Purge_Haplotigs v1.1.2去除单倍型冗余。获得的初步组装大小为1.192 Gb,contig N50为42.67 Mb,GC含量为40.18%。然后,利用Hi-C数据,通过BWA将Hi-C reads比对到初步组装上,再使用Juicer和YAHS进行染色质相互作用分析,将contig锚定和排序到染色体水平。最后使用Juicebox进行手动校正,并使用RACON进行错误校正。最终获得的染色体水平基因组包含58个scaffold(支架),总长度为1.192 Gb,其中94.65%的序列被成功锚定到9条假染色体上,scaffold N50高达198.77 Mb。基因组完整性通过BUSCO v5.8.2(基于insecta_odb10数据集)进行评估,完整性达到98.0%,表明组装质量极高。
使用Earl Grey v4.2.4流程对基因组中的重复序列(REs)进行注释。结果显示,吉莫裂跗蟋基因组中40.51%(482.98 Mb)为重复序列。其中,长散在核元件(LINEs)占比最高,达27.49%,其次是DNA转座子元件(2.02%)、串联重复(TRs, 4.00%)和未分类重复序列(6.73%)。长末端重复序列(LTRs, 0.05%)、Penelope(0.06%)、滚环(Rolling Circle, 0.02%)和短散在核元件(SINEs, 0.14%)占比较低。
采用证据模型器(EVM)v2.0.0整合三种策略(从头预测、同源基因比对和转录组证据)对蛋白质编码基因进行注释。具体而言,使用HISAT2将RNA-seq数据比对到基因组,再利用StringTie v2.1.4进行转录本组装。同源注释则利用Anabrus simplex、Locusta migratoria和Apteronemobius asahinai的蛋白质序列,通过Genewise v2.4.1比对到吉莫裂跗蟋基因组。从头预测使用Augustus v3.3.4软件,并利用转录组和同源蛋白信息进行训练。最终,共注释出14,215个蛋白质编码基因。平均基因长度为13,780.2 bp,平均CDS长度为1,473.5 bp。基于metazoa_odb10数据集的BUSCO评估显示基因集的完整性为94.1%,证实了注释的准确性。
功能注释方面,使用InterProScan v5.61结合InterPro和Pfam数据库对蛋白质 motifs 和结构域进行注释,并据此分配基因本体(GO)术语。同时,使用DIAMOND v2.1.6将蛋白质序列比对到Nr数据库(E值阈值<1e-5)。最终,在14,215个基因中,有12,747个(89.67%)获得了功能注释,其中分别有87.04%、82.46%、74.29%和57.13%的基因在Nr、InterPro、Pfam和GO数据库中成功注释。
本研究的基因组组装、原始测序数据和注释信息已存入公共数据库。组装基因组存放于GenBank(登录号GCA_052149075.1),原始测序数据存放于SRA(登录号SRP620269),注释信息存放于Figshare(DOI: 10.6084/m9.figshare.29626556.v4)。技术验证结果表明,Illumina短读长和PacBio长读长与组装基因组的比对率分别高达99.76%和99.87%。使用Merqury评估的基因组质量值(QV)为42.87,结合98.0%的BUSCO完整性,充分证明了该基因组组装具有高度的完整性、准确性和整体质量。
本研究成功构建了中国特有沙地昆虫吉莫裂跗蟋的首个染色体水平高质量参考基因组。该基因组组装大小为1.192 Gb,Scaffold N50达到198.77 Mb,其中绝大部分序列(94.65%)被成功锚定到9条假染色体上,组装完整性和准确性均处于较高水平。注释揭示了其基因组中重复序列含量为40.51%,并预测了14,215个蛋白质编码基因,其中近90%获得了功能注释。
这项研究的意义重大且深远。首先,它填补了裂跗蟋科乃至直翅目昆虫基因组资源的空白,终结了该科作为“基因组荒漠”的历史。其次,这个高质量的基因组为深入探究吉莫裂跗蟋独特沙地适应性状(如桨状跗节)的遗传基础提供了坚实的分子基础。研究人员未来可以借此开展比较基因组学和进化基因组学研究,识别与沙地运动、挖掘、感官感知等相关的关键基因和正选择信号。再者,该基因组为厘清裂跗蟋科在直翅目,特别是螽亚目内部的系统发育位置提供了强有力的数据支持,有助于解决长期存在的演化关系争议。最后,该资源也为直翅目昆虫的染色体进化、基因家族扩张/收缩以及生物多样性保护研究提供了宝贵的遗传数据。总之,吉莫裂跗蟋基因组的发布,标志着对这类特殊适应昆虫的研究进入了基因组学时代,必将推动直翅目进化生物学研究迈向新的高度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号