染色体水平基因组揭示石蝇Indonemoura scalprata的进化与水生适应机制
《Scientific Data》:Chromosome-level genome assembly of the stonefly Indonemoura scalprata (Plecoptera: Nemouridae)
【字体:
大
中
小
】
时间:2025年12月18日
来源:Scientific Data 6.9
编辑推荐:
为解决石蝇科(Plecoptera)Amphinemurinae亚科基因组数据稀缺,限制其系统发育、进化及水生适应机制研究的问题,研究人员对广泛分布于中国南方的石蝇Indonemoura scalprata开展了染色体水平基因组测序研究。该研究利用PacBio HiFi和Hi-C技术,成功组装了大小为257.81 Mb、锚定至11条假染色体的高质量基因组,注释了12,200个蛋白质编码基因,BUSCO评估完整性达97.7%。该基因组为研究多新翅类(Polyneoptera)昆虫的比较基因组学、早期有翅昆虫进化及对寒冷、急流环境的适应机制提供了宝贵的资源。
在清澈、湍急的山涧溪流中,生活着一群对水质极为敏感的生物——石蝇(Plecoptera)。它们是水生生态系统中的“环境哨兵”,其存在与否直接反映了水体的健康状况。石蝇属于多新翅类(Polyneoptera)昆虫,是理解早期有翅昆虫进化及水生适应过程的关键类群。然而,尽管石蝇具有重要的生态和进化地位,其基因组资源却相对匮乏,这极大地限制了对石蝇生物学、系统发育及适应机制的深入研究。
在石蝇的大家族中,叉襀科(Nemouridae)是物种最丰富、多样性最高的类群之一。其中,Amphinemurinae亚科是叉襀科的重要组成部分,但该亚科的基因组数据却是一片空白。为了填补这一空白,并为解决石蝇系统发育中的争议提供关键数据,研究人员将目光投向了Amphinemurinae亚科的代表物种——Indonemoura scalprata。该物种广泛分布于中国南方的福建、广东和广西等地,是研究石蝇进化与适应的理想对象。
为了获得高质量的基因组参考,研究人员利用PacBio HiFi长读长测序和Hi-C染色质构象捕获技术,对Indonemoura scalprata进行了染色体水平的基因组测序。最终,他们成功组装了一个大小为257.81 Mb的高质量基因组,其中99.76%的序列被成功锚定到11条假染色体上。该基因组的支架N50达到了26.45 Mb,BUSCO(insecta_odb12)评估的完整性高达97.0%,表明这是一个高度完整和连续性的基因组。
在基因组注释方面,研究人员发现重复序列占基因组的31.20%,并鉴定出1,491个非编码RNA(ncRNA)和12,200个蛋白质编码基因。基因注释的BUSCO完整性评估达到了97.7%,证明了注释结果的高质量。该基因组为研究多新翅类昆虫的比较基因组学、石蝇对寒冷、急流环境的适应机制以及早期有翅昆虫的进化提供了宝贵的资源。
本研究采用多组学技术联合策略,对Indonemoura scalprata进行了全面的基因组测序与注释。首先,研究人员从广西千家洞国家级自然保护区采集了成年个体样本,并利用CTAB法提取了高质量的基因组DNA。随后,他们构建了PacBio HiFi长读长文库、Illumina短读长文库(用于基因组调查和RNA-seq)以及Hi-C染色质构象捕获文库,并利用Oxford Nanopore平台进行了全长转录组测序。基因组组装采用Hifiasm软件对HiFi数据进行初步组装,并利用Hi-C数据通过YAHS软件进行染色体水平支架构建。基因注释则整合了从头预测、转录组证据和同源预测三种方法,最终通过MAKER流程生成高质量的基因模型。
研究人员利用PacBio HiFi长读长测序技术,获得了23.46 Gb(约91.01X覆盖度)的高保真测序数据。通过k-mer分析预测,Indonemoura scalprata的单倍体基因组大小约为264.75 Mb,杂合率为2.51%,重复序列含量为16.68%。利用Hifiasm软件进行从头组装,并结合Hi-C数据进行染色体水平支架构建,最终获得了大小为257.81 Mb的基因组。该基因组由22个支架和57个重叠群组成,其中99.76%(257.18 Mb)的序列被成功锚定到11条假染色体上。支架N50为26.45 Mb,最长支架达到36.69 Mb,GC含量为36.39%。BUSCO(insecta_odb12)评估显示,基因组完整性高达97.0%,且重复基因比例仅为0.8%,表明该基因组具有高度的完整性和低冗余性。
研究人员采用同源预测和从头预测相结合的方法,对基因组中的重复序列进行了全面注释。结果显示,重复序列占基因组的31.20%(80.44 Mb),其中散在重复序列占29.72%,简单重复序列占1.12%。在散在重复序列中,LINEs(长散在核元件)占3.07%,DNA转座子占2.43%,LTR反转录转座子占3.24%,滚环元件占1.23%,SINEs(短散在核元件)占1.74%。值得注意的是,未分类的重复序列占基因组的17.98%,表明该基因组中存在大量新颖或分化的重复元件。
在非编码RNA注释方面,研究人员共鉴定出1,491个非编码RNA,包括605个rRNA(核糖体RNA)、402个tRNA(转运RNA)、87个snRNA(小核RNA)、54个miRNA(微RNA)、2个lncRNA(长链非编码RNA)、3个核酶以及341个组蛋白3' UTR茎环基序。这些非编码RNA的鉴定为研究石蝇的基因调控机制提供了重要线索。
在蛋白质编码基因注释方面,研究人员整合了从头预测、转录组证据和同源预测三种方法,最终预测出12,200个蛋白质编码基因。这些基因的平均长度为11,407.7 bp,平均包含8.2个外显子和7.2个内含子。BUSCO(insecta_odb12)评估显示,基因注释的完整性高达97.7%,表明注释结果高度可靠。功能注释结果显示,92.98%的基因在UniProtKB数据库中有同源匹配,84.59%的基因被InterProScan注释了至少一个结构域,79.33%的基因被注释了GO(基因本体论)条目,38.89%的基因被注释了KEGG(京都基因与基因组百科全书)通路条目。
本研究成功构建了Indonemoura scalprata的高质量染色体水平基因组,这是Amphinemurinae亚科首个正式发表的染色体水平基因组。该基因组大小为257.81 Mb,锚定至11条假染色体,具有高度的连续性和完整性。基因组注释揭示了其独特的重复序列组成和基因结构特征。与已发表的其他石蝇基因组相比,Indonemoura scalprata的基因组大小与Nemurella picteti(257 Mb)相似,但小于Brachyptera putata(436.5 Mb)、Leuctra nigra(536.3 Mb)和Nemoura dubitans(321.0 Mb),其GC含量(36.39%)也低于其他物种。
该基因组的发布具有重要的科学意义。首先,它填补了Amphinemurinae亚科高质量基因组数据的空白,为研究叉襀科乃至整个石蝇目的系统发育关系提供了关键数据。其次,该基因组为研究石蝇对寒冷、急流环境的适应机制提供了分子基础。通过比较基因组学分析,可以揭示石蝇在应对低温、高氧和急流等环境压力时的基因家族扩张、收缩或正选择信号。最后,作为多新翅类昆虫的代表,该基因组也为理解早期有翅昆虫的进化提供了新的视角。总之,Indonemoura scalprata的高质量基因组是一个宝贵的资源,将极大地推动石蝇生物学、进化生物学和生态学的研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号