编辑推荐:
为填补云斑蛛(Araneus marmoreus)基因组研究空白,西南大学研究人员利用 Illumina、PacBio 和 Hi-C 测序技术,组装出 2.39 Gb 的染色体水平基因组,含 13 条染色体,注释到 23,381 个蛋白编码基因。该成果为其进化基因组学和生态动力学研究奠定基础。
蜘蛛是生态系统中重要的捕食性节肢动物,其多样性令人惊叹,目前已描述的蜘蛛超过 136 科 5.2 万种。园蛛科(Araneidae)作为其中最大的科之一,全球有超过 3100 种,它们依赖复杂的圆网进行捕食、通讯、求偶和交配,是研究蜘蛛丝、织网行为和性二态性的重要类群。然而,尽管已有 15 种园蛛科蜘蛛的基因组被测序,但云斑蛛(Araneus marmoreus)因其独特的南瓜状腹部形态和生态重要性,却缺乏高质量的参考基因组,这极大限制了对其进化生物学和生态动态的深入研究。
为解决这一问题,西南大学三峡库区生态环境教育部重点实验室的研究人员开展了云斑蛛染色体水平基因组的组装与分析研究。他们通过整合 Illumina 短读长测序、PacBio HiFi 长读长测序和 Hi-C 染色体构象捕获技术,成功获得了云斑蛛的高质量基因组。该研究成果发表在《Scientific Data》上,为园蛛科蜘蛛的进化研究及适应性遗传机制解析提供了关键数据支撑。
研究中采用的主要技术方法包括:利用 PacBio Sequel II 平台进行长读长测序(插入片段 15 kb),Illumina NovaSeq 平台进行短读长测序和 Hi-C 测序,提取雌性个体头胸部组织用于基因组测序,腿部肌肉组织用于 RNA-seq 和 Hi-C 分析。通过 Flye 软件组装 PacBio 数据生成草图,结合 Purge Haplotigs 去除杂合区域,再用 NextPolish 基于 Illumina 数据抛光,最终利用 Hi-C 数据将序列锚定到染色体上,构建出染色体水平的基因组。
基因组组装与质量评估
研究通过基因组 survey 分析,利用 GenomeScope 估算云斑蛛基因组大小约为 2.24 Gb,杂合度为 0.94%。最终组装得到的基因组大小为 2.39 Gb,包含 13 条染色体,每条均超过 100 Mb, scaffold N50 达 181.8 Mb,contig N50 为 721.3 kb。BUSCO 评估显示基因组完整性为 97.1%,其中 91.0% 为单拷贝完整基因,6.1% 为重复完整基因,表明组装质量较高。
基因组组成与注释
基因组中重复序列占比 59.25%,其中 DNA 转座子占 10.93%,长末端重复序列(LTR)占 3.21%,未分类重复元件占 41.81%。通过整合从头预测、RNA-seq 和同源蛋白证据,注释到 23,381 个蛋白编码基因,平均长度 28,771.1 bp,每个基因平均含 6.91 个外显子。功能注释显示,97.3% 的基因匹配到 Uniprot 数据库,71.38% 的基因具有 GO 注释,59.41% 涉及 KEGG 通路。此外,还鉴定到 9,818 个非编码 RNA,包括 tRNA、rRNA、snoRNA 等。
基因组比较与进化分析
通过与近缘种大腹园蛛(Trichonephila antipodiana)的共线性分析(Fig. 1D),显示云斑蛛基因组与其具有良好的 synteny 关系,进一步验证了组装的准确性。Merqury 分析显示基因组一致性质量值(QV)为 36.8084,表明序列准确性较高。
研究结论与意义
该研究首次提供了云斑蛛的染色体水平基因组,填补了园蛛属基因组研究的空白。高质量的基因组数据为解析其独特形态(如南瓜状腹部)的遗传基础、丝蛋白基因的进化以及生态适应机制提供了关键资源。此外,该研究为园蛛科蜘蛛的系统发育分析和比较基因组学研究奠定了基础,有助于深入理解蜘蛛的适应性辐射和生态多样性形成机制。研究中建立的多技术整合组装策略,也为其他节肢动物的高复杂基因组研究提供了方法参考。