编辑推荐:
为解决亚利桑那恩蚜小蜂(Aenasius arizonensis)分子水平研究因缺乏基因组资源受限的问题,研究人员利用 PacBio Revio、MGISEQ-T7 及 Hi-C 技术开展其基因组组装研究。成功获得 398.69 Mb 基因组,锚定至 11 条染色体,为寄生蜂研究提供关键资源。
棉粉蚧(Phenacoccus solenopsis)作为一种危害超 200 种植物的入侵害虫,给农业和园艺生产带来严重威胁。亚利桑那恩蚜小蜂(Aenasius arizonensis)是其重要的专性内寄生蜂,能通过寄生棉粉蚧若虫和雌成虫显著抑制其种群数量,在多个国家的田间试验中展现出高达 78%-95% 的寄生效率。然而,长期以来,该寄生蜂的基因组资源匮乏,导致其生物特性、化学 ecology、毒液功能、与宿主及蚂蚁的互作关系,以及对温度和杀虫剂胁迫的响应等分子层面的研究进展缓慢。已有的研究仅局限于转录组和线粒体基因组分析,难以深入揭示其生物防治机制及遗传进化规律。因此,获得高质量的基因组组装数据成为推动该领域研究的关键。
为填补这一研究空白,浙江省农业科学院植物保护与微生物研究所、中国农业科学院植物保护研究所等国内研究机构的科研人员开展了相关研究。他们通过整合 PacBio 长读长测序、MGISEQ 短读长测序和高通量染色体构象捕获(Hi-C)技术,成功构建了亚利桑那恩蚜小蜂的染色体水平基因组,并对其进行了全面的注释和分析。该研究成果发表在《Scientific Data》上,为寄生蜂生物学及生物防治研究提供了重要的基础数据。
主要关键技术方法
研究采用多技术联合策略:利用 PacBio Revio 平台获取 16.48 Gb 高质量 HiFi 长读长序列(覆盖深度 28.88×),通过 MGISEQ-T7 平台获得 42.38 Gb 短读长数据(Q30 达 96.91%)用于基因组 survey 和组装抛光,同时利用 Hi-C 技术(67.54 Gb clean 数据)将序列锚定至染色体。此外,通过 RNA-seq(13.00 Gb)辅助基因结构注释,结合同源预测、转录组预测和从头预测等多方法整合,实现蛋白编码基因的精准识别。
研究结果
基因组组装与染色体锚定
通过 hifiasm 软件组装 PacBio HiFi reads,获得初始基因组大小为 406.67 Mb,包含 225 条 contigs,contig N50 为 4.73 Mb。经 Hi-C-Pro 分析,98.66% 的序列(393.33 Mb)被锚定至 11 条染色体,染色体长度范围为 22.97-45.46 Mb,scaffold N50 达 35.96 Mb。BUSCO 评估显示,染色体水平组装的完整性为 97.07%,表明获得了高质量的基因组数据。
重复序列与非编码 RNA 注释
基因组中重复序列占比 41.61%(165.90 Mb),其中转座元件(TEs)占 38.78%,包括长末端重复序列(LTR)、LINE 和 DNA 转座子等。非编码 RNA 注释鉴定出 171 个 rRNA、117 个 small RNA、331 个 regulatory RNA 和 872 个 tRNA,为基因表达调控研究提供了线索。
基因注释与功能预测
整合多策略预测得到 11,727 个蛋白编码基因,平均基因长度 17,936.89 bp,编码序列(CDS)平均长度 1,716.43 bp,每个基因平均含 6.92 个外显子。功能注释显示,92.45% 的基因(10,842 个)在 NR、KEGG、GO 等数据库中获得注释,涉及代谢、信号传导、发育等多个生物学过程。与其他寄生蜂物种的基因结构比较表明,亚利桑那恩蚜小蜂在基因长度和外显子数量上具有独特特征。
研究结论与意义
本研究首次构建了亚利桑那恩蚜小蜂的染色体水平基因组,填补了该物种基因组资源的空白。高质量的基因组数据为解析其寄生机制、毒液功能、宿主定位及抗逆响应等生物学过程提供了关键信息,也为 Encyrtidae 科寄生蜂的遗传进化和宿主 - 寄生蜂互作研究奠定了基础。通过多技术整合的基因组组装策略,不仅提升了寄生蜂基因组研究的技术水平,也为其他非模式昆虫的基因组学研究提供了方法论参考。该成果将推动生物防治领域的发展,助力利用寄生蜂进行害虫绿色防控的应用实践,对农业生态保护和可持续发展具有重要意义。