编辑推荐:
为解决三角梅(Bougainvillea glabra)多组学信息缺乏,阻碍基因研究和遗传应用的问题,研究人员对 22 种三角梅苞片进行转录组测序。获得超 80Gb 清洁数据,得到 174,758 个单基因等数据。这些数据对基因挖掘等研究意义重大。
三角梅,作为一种在热带和亚热带地区广泛应用于园艺景观的观赏植物,凭借其绚丽多彩的苞片和繁茂的花朵,成为城市绿化和家庭园艺中的宠儿。近年来,人们对三角梅的关注不仅局限于其观赏价值,其提取物在医药、营养保健品合成材料等领域的潜在应用也引发了科研人员浓厚的兴趣。然而,三角梅品种的多组学信息严重匮乏,这犹如一道屏障,阻碍了基因层面的深入研究以及遗传应用的发展。例如,在研究苞片颜色变化的分子机制时,缺乏全面的基因数据使得研究进展缓慢。为了突破这一困境,深入探究三角梅的基因奥秘,福建农林大学等机构的研究人员开展了一项极具意义的研究 —— 对 22 种三角梅苞片进行转录组测序。
该研究成果发表在《Scientific Data》杂志上,为三角梅的研究领域带来了新的曙光。研究人员通过对大量样本的深入分析,获得了超过 80Gb 的清洁数据。经过一系列严谨的操作,包括从头组装和优化,最终成功得到 174,758 个单基因(
E90N50=2,473bp)以及注释数据,同时还检测到 100,115 个编码序列(CDS) 。这些数据为后续研究提供了坚实的基础,有助于揭示三角梅的遗传信息,推动其在各个领域的应用。
在研究过程中,研究人员运用了多种关键技术方法。首先是样本采集,从 22 个不同品种或种质的三角梅扦插苗上采集成熟苞片组织样本,并迅速冷冻保存。接着进行 Illumina 测序和数据处理,通过提取总 RNA,构建 cDNA 文库,在 Illumina Novaseq 6000 平台上进行测序,再利用软件对原始数据进行预处理,得到高质量的测序数据。然后进行从头组装和注释,使用 Trinity 程序对数据进行组装,再将组装结果与多个数据库进行比对注释。此外,还进行了基因结构分析,预测 CDS 并检测单核苷酸多态性(SNP)和简单重复序列(SSR)。
研究结果如下:
- 测序数据统计:对 22 个样本的测序数据进行统计,包括原始 reads、清洁 reads、碱基总数、错误率、碱基质量值等指标,结果显示数据质量良好,为后续分析提供了可靠保障。例如,样本 C_02_SZ 的总清洁 reads 为 21,921,352,总碱基(清洁)达 3,205,583,601,错误率仅 0.0254% 。
- 组装质量评估:对转录本和单基因进行组装质量评估,通过 TransRate 软件评估组装错误,利用 BUSCO 评估完整性。结果表明,非冗余转录本的完整 BUSCO 为 92.8%,单拷贝 BUSCO 占 29.7%;非冗余单基因的完整 BUSCO 为 85.1%,单拷贝 BUSCO 占 82.8% ,说明组装质量较高。
- 基因注释:将转录本和单基因与多个数据库比对进行注释,结果显示分别有 45.15% 的转录本和 37.4% 的单基因被注释到 GO、KEGG 等数据库中,为了解基因功能提供了丰富信息。例如,在 GO 注释中,41,644 个单基因(23.83%)被注释,涉及分子功能、细胞组成和生物过程等多个类别。
- 基因结构分析:共获得 100,115 个不同长度的 CDS,其中长度在 201 - 400 的 CDS 数量最多。同时,对每个品种的 SNP 进行检测和统计,平均每个品种有 69,990 个含 SNP 的单基因,其中 35,682 个被注释。此外,还对 SSR 进行检测,发现 35,498 个单基因包含 49,349 个 SSR,且以单核苷酸重复为主。
综上所述,该研究成功获得了 22 种三角梅苞片的转录组数据,为三角梅的基因挖掘、表达实验以及其他相关科学研究提供了宝贵资源。这些数据有助于深入理解三角梅苞片颜色变化的分子机制,推动三角梅在园艺、医药等领域的遗传应用,对丰富植物多组学研究也具有重要意义。未来,研究人员可基于这些数据进一步探究三角梅的基因功能,挖掘更多有价值的基因资源,为三角梅的研究和应用开辟更广阔的前景。