编辑推荐:
苦荞(Tartary buckwheat,TB)作为重要药食同源作物,其遗传研究和育种却因参考基因组不完善和突变群体稀缺受阻。本文构建了 TB 自交系 Guiku1 的端粒到端粒(T2T)无间隙基因组及突变库,为功能基因组学研究和遗传改良提供关键资源,值得一读!
研究背景
苦荞(Fagopyrum tataricum,TB)是起源于喜马拉雅地区的重要伪谷物作物,因其富含优质蛋白、抗性淀粉和生物活性黄酮类物质(>2%),在全球范围内备受关注,对人体健康益处显著。中国是苦荞最大生产国,西南山区是主产区,苦荞在当地经济发展、粮食安全和民众健康方面发挥重要作用。
然而,苦荞的育种技术滞后于其他作物。目前已育成的 55 个品种中,多数通过系统育种或人工诱变获得,杂交选育的较少。这导致苦荞品种改良程度低,产量(1,700 - 2,500 kg hm?2)远低于水稻、玉米等作物,且植株株型改良受限,难以通过增加种植密度提高产量。此外,苦荞种子脱壳困难,严重制约了苦荞食品产业发展。虽已培育出一些易脱壳品种,但种子粒重仍不理想,且难以通过杂交进一步增大粒重。同时,苦荞功能基因挖掘和遗传转化研究落后,缺乏可用的基因资源用于分子育种。因此,种质创新和关键农艺性状基因的发现迫在眉睫。
人工诱变可加速作物育种并助力重要基因的发现,其中乙基甲基磺酸(EMS)在作物诱变中应用广泛。在苦荞中,虽已构建少量 EMS 突变库,但存在规模小、对植株发育有不良影响、碱基突变类型不明以及未鉴定出导致表型变异基因等问题。参考基因组在功能基因组学研究中至关重要,尽管已有多个苦荞参考基因组发布,但均存在序列缺失和间隙。不同苦荞种质间大量的单核苷酸多态性(SNPs)和插入缺失(indels)会导致基于全基因组测序鉴定突变位点时出现高假阳性。因此,构建高质量参考基因组和同遗传背景的突变库意义重大。
研究结果
- 苦荞 Guiku1 的 T2T 无间隙参考基因组组装:研究选取高产、适应性广的苦荞自交系 Guiku1 进行 T2T 无间隙基因组组装。通过基因组特征调查,估计 Guiku1 基因组大小为 567.88 Mb,杂合度为 0.20%。利用 PacBio 高保真(HiFi)测序、牛津纳米孔技术(ONT)超长读长测序和高通量染色体构象捕获(Hi-C)技术进行深度测序,共生成 45.98 Gb(~95.79× 覆盖度)的 PacBio HiFi 读长、51.73 Gb(~107.77× 覆盖度)的 ONT 超长读长和 57.4 Gb(~126.49× 覆盖度)的 Hi-C 数据。经一系列组装和优化步骤,最终获得包含 8 条染色体、总长度为 453.83 Mb 的无间隙参考基因组。研究发现苦荞染色体的端粒重复基序为(GAAACC)n,不同于多数植物的(CCCTAAA),并预测了 8 个着丝粒区域,其中富含转座元件(TEs),主要为长末端重复(LTR)/Gypsy TEs。通过多种方法验证,表明该组装具有高精度和完整性。
- 基因组注释:对 Guiku1 基因组进行注释,共鉴定出 201.59 Mb 的重复序列,占基因组的 44.42%,其中长末端重复反转录转座子(LTR - RTs)占 33.25%。预测出 43,441 个蛋白质编码基因,平均编码序列(CDS)长度为 1,356 bp,平均每个基因有 5.5 个外显子,单外显子基因率为 9.32%,重叠基因率为 1.45%。97% 的胚胎植物 BUSCO 基因在基因集中被检测到,38,245(88.04%)个预测基因通过多个数据库进行了功能注释。此外,还预测了 914 个转移 RNA(tRNA)、1,918 个核糖体 RNA(rRNA)、101 个微小 RNA(miRNA)和 651 个小核仁 RNA(snoRNA)基因。
- Guiku1 T2T 基因组与先前参考基因组的全局比较:与 Pinku1 和 Qianku3 参考基因组相比,Guiku1 组装填补了 Pinku1v2、Qianku3 Hap1 和 Qianku3 Hap2 组装中的所有间隙,在这些间隙区域存在的预测基因在之前的基因组中未被鉴定。通过直系同源聚类分析,发现 Guiku1 基因组中有 25,974 个基因家族,其中 18,532 个与其他两个基因组共有,309 个为 Guiku1 特有。GO 富集分析显示,这些特有基因家族主要涉及发育过程。在基因组变异方面,Guiku1 与 Pinku1、Qianku3 Hap1 和 Qianku3 Hap2 相比,分别鉴定出大量的 SNPs、小 indels 和结构变异(SVs),包括大的插入缺失、重复、倒位和易位等,并通过 PCR 扩增验证了部分 SVs。
- Guiku1 突变库的构建:为推动苦荞基础研究和优良种质开发,对 Guiku1 进行 0.5% EMS 诱变,获得 8,000 个独立的 M2家系。在 M2和 M3群体中分别鉴定出 1,007 个和 85 个生长发育相关突变体,共 1,092 个突变体被分为 12 大类、62 种形态变异。经过连续自交至 M6代,获得 751 个遗传稳定的突变体,其中包含多种具有优良性状的突变体,如理想株型突变体(ipa1)、矮化无产量损失突变体、束状穗突变体、超大粒突变体和大粒易脱壳突变体等,这些突变体为基因功能研究和育种应用提供了宝贵资源。
- 320 个突变株系的全基因组重测序和突变鉴定:选取 320 个突变株系和 4 个野生型植株进行全基因组重测序,经数据处理和分析,共鉴定出 4,843,396 个突变,包括 3,028,623 个 SNPs 和 1,814,773 个 indels。排除 7 个变异数量异常的突变体后,对剩余 313 个突变株系分析发现,突变几乎均匀分布在所有染色体上。SNP 突变中,C/G 到 T/A 的转换占主导(57.17%),不同世代的 SNP 变异中,纯合突变比例逐渐增加。indel 突变大小多在 1 - 6 bp,1 - bp indels 最为常见。多数突变可遗传给后代,且使用高质量同遗传背景参考基因组可显著降低突变鉴定的假阳性率。
- 突变对基因功能影响的确定:利用 SnpEff 对突变进行分类和功能注释,发现 156,916 个 SNPs(13.42%)和 21,461 个 indels(1.43%)位于基因编码区,分别涉及 28,755 个和 5,565 个基因。这些突变导致大量基因的蛋白质序列改变,包括终止密码子获得 / 丢失、剪接位点突变和非同义突变等。在转录因子(TFs)方面,共鉴定出 1,972 个 TFs,其中 1,103 个在突变株系中发生蛋白质序列改变,为 TFs 功能研究提供了资源。通过 Sanger 测序对部分突变位点进行验证,结果表明多数 EMS 型 C/G 到 T/A 突变可被确认。
- 利用正向遗传学鉴定茎和叶柄颜色突变基因:以粉色茎和叶柄突变体(psp - 1)为例,通过正向遗传学研究,将其与野生型 Guiku1 杂交,F1植株表现为野生型,F2群体中野生型与突变型比例符合 3:1,表明该突变表型由单隐性核基因控制。利用 MutMap 策略定位到 chr4 上一个 5.97 - Mb 的候选区域,经筛选和分析,确定 Ft04.g18814 基因编码区的一个 C/T 突变导致终止密码子获得,是 psp - 1 突变体的致病基因。另一突变体 psp - 2 也在该基因发生类似突变,且基因表达分析显示 Ft04.g18814 主要在茎、叶等组织表达,与突变体表型相符,这是首次在苦荞突变体中利用正向遗传学鉴定出的致病基因。
- 利用反向遗传学鉴定黄酮类生物合成相关基因:选取 21 个已知的苦荞黄酮类生物合成相关基因,研究其突变与种子中三种主要黄酮类成分(芦丁、异槲皮苷和槲皮素)含量的关系。鉴定出多个突变体,如 M4 - 198 在 CHS(Ft05.g26314)基因发生非同义突变,导致芦丁、异槲皮苷和槲皮素含量显著增加;M4 - 443 在 F3H(Ft07.g33851)基因发生纯合突变,使槲皮素含量增加,芦丁和异槲皮苷含量降低。不同突变体在黄酮类成分含量上的变化表明,Guiku1 突变库可用于苦荞反向遗传学功能研究。
研究讨论
高质量参考基因组对研究基因、遗传变异和基因组结构至关重要。本研究利用多种技术完成了苦荞 Guiku1 的 T2T 无间隙基因组组装,其 contig N50 和预测的蛋白质编码基因数量在已发表的苦荞基因组中最大。发现苦荞独特的端粒重复基序和着丝粒区域特征,并鉴定出大量遗传变异,尤其是 SVs,为研究苦荞农艺性状提供了有价值信息。同时,构建的 EMS 突变库包含多种优良种质,对苦荞育种意义重大。
通过对 320 个突变体的全基因组重测序,深入了解了突变信息,鉴定出大量影响蛋白质序列的突变,包括许多 TFs 突变。基于 T2T 无间隙基因组和突变体重测序数据,利用正向和反向遗传学方法快速鉴定出相关功能突变基因,表明高质量参考基因组和同遗传背景突变库对精准鉴定苦荞重要性状致病基因具有重要作用。
然而,本研究也存在局限性。苦荞染色体着丝粒区域的预测尚未经实验验证,已鉴定的突变基因功能也有待进一步研究。
资源可用性
本研究中所有独特突变体可从通讯作者处获取,需签订材料转移协议。所有原始测序数据和基因组序列已存入国家基因组数据中心的基因组序列档案(GSA)和基因组仓库(GWH),项目编号为 PRJCA031618。
研究总结
本研究成功组装了高可靠性和质量的苦荞 T2T 无间隙参考基因组,构建了综合突变资源库,为苦荞功能基因组学研究、遗传改良和育种提供了重要资源,有望推动苦荞突变育种取得成功。