芝麻(Sesamum indicum L.)是一种重要的油料作物,因其高品质的油脂以及能够在多种农业生态条件下生长而备受重视(Bedigian, 2003; Weiss, 2000)。尽管其具有重要的经济价值,但由于遗传变异有限,以及与产量和生长相关的农艺性状的遗传机制较为复杂,其在遗传改良方面的进展相对缓慢(Dossa et al., 2017; Zhang et al., 2018; Wang et al., 2016)。在这些农艺性状中,开花时间对作物的适应性起着核心作用,因为它会影响作物的生长周期、繁殖成功率以及整体生产力。
形态学性状仍然是评估作物种质资源变异性的实用且可靠的方法,因为它们反映了遗传因素和环境因素的共同作用(Mohammadi and Prasanna, 2003; Tripathi et al., 2013)。当同时分析多个性状时,多变量统计方法能够更全面地了解变异情况以及各性状之间的关联关系。主成分分析(PCA)和相关性分析等方法被广泛用于识别关键影响性状并简化复杂的数据库(Jolliffe, 2002; Crossa and Franco, 2004; Yan and Kang, 2003)。在芝麻研究中,这些方法也多次指出,与开花相关的性状对于决定作物的变异模式和适应性具有重要意义(Banerjee and Kole, 2006; Pandey et al., 2015; Gupta et al., 2021; Mehdizadeh et al., 2022)。
与此同时,计算生物学和基因组编辑技术的进步为将表型观察结果与有针对性的遗传改良相结合提供了新的机会。CRISPR/Cas9系统已成为一种高效的基因组修饰工具,能够实现对与重要农艺性状相关的基因进行精确改造(Jinek et al., 2012; Cong et al., 2013; Hsu et al., 2014; Bortesi and Fischer, 2015)。不过,这类方法的成功实施取决于对候选基因的精心筛选,以及特定单引导RNA(sgRNA)的设计,而这些都可以通过CRISPOR之类的计算平台来进行评估(Haeussler et al., 2016)。
将表型分析与候选基因识别相结合,能为作物改良提供更为有针对性的方法。以往在作物领域的计算CRISPR研究主要侧重于基因组注释、序列保守性分析或基因家族信息筛选,以此确定候选靶点(Jaganathan et al., 2018; Uniyal et al., 2019)。而本研究则采用了以性状为引导的框架,首先通过多变量表型分析找出那些对整体变异有显著贡献且具有协同生物学意义的与开花相关的性状,再利用这些性状关联来为PEBP/MFT家族中的一个与开花相关的候选基因(SIN_1017333)的优先级排序提供依据,进而开展后续的CRISPR/Cas9靶点分析。
虽然本研究并未提出新的基因组编辑算法,但它展示了如何将表型证据与计算得到的sgRNA评估结果相结合,从而为芝麻的靶点选择提供基于生物学的指导。通过将多变量性状分析、候选基因筛选以及sgRNA检测相结合,本研究提出了一种以表型为导向的策略,有望提升计算基因组编辑技术在作物改良中的应用价值。
尽管基于PCA的表型分析和CRISPR靶点设计分别是成熟的独立技术,但将它们整合到以性状为引导的框架中,或许能为确定芝麻中与关键农艺过程相关的具有生物学意义的候选基因提供有效的筛选策略。因此,本研究探索了一种概念验证型的计算工作流程,将多变量性状分析与sgRNA优先级排序相结合。