叶绿体基因组变异揭示香椿品种鉴定的新标记:以中国北方种质为例

《Agronomy》:The Impact of Smoothing Techniques on Vegetation Phenology Extraction: A Case Study of Inner Mongolia Grasslands

【字体: 时间:2026年01月05日 来源:Agronomy 3.4

编辑推荐:

  本研究通过比较中国北方5个香椿品种的15个完整叶绿体基因组,揭示了尽管基因组结构高度保守,但仍存在品种特异性简单序列重复(SSR)、串联重复及高变区(如ycf1、ndhF)。全基因组系统发育分析展现出最优的品种鉴别能力,为香椿种质资源鉴定与分子育种提供了可靠工具。

  
1. 引言
香椿(Toona sinensis)是中国原产的多年生落叶乔木,以其独特风味、营养和药用价值闻名。由于不同香椿品种间形态特征高度相似,仅凭形态学进行准确鉴定具有挑战性且常常不可靠,这凸显了利用有效分子工具区分近缘品种的必要性。过去十年中,下一代测序技术的进步显著降低了叶绿体基因组测序的成本并提高了质量。与核基因组相比,叶绿体基因组相对较小、结构保守且包含高度保守的编码基因集,使其成为植物系统发育研究和物种鉴定的强大资源。叶绿体基因组数据也已成功并准确地用于在物种和品种水平上区分红椿(Toona ciliata)、紫金牛属(Ardisia)和葡萄属(Vitis)等植物。
尽管取得了这些进展,关于香椿叶绿体基因组的研究仍然有限。首例完整的香椿叶绿体基因组由Liu等人报道。随后,Li等人基于整个质体基因组进行了香椿属的系统发育分析。然而,利用叶绿体基因组标记对不同香椿品种进行快速、精确鉴定的研究仍然缺乏。因此,迫切需要开发可靠的基于叶绿体基因组的分子标记,以实现精确的品种鉴定,从而支持香椿的种质资源保护和育种工作。
近年来,完整叶绿体基因组可用性的增加极大地促进了基于质体基因组的高分辨率分子鉴定工具的开发。与单一位点条形码相比,整个质体基因组提供了更丰富的遗传信号,因为它们包含丰富的单核苷酸多态性(SNP)、插入缺失(Indel)、重复相关变异和分化热点,使得即使是在近缘栽培品种之间也能进行区分。简单序列重复(SSR)、长重复和串联重复等重复元件已被证明对许多药用和园艺植物的栽培品种或品种分化特别有用,包括菊花(Chrysanthemum)、芍药属(Paeonia)、扁柏属(Callitropsis)和广东万年青属(Aglaonema)。同样,高变质体基因组区域,如ycf1、ndhF和trnT-trnF,在木本和药用类群中显示出强大的区分能力。这些发现共同表明,质体基因组衍生的标记可以在品种水平上提供可靠的分辨率,突显了对香椿进行系统性质体基因组分析的潜在价值,而这尚未进行。
因此,我们对代表中国北方五个栽培品种的15份香椿材料的完整叶绿体基因组进行了测序、组装和注释。作为首个专注于这一重要经济物种内部品种鉴定的全面比较质体基因组学研究,本研究的目标包括:分析和比较重复元件,如SSR和长重复,以鉴定香椿中新的品种特异性分子标记;通过比较基因组学检测具有较高核苷酸多样性的高变区;在序列水平上验证代表性的基于重复的标记,以评估它们在近缘品种间的区分能力。本研究还使用完整的叶绿体基因组和选定的可变区域进行了全面的系统发育分析,以评估它们在解析香椿品种间关系方面的有效性,从而建立一个可靠的基于质体基因组的品种鉴定框架,支持种质资源保护和育种应用。
2. 材料与方法
2.1. 植物材料与DNA测序
新鲜幼叶采集自五个不同的香椿品种,包括焦作红(JZ)、临朐(LQ)、卧云铺(LW)、青州红(QZ)和河北红(HB),这些品种栽培于中国北方河南、山东和河北三省15个地理分布不同的地点。所有植物材料均由本研究合著者、植物分类学家林红强进行形态学鉴定。使用十六烷基三甲基溴化铵(CTAB)法提取总基因组DNA。使用NEBNext Ultra DNA文库制备试剂盒制备平均插入大小为350 bp的双末端测序文库,并在Illumina HiSeq 2500平台上进行测序。
2.2. 叶绿体基因组组装与注释
使用fastp v0.24.0去除低质量和含有接头的 reads。随后使用FastQC v0.12.0评估过滤后 reads 的质量。获得的高质量 reads 随后使用NOVOPlasty v4.2.1进行从头组装,以已发表的香椿叶绿体基因组序列作为参考和种子输入。使用Plann v1.1.2对所得组装结果进行注释,然后进行人工校对和验证以确保准确性。随后,使用OGDRAW v1.3.1生成组装基因组的物理图谱,以圆形构型描绘反向重复(IR)区、单拷贝(SC)区和注释基因的空间组织。此外,为了评估序列水平的保守性,我们使用CodonW v1.4.2分析了相对同义密码子使用度(RSCU),并使用PREPACT3 v3.12.0进行了RNA编辑位点的计算机预测。
2.3. 重复序列分析
叶绿体SSR表现出高度的种内变异性,使其成为分子标记开发的有希望的候选者。因此,使用MISA v.1.01对六种SSR motif类型进行了表征,包括单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸重复,其最小重复阈值分别为10、5、4、3、3和3个单位。两个间隔距离小于100 bp的相邻SSR被归类为复合SSR。为确保标记可靠性,仅在给定品种的所有三个生物学重复在共有序列水平上一致的SSR位点被保留为候选品种特异性标记;不一致的位点被排除。应用此过滤策略是为了避免不稳定或依赖于组装的SSR位点,并非旨在评估个体内异质性。为了扩展分子标记的种类,我们使用REPuter v2.74分析了长重复序列,包括正向、反向、互补和回文重复,最小重复长度为30 bp,汉明距离为3。我们还使用Tandem Repeats Finder v4.09以默认参数鉴定了串联重复。
2.4. 叶绿体基因组比较与序列分歧分析
叶绿体基因组IR区的结构变异(SV)经常被观察到,即使在同属物种或同一物种的不同栽培品种之间也是如此。这些变异可能导致叶绿体基因组大小的变化、基因重复/减少事件以及假基因的产生。为了研究香椿品种间IR区的SV,我们使用CPJSdraw v1.0对IR/SC边界移位及其相邻基因进行了比较分析。通过Geneious Prime v9.0.2中实现的全基因组比对鉴定了基因顺序和重排,而15个香椿质体基因组的序列比较则使用Proksee进行环状基因组可视化,使用mVISTA(Shuffle-LAGAN模式)进行线性比对可视化。使用DnaSP v5.0计算叶绿体基因组的核苷酸多样性(Pi),窗口大小为600 bp,步长为200 bp。
2.5. 系统发育树构建
在系统发育分析中使用了三种类型的数据集,以评估它们在香椿品种鉴定中的有效性。这些数据集包括使用matK、rbcL、trnH-psbA及其组合的常规叶绿体DNA条形码;通过Pi值分布识别的高变区(滑动窗口平均Pi > 0.001);以及完整的叶绿体基因组序列。对于每个数据集,使用MAFFT-LINSI v7.313进行多序列比对,同时使用RAxML v8.2.11在GTRGAMMA模型下构建最大似然(ML)树,并进行1000次标准自举重复。使用两个红椿(T. ciliata var. henryi)材料SM1和SM2作为外类群来定根系统发育树。
2.6. 物种鉴别分子标记的开发与验证
基于叶绿体基因组的比较分析,开发了针对候选品种特异性区域的分子标记,包括SSR、串联重复和其他高变位点。总共设计了13对引物来扩增从质体基因组比较中鉴定出的诊断性区域。
PCR反应在总体积10 μL中进行,包含5 μL 2× PCR Mix,0.5 μL正向和反向引物,1 μL基因组DNA和3 μL ddH2O。热循环程序包括94°C预变性4分钟,随后进行35个循环的94°C 30秒、52–58°C 30秒和72°C延伸7分钟。PCR产物在2%琼脂糖凝胶上电泳后进行可视化。
为了验证分子标记在高分辨率下的区分能力,选择了四个代表性位点进行基于测序的分析。这个子集包括两个SSR位点和两个串联重复位点,被选为代表在叶绿体基因组中识别出的主要类型的基于重复的标记。使用与PCR扩增相同的引物,对对应于这些位点的PCR产物进行纯化并进行双向Sanger测序。
检查测序色谱图的质量,并对高质量序列进行比对以识别重复 motif 并以单碱基分辨率确定重复拷贝数变异。这项序列水平分析证实了不同香椿品种在代表性SSR和串联重复位点存在稳定的长度多态性,为所开发分子标记的区分有效性提供了高分辨率证据。
2.7. Read水平异质性检测
为了评估候选标记区域潜在的个体内异质性,进行了read水平的变异调用分析。使用BWA-MEM v0.7.17将所有15份材料的clean Illumina reads 比对到它们对应的代表性叶绿体基因组上。使用SAMtools v1.3.1对生成的BAM文件进行排序和索引。使用LoFreq v2.1.5识别低频单核苷酸多态性(SNP)和小插入缺失,该软件专门设计用于检测低等位基因频率的变异。从生成的VCF文件中提取等位基因频率(AF)和读取深度(DP)信息,并检查位于候选标记区域内或邻近(±10 bp)的变异,以评估低频异质性的存在和程度。
2.8. 统计分析
每个品种分析三个独立的生物学重复以评估品种内一致性。鉴于叶绿体基因组在品种水平上的高度保守性,整体分析方法主要是描述性和比较性的。未进行正式的均值比较假设检验(如ANOVA);品种鉴别依赖于保守诊断标记的存在/缺失、系统发育拓扑结构和核苷酸多样性模式。所有统计计算和可视化均使用Python v3.9、R v4.2.2和GraphPad Prism v9.5进行。
3. 结果
3.1. 香椿叶绿体基因组的一般特征
Illumina测序在15份香椿材料中产生了2.43–10.70 Gb的原始数据。在去除低质量和含有接头的 reads 后,从头组装产生了长度在159,252至159,311 bp之间的叶绿体基因组,具有保守的四分体结构,包括一个大单拷贝(LSC)区(86,890至87,007 bp)、一个小单拷贝(SSC)区(18,332至18,346 bp)和两个反向重复(IR)区(26,981至27,019 bp)。15个叶绿体基因组表现出约37.9%的保守GC含量,而IR区的GC水平显著升高,约为42.8%,LSC和SSC区分别约为36.0%和32.2%。
所有叶绿体基因组还含有129个基因,在15份材料中基因顺序相同,包括84个蛋白质编码基因(PCG)、37个转运RNA基因(tRNA)和8个核糖体RNA基因(rRNA)。其中18个基因在IR区重复,包括7个PCG(rps7, rps12, rpl23, rpl2, rps19, ycf2, ndhB)、7个tRNA(trnN-GTT, trnR-ACG, trnA-TGC, trnI-GAT, trnV-GAC, trnL-CAA, trnM-CAT)和4个rRNA(rrn16S, rrn23S, rrn4.5S, rrn5S)。有18个含内含子基因,其中大多数(83.33%)含有一个内含子,而三个基因(rps12, ycf3, clpP)各有两个内含子。所有材料中保守的基因含量和顺序突显了香椿叶绿体基因组的高度稳定性。进一步支持这种高度保守性的是,RSCU和计算机预测的RNA编辑位点分析在所有香椿品种中揭示了相同的模式。因此,可靠的品种鉴别必须依赖于序列水平的 polymorphisms,而不是结构变异。
3.2. 叶绿体重复序列的鉴定与特征
15个叶绿体基因组的SSR计数变异极小,从LW材料的89个到QZ和LQ材料的94个。复合SSR仅占所有识别SSR的8.70–9.57%,而简单重复 motif 主导了SSR类型,显示出发布范围从10 bp到106 bp。单核苷酸重复最为普遍,占69.57%至70.21%,其次是四核苷酸重复(10.64%至11.24%)和二核苷酸重复(9.57%至10.11%)。然而,三核苷酸、五核苷酸和六核苷酸重复很少见,总计不到10%。所有单核苷酸SSR仅由A或T碱基组成,而其他SSR类型则表现出更高的 motif 多样性。例如,二核苷酸重复包含AG/CT和AT/AT motif,而四核苷酸重复则包括AAAG/CTTT、AAAT/ATTT、AACG/CGTT、ACAT/ATGT和AGAT/ATTT等 motif。尽管SSR丰度和类型总体上保守,但我们鉴定出八个品种特异性SSR,包括一个JZ材料特有的复合SSR,以及七个LW特异性SSR,包括三个单核苷酸、两个六核苷酸和两个复合 motif。这些品种特异性位点是开发诊断性分子标记的高价值候选者。
长重复序列分析揭示了15个叶绿体基因组中保守的模式。因此,我们在每个基因组中鉴定出一个长度为30–31 bp的互补重复、10–11个长度为30–46 bp的正向重复和18–19个长度为30–58 bp的回文重复,而反向重复缺失。虽然一个互补重复和三个正向重复在多个品种间共享,但没有重复是任何单一品种特有的。这种完全缺乏品种特异性的情况表明,长重复不适用于香椿的种内鉴别。
此外,每个叶绿体基因组包含20–24个长度在26至89 bp之间的串联重复,其中95.28%的拷贝数超过2.0。有趣的是,在JZ材料中独特地鉴定出两个分别为50 bp和30 bp的不同串联重复。这些JZ特异性串联重复的存在,加上上述JZ特异性复合SSR,为区分JZ品种提供了清晰的分子特征。
总的来说,重复元件分析揭示了一个广泛保守但 punctuated 着SSR和串联重复中离散的、品种特异性变异的景观。这些已识别的变异为香椿的精确品种鉴定奠定了具体的基因组基础。
3.3. 结构动力学与高变序列景观
15个叶绿体基因组也表现出完全的结构保守性,包括所有IR/SC边界区域。为了建立可靠的品种鉴别所必需的稳定基因组背景,我们首先验证了不存在大规模结构变化。所有IR相关基因,包括ndhF、ycf1、rps3、trnH和rpl22,都保持不变的构型,证实了所用香椿品种间IR结构的完美保存。通过Proksee和mVISTA进行的比较分析进一步证明了所有香椿材料在基因组结构和序列上的完全保守性。
在确认整体结构稳定性后,我们随后专注于检测细微的序列水平变异。为了评估潜在的序列分歧,我们分析了600 bp滑动窗口的Pi分布,值范围从0到0.00171,平均值为0.00012。区域Pi变异遵循SSC(0.00030)> LSC(0.00014)> IR(0.000032)的模式,证实了IR区的结构保守性。基于Pi分布,我们识别出三个Pi > 0.001的高变区,包括两个位于SSC区的区域——ycf1(Pi = 0.00171)和ndhF(Pi = 0.00143)——以及一个位于LSC区的区域,trnT-TGT–trnF-GAA(Pi值 = 0.00143)。这些高变区在质体基因组中表现出最高的核苷酸多样性,因此被确定为开发区分香椿品种标记的最有希望的基因组靶点。
3.4. 系统发育分析
评估了使用matK、rbcL和trnH-psbA的常规叶绿体DNA条形码的区分效能,以评估它们区分香椿品种的能力。所有三个标记都表现出 consistently 低的核苷酸多样性,rbcL的Pi = 0,matK和trnH-psbA的Pi < 0.0005。尽管如此,matK成功地将JZ材料与其他品种区分开来,而rbcL和trnH-psbA则没有显示出区分能力,而结合所有三个标记的多位点条形码则区分了JZ、LW和其他材料。此外,基于Pi > 0.001的三个高变区(ycf1、ndhF和trnT-TGT–trnF-GAA)的系统发育分析表明,ndhF和trnT-TGT–trnF-GAA成功地将JZ材料与其他品种区分开来,而ycf1没有显示出区分能力,而所有三个高变标记的组合则将LW材料与其他品种区分开来。因此,基于完整叶绿体基因组序列的ML分析显示,整个叶绿体基因组与常规和高变标记相比,表现出更优的区分能力。完整的叶绿体基因组可以以高自举支持率(>80%)区分HB、LW、JZ和另外两个材料(QZ和LQ),尽管它在QZ和LQ之间显示出有限的分辨率。
3.5. 分子标记开发与序列水平验证
为了评估设计的引物对的扩增能力,在所有15份香椿材料中进行了PCR扩增。所有13对引物都成功产生了预期大小的清晰扩增子,表明目标叶绿体区域是可及的,并且可以在测试的种质中一致地扩增。
为了评估所开发分子标记的区分能力,对四个代表性位点(包括两个SSR位点和两个串联重复位点)进行了跨多个品种个体的Sanger测序。对于SSR标记,重复 motif(TTAGGA)n和(TCCTAA)n在品种间显示出一致的拷贝数变异。在LW品种中,所有三个测试个体在两个位点都表现出三个重复单元,而在所有其他检查的品种中仅检测到两个重复单元,证明了这些SSR标记的LW特异性。
对于串联重复标记,也观察到了 distinct 的品种特异性模式。串联重复序列TAAATTCTTTATTCAATTATAAAT在JZ品种的所有三个个体中检测到有两个重复单元,而在其他品种中未观察到重复单元。类似地,串联重复AATATAGAATAGGAA仅在JZ品种中有两个重复单元,并且在其余品种中缺失。这些序列水平的差异提供了直接证据,表明基于SSR和串联重复的标记都能有效区分近缘的香椿品种。
3.6. 候选标记区域的Read水平异质性
为了进一步评估上述候选叶绿体标记的个体内稳定性,我们进行了read水平的变异调用以检测潜在的低频异质性。在所有15份材料中,在几个候选标记区域检测到低频SNP,包括SSR位点和高变区。检测到的变异等位基因频率范围约为1.0%至2.6%,尽管测序深度 consistently 很高(3000–8000×)。这些变异位于标记区域内或SSR位点的±10 bp侧翼区域内。在任何材料中,没有变异的等位基因频率超过3%,并且没有一个改变相应标记位点的共有序列或重复结构。
4. 讨论
4.1. 香椿叶绿体基因组的结构保守性与种内变异
高等植物的叶绿体基因组通常以高度保守的结构和序列组成为特征。这些特征在同一属的不同物种中很明显,包括紫金牛属、葡萄属、乌头属、白头翁属,以及同一物种内的不同品种,如红椿、菊花、富士苹果和黄芩。这些植物的质体基因组也表现出稳定的四分体结构、一致的基因内容和顺序、保守的IR边界和统一的密码子使用。我们的比较分析支持这种普遍模式,揭示了15份香椿材料中高度保守的基因组结构、基因顺序、密码子使用、IR/SC连接点以及基因组大小的微小变异。然而,检测到了细微但信息丰富的种内差异,正如在其他物种中观察到的那样。因此,15份香椿材料的变异主要反映在SSR类型和计数、品种特异性重复 motif 的存在(包括JZ和LW材料中独特的SSR)以及长重复和串联重复的分布上。此外,Pi的滑动窗口分析揭示了几个高变区,特别是在SSC和LSC区域,包括ndhF、ycf1和trnT-trnF。在黄芩中报道了类似的模式,在其栽培品种中发现了matK-rps16和petA-psbJ等区域的序列分歧,以及SSR和长重复差异。同样,一个独特的六核苷酸SSR仅在红椿的一个变种中被鉴定出,而在评估的其他三个品种中则没有。因此,我们的研究结果表明,香椿叶绿体基因组中细微的内部变异,特别是在重复元件和局部分化热点内,构成了能够实现可靠品种鉴定的精确基因组资源,直接支持了我们研究的前提。
4.2. 重复元件在香椿品种鉴定中的效用
叶绿体SSR主要是通过DNA复制滑动产生的,即DNA聚合酶暂时解离并错误地重新结合,导致短重复 motif 的扩展或收缩。这种机制,加上质体基因组中有限的错误校正,导致了SSR的高度变异性,特别是在富含A/T的非编码区。在我们的研究中,SSR在15份香椿材料中的总计数显示出适度的变异,但鉴定出了八个品种特异性SSR,主要存在于JZ和LW材料中,证明了它们作为品种水平分子标记的潜力。SSR的高突变性、通过PCR的简单检测以及共显性遗传使其适用于品种鉴定。
相比之下,较长的串联重复是通过更复杂的机制产生的,包括不平等的同源重组、复制过程中的模板转换或DNA二级结构诱导的聚合酶停滞。虽然通常比SSR更保守,但我们在JZ材料中检测到两个独特的串联重复,这可能反映了谱系特异性的基因组事件,并可能提供额外的
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号