《Frontiers in Plant Science》:Isofraxidin biosynthesis in Chloranthus: genomic insights into metabolic evolution of an early angiosperm phytoalexin
1 引言
金粟兰科(Chloranthaceae)作为早期分化的被子植物类群,因其兼具祖先性状而备受关注。其维管系统仅具梯状穿孔板,这一特征与古老的ANA级被子植物类群共享。金粟兰花部常缺少花被结构,与胡椒目成员及基部单子叶植物呈现显著趋同进化。古植物学证据表明,金粟兰科化石是早白垩世分布最广泛的早期被子植物化石类群之一,其全球分布(尤其是花粉化石)为了解早期被子植物的多样化模式和生物地理扩散提供了关键见解。
金粟兰科植物以其特有的代谢产物而具有重要药用价值,特别是多样的萜类化合物和香豆素衍生物。虽然萜类代谢在早期被子植物中研究相对深入,但香豆素生物合成仍不完全清楚且长期被忽视。这些植物化学物质不仅定义了该科独特的生物学特性,而且在植物防御机制中起关键作用。在病原体攻击、昆虫食草、营养缺乏和生长限制等环境胁迫下,金粟兰科植物表现出香豆素生物合成和区室化的上调,这是一种进化保守的保护策略。在这些次生代谢物中,异秦皮啶(7-羟基-6,8-二甲氧基香豆素)作为一种代表性的简单香豆素脱颖而出。作为生物活性成分,异秦皮啶通过调节关键炎症介质(核因子κB、肿瘤坏死因子-α和基质金属蛋白酶)表现出多效性药理活性,凸显了其在炎症调节方面的治疗潜力。
尽管异秦皮啶在植物抗逆性和生物活性中起关键作用,但其生物合成通路仍未完全解析。虽然植物中香豆素骨架的形成已较为明确,但异秦皮啶特异的 downstream 通路面临重大挑战。该通路需要细胞色素P450(CYP71家族)的区域特异性羟基化,随后通过O-甲基转移酶(OMT)进行甲氧基化。这些酶家族在植物基因组中包含数百个功能不同的成员,使得精确定位负责异秦皮啶独特6,8-二甲氧基取代模式的确切异构体变得困难。
2 结果
2.1 染色体水平基因组组装与注释
利用PacBio HiFi测序(122.62 Gb)结合Illumina短读长数据(227.40 Gb),研究组装了8.57 Gb的三倍体基因组,通过Hi-C支架将99%的序列锚定到45条染色体伪分子上。染色体组织通过细胞遗传学分析和K-mer分析得到验证,共同确认了3x = 45的三倍体核型。该组装实现了8.76 Mb的contig N50和94.35%的BUSCO完整性,与其他三倍体植物基因组(如栽培香蕉)相比显示出优异的连续性。整合注释结合转录组和同源性证据,识别出72,675个蛋白质编码基因(平均CDS长度1,154 bp),功能注释率为92.7%。比较基因组分析表明,金粟兰基因组的组装和注释质量相对于相关物种是稳健的。
2.2 转座元件积累与全基因组复制
转座元件(TE)和全基因组复制(WGD)事件的分析揭示了金粟兰基因组进化的重要驱动力。联合同源性和结构分析发现6,315.87 Mb的TEs占据了组装基因组的73.7%,超过了大多数被子植物以及银杏和松树的TE含量。长末端重复序列(LTR)占主导地位(基因组的63.54%),表明其TE清除机制缓慢,类似于松树,这贡献了其大基因组尺寸。
使用单倍体染色体代表的比较基因组分析通过4DTv和Ks分布分析检测到一次WGD事件。Ks峰值在1.1处,计算出的分化速率将该事件定年至126.7百万年前。与无油樟和木兰科的比较系统发育学证实了这一古多倍体事件是金粟兰科特有的。
2.3 系统发育重建
木兰类植物、单子叶植物和真双子叶植物之间的系统发育关系仍然是被子植物进化中未解决的问题。利用早期分化被子植物的基因组数据,本研究为这些关键的进化联系提供了更高的分辨率。综合取样涵盖了主要植物谱系的25个代表性物种。从全基因组比对中严格筛选出1,092个保守的低拷贝核基因(LCG),以重建具有稳健统计支持的最大似然系统发育树。
金粟兰与核心木兰类植物表现出强烈的系统发育亲缘关系,形成一个支持良好的群(BS=100),解析为真双子叶植物分支的姐妹群。这一拓扑结构与当前将木兰类植物定位为核心真双子叶植物祖先的并系群模型一致。系统子采样进一步揭示了跨分析框架的异常拓扑一致性。最后,基于1,092个LCG的溯祖物种树以高置信度划分了三个主要的被子植物谱系:单子叶植物、金粟兰+木兰类植物和真双子叶植物。
2.4 抗病相关基因家族的扩张
基因家族分析显示,在25个物种中聚类出48,843个基因家族,其中3,361个为共享家族。提取金粟兰与四种木兰类物种(胡椒、山鸡椒、望春玉兰和鳄梨)的基因组聚类结果,发现它们共享的基因家族数量为7,057个,这可能代表了金粟兰目及相关木兰类植物的核心基因家族。
比较基因组分析揭示了金粟兰基因家族的动态进化,识别出138个扩张家族(包含1,310个基因),包括与香豆素生物合成密切相关的香豆素合酶(COSY)家族,以及144个收缩家族。值得注意的是,与植物-病原体互作相关的基因被发现显著扩张和富集。KEGG植物-病原体互作通路整合了从病原体识别(PRR)、信号转导(MAPK、钙信号)、转录调控(WRKY、NPR)到防御执行(ROS、PR蛋白)的多层次基因网络。这些基因的协同作用帮助植物平衡防御与生长,并通过PTI和ETI机制抵抗病原体入侵。这些免疫相关位点的协同扩张暗示了金粟兰与其古老病原体之间的进化军备竞赛,这可能解释了金粟兰属能够成功适应广泛生态环境的原因。
2.5 异秦皮啶的生物合成
2.5.1 植物香豆素生物合成通路与通用框架
香豆素骨架来源于苯丙氨酸,后者经苯丙氨酸解氨酶(PAL)催化脱氨形成反式肉桂酸。该中间体随后由肉桂酸4-羟化酶(C4H, CYP73)在对位羟基化产生对香豆酸。羧酸随后由4-香豆酰辅酶A连接酶(4CL)激活生成4-香豆酰辅酶A。4-香豆酰辅酶A在C2'位的邻位羟基化由香豆酰辅酶A 2'-羟化酶(C2'H, CYP74)催化,生成不稳定的中间体2',4'-二羟基肉桂酰辅酶A。近期研究表明,属于BAHD酰基转移酶家族的香豆素合酶(COSY)促进了该中间体自发环化为伞形酮,伞形酮是香豆素衍生物的通用支架。
从伞形酮开始,香豆素生物合成分化为简单香豆素和复杂香豆素(吡喃香豆素和呋喃香豆素)。简单香豆素主要在C3–C8位进行取代和核心核上的官能团修饰。相比之下,复杂香豆素的生物合成始于伞形酮的异戊烯化。异戊烯基转移酶介导异戊烯基在C6或C8位的连接,分别产生6-异戊烯基伞形酮或8-异戊烯基伞形酮。6-取代衍生物随后由角型环化酶环化形成吡喃香豆素,而8-取代衍生物则经线型环化酶环化产生呋喃香豆素。
2.5.2 金粟兰代谢组学与已知通路的比对与差异
金粟兰代谢组全谱分析鉴定出49种不同的香豆素代谢物,数量上显著超过先前记录。在结构上,大多数是简单香豆素,如瑞香素、秦皮啶和东莨菪苷。此外,还鉴定出结构多样化的衍生物,包括Cleomiscosin A/C。关键的是,吡喃香豆素和呋喃香豆素亚类(伞形科和芸香科的特征)在该物种的所有部位几乎不存在。这种化学分类学差距意味着异戊烯化和脱水环化反应(分别由PT和DC/OC酶催化)的生物合成能力显著降低。研究提出,这些通路特异性酶的有限转录激活或催化受限的同源物导致向下游杂环香豆素生物合成的代谢通量可忽略不计。
2.5.3 整合转录组-代谢组学解析异秦皮啶生物合成通路
为了解析金粟兰中关键简单香豆素——异秦皮啶未被表征的生物合成通路,研究整合了转录组学和代谢组学方法。通过聚焦于伞形酮形成和下游修饰的基因挖掘,从9个核心酶家族(PAL、CYP73、4CL、 CYP74、COSY、CYP71、CCoAOMT、OMT)中识别出267个候选基因。值得注意的是,COSY家族表现出显著扩张(115个成员,而拟南芥为29个,无油樟为44个,P<0.05),而其他家族则显示出不同的进化模式:PAL(22)、CYP73(3)、4CL(56)、CYP74(9)、CYP71(15)、CCoAOMT(9)和OMT(38),表明这些家族在进化过程中为满足代谢需求采取了不同的基因复制策略。空间表达谱分析揭示了组织特异性模式:COSY成员在根、茎、叶和雄蕊中显示不同的表达,CYP71亚群在根(CYP71_5-10)、叶(CYP71_1-4)和雄蕊(CYP71_11-15)中具有特异性,而OMT_5–22和OMT_23–26分别在根和茎中优势表达。
UPLC-MS/MS分析验证了关键通路中间体的空间积累。PAL介导的苯丙氨酸向肉桂酸的转化在根组织中表现出峰值催化活性,与显著的底物积累相关。下游CYP73羟基化产生对香豆酸,其优先定位于叶、雄蕊和花轴。随后的CYP74催化产生2,4-二羟基肉桂酸,接着是COSY驱动的环化生成伞形酮。代谢组学分析显示,叶和雄蕊中的伞形酮水平是根的2倍,其生物合成主要由COSY_1–21和COSY_22–47簇驱动。整合转录组-代谢组学分析表明,COSY表达与伞形酮浓度之间存在强正相关性(r > 0.85),证实了它们在支架形成中的重要作用。
通过多组学整合解析了关键的下游步骤。CYP71_1-4(叶特异性,FPKM>1)催化伞形酮羟基化生成七叶亭。显著的是,雄蕊特异性的CYP71_11-15(FPKM>1)介导了七叶亭衍生中间体向秦皮乙素的转化,CYP71_12/13/15的表达与秦皮乙素积累强相关(r = 0.87–0.91)。同时,雄蕊中CCoAOMT的抑制(FPKM<1)将代谢流从木质素前体转向异秦皮啶生物合成。秦皮乙素甲基化为异秦皮啶的最终步骤归因于根/茎富集的OMT_5/6/8(FPKM>1),其表达与产物积累紧密相关(r = 0.83 – 0.89)。
总之,这些结果证明了一个区室化的生物合成通路,其中羟基化主要发生在光合(叶)和生殖(雄蕊)组织,而甲基化主要限于结构器官(根/茎)。这种空间分离最小化了代谢串扰,同时优化了资源分配。
3 讨论
草药基因组学是一个新兴的研究领域,通过基因组学方法研究药用植物的遗传和调控机制,以阐明其生物活性原理并推进分子育种。有价值天然产物生物合成通路的基因组解析为合成生物学驱动的化合物合成和规模化生产提供了关键见解。共表达网络分析和基因组挖掘正成为加速传统药用植物研究现代化不可或缺的策略。
香豆素及其相关基因的生物合成在植物中已独立进化多次。作为早期分化的被子植物,金粟兰积累了多样的简单香豆素,其中异秦皮啶——一种具有广泛临床应用和重要药物潜力的化合物——值得系统研究。通过整合多组学分析,本研究阐明了异秦皮啶生物合成的遗传基础,提供了对其代谢调控的首次全面理解。研究结果揭示了金粟兰植物次生代谢的显著复杂性和进化适应性。系统识别9个关键基因家族(267个候选基因)及其在代谢级联中的功能特化为香豆素调控提供了新视角。
近期研究确立了COSY编码的酶在上游通路步骤中对香豆素生物合成的催化必要性,修正了环化是自发的传统模型。因此,COSY基因拷贝数扩张可能增强了伞形酮的生产能力。值得注意的是,香豆素丰度在被子植物谱系中表现出显著差异,而COSY基因家族的扩增(为生物活性香豆素提供核心支架)是这种代谢多样化的关键驱动因素。
这种扩增在金粟兰中尤为显著。虽然拟南芥拥有29个、无油樟拥有44个COSY直系同源物,但金粟兰基因组显示出显著扩张,拥有115个成员——突出了剧烈的谱系特异性增殖。尽管金粟兰谱系经历了一次支系特异的WGD事件,但COSY的扩张更可能归因于串联重复或其他局部复制机制,而非WGD。这种基因家族大小的显著差异突显了植物进化过程中的关键扩张事件,驱动了功能多样化。这种基因组改变为代谢创新提供了原材料,使得新的性状(如增强的生物胁迫对策,例如病原体防御)成为可能,而环境压力则作为选择性过滤器固定了有利的变异。
对CYP71亚家族的分析揭示了其成员间的组织特异性功能分区。亚支CYP71_1–4在叶组织中高表达,催化伞形酮羟基化产生七叶亭。相反,异构体CYP71_11–15显示雄蕊特异性表达,并驱动东莨菪亭向秦皮乙素的转化。这种代谢模块化策略通过将潜在毒性中间体(如七叶亭)限制在特化组织中,有效降低了细胞毒性风险,同时通过空间区室化优化了代谢流。因此,防御化合物的生物合成实现了精确的时空调控。
基因家族功能分层同样值得注意。异秦皮啶生物合成的最后一步需要OMT进行甲基化。转录组学鉴定出OMT_5、OMT_6和OMT_8在根茎中特异性高表达(FPKM > 1),与异秦皮啶积累呈强正相关(r = 0.83–0.89, P < 0.05)。在38个筛选的OMT基因中,只有这三个核心成员与目标代谢物产生显著相关。这一发现表明OMT家族内部存在严格的时空和功能分层。核心异构体OMT_5/6/8在根茎中特异性主导异秦皮啶生物合成,而旁系同源物参与不同的通路——如木质素合成(桉树CCoAOMT同源物)或类黄酮修饰(柑橘CrcCCoAOMT7同源物)。
总之,本研究阐明了金粟兰中关键香豆素——异秦皮啶的生物合成通路,并证实了“一个基因家族,多种功能;一条代谢通路,多个基因”的范式。这种基因组可塑性驱动的代谢创新机制可能代表了一个关键的进化策略,促进了包括金粟兰科成员在内的早期被子植物在白垩纪复杂环境压力下的生态成功。研究进一步强调了香豆素生物合成通路中显示谱系特异性扩张或在相关组织中高表达的关键基因,可作为功能表征的主要候选者。未来的研究应利用CRISPR/Cas9介导的敲除、RNAi沉默或在植物模型或异源系统(如大肠杆菌或酵母)中的过表达技术,对COSY基因、CYP71亚家族成员和核心OMT基因进行功能验证。这些努力将有助于阐明它们在香豆素生物合成中的精确催化功能和调控作用。
4 材料与方法
4.1 材料与测序
从金粟兰个体(LYY202008)采集新鲜叶片。样品送诺禾致源(北京)进行DNA提取和测序。使用植物根尖检查染色体。DAPI染色后,在荧光显微镜(Leica DM2500)暗场下拍照。确定其核型为3X = 45。使用K-mer分析Illumina 150 bp双末端读长估计基因组大小和杂合度。使用jellyfish v.2.2.7生成K-mer深度频率分布。
使用DNAsecure Plant Kit(天根)从叶片中提取DNA。构建15 Kb环状共有序列(CCS)文库,并在PacBio Sequel II平台上测序。制备短读长基因组文库,使用Illumina HiSeq平台测序。处理幼叶样品,使用标准方案提取DNA,并构建350 bp Hi-C文库,在Illumina HiSeq仪器上测序。
收集正常生长条件下的根(R)、茎(S)、叶(L)、雄蕊(Sta)和花轴(FA)用于代谢组学检测和转录组测序。
4.2 基因组组装
使用hifiasm v.0.14快速构建122.62 Gb(7个cell)的Hifi读长。为了评估组装的准确性,使用BWA v.0.7.10将小片段文库的读长比对到组装基因组,并统计比对率、基因组覆盖度和深度分布。使用GC含量和测序覆盖度分析评估污染情况。应用CEGMA v.2.5和BUSCO v.3.0评估组装的完整性。
在Illumina HiSeq平台上获得Hi-C数据(510 Gb),使用ALLHIC进行contig聚类、排序和定向。主要使用3D-DNA和Juicer进行初步支架构建。获得初步染色体水平组装后,使用Hi-C互作图谱严格评估每条染色体的质量。基于以下标准识别错误组装或错误定向:染色体内互作强度的急剧不连续性或显著偏差,以及相邻支架间不连续或异常的互作模式。根据染色体互作强度在Juicebox v.1.11.08中手动校正可疑区域,随后通过重新检查Hi-C热图验证每次校正的有效性。这一迭代过程确保了校正方法的可重复性。仅需对少数异常区域进行微小调整。生成最终的三倍体染色体组装,包含全部45条染色体。
4.3 重复序列注释
采用同源性和从头预测策略识别转座元件(TE)。首先,使用RepeatMasker v.4.0.7和RepeatProteinMask基于RepBase核酸库和RepBase蛋白库生成同源性重复库。随后使用RepeatModeler v.1.0.5、RepeatScout、Piler和LTR_FINDER v.1.0.6进行从头预测。整合所有TE数据并去冗余,获得整合重复库,最后通过RepeatMasker进行注释。
4.4 蛋白质编码基因预测与功能注释
使用三种互补策略(从头预测、同源性预测和RNA-seq预测)注释金粟兰基因组的蛋白质编码基因。在重复屏蔽的基因组上运行Augustus v.3.0.2、Genscan v.1.0、Geneid、GlimmerHMM v.3.0.3和SNAP进行从头基因预测。对于同源性预测,使用四个物种(莼菜、山鸡椒、萍蓬草和罂粟)的推断蛋白质序列。使用GeneWise v.2.0.2进一步处理比对,以生成准确的外显子和内含子信息。对于转录组预测,使用cufflinks v.2.1.1和PASA 2.0.2预测和改进基因结构。使用EVidenceModeler(EVM)v.1.1.1合并所有预测,生成非冗余基因集,最终得到72,675个蛋白质编码基因。
通过在与SwissProt、Nr、Pfam、KEGG和InterPro蛋白质数据库中进行BLASTP搜索,对蛋白质编码基因进行功能注释。从InterPro条目和KEGG通路获取基因的GO术语。
4.5 基因家族构建
选择25个物种构建基因家族。仅保留编码区最长的转录本,通过all-vs-all blastp获得蛋白质序列间的相似性。然后使用OrthoMCL v.2.0.9(膨胀因子设为1.5)基于25个物种构建基因家族簇。使用CAFé v.4.2进行基因家族扩张和收缩分析。
4.6 系统发育分析
使用SonicParanoid v.1.0和OrthoMCL v.2.0.9识别25种种子植物的单拷贝基因(SCG)和低拷贝基因(LCG)。最终分别识别出1092、517、299和27个同源基因。使用MUSCLE v.3.8.31比对氨基酸序列。对于串联数据集,使用ModelFinder自动选择最佳替代模型。使用RaxML v.8.2.12从序列推断最大似然树,并使用500次bootstrap重复估计支持值。在基于溯祖方法的分析中,首先使用IQ-TREE v.1.6.9构建每个基因树,然后在Astral v.5.6.1中使用这些树以后验概率推断物种树。为了估算金粟兰、木兰类植物、单子叶植物和真双子叶植物的进化时间尺度,用两个完善的约束校准了一个松弛分子钟:被子植物与裸子植物的分化(337–289 Ma)以及无油樟与萍蓬草的分化(199–173 Ma)。使用PAML v.4.9中的MCMCTree程序对选定基因进行贝叶斯系统发育年龄分析和分支长度的近似似然计算。
4.7 全基因组复制鉴定
基于先前研究,选择金粟兰、无油樟、山鸡椒和台湾黄檗的四个基因组进行多倍体分析。对于基因组内或基因组间的蛋白质BLASTP,e值截止值为1×10-5。根据基因位置和BLASTP结果,使用McscanX v.2搜索共线性片段以确定同源基因对。使用MUSCLE v.3.8.31对蛋白质-基因对进行多序列比对。使用PAML v.4.9中实现的codeml方法估算每个同源基因对的KS和4DTv值。通过核函数分析获得值的分布,并通过核平滑密度函数将其建模为多个正态分布的混合。使用MATLAB中的高斯近似函数(CfTool)进行曲线的多峰拟合。
4.8 UPLC/QTRAP-MS代谢组学分析
将冻干组织(根、茎、叶、雄蕊、花轴;50 mg/样品)在30 Hz下粉碎1.5分钟(MM 400研磨器,Retsch),然后用1200 μL含内标的-20°C预冷70%甲醇提取。使用的内标为2-氯苯丙氨酸(纯度:98%,供应商:J&K Scientific,批号:LBCOR15,CAS:14091-11-3),浓度为1 mg/L(1 ppm)。每30分钟涡旋一次(6个循环,每次30秒)后,离心提取物(12,000 rpm, 3分钟),通过0.22 μm膜过滤,并储存于-80°C。色谱分离使用Agilent SB-C18柱(1.8 μm, 2.1×100 mm),流动相A(0.1%甲酸/水)和B(0.1%甲酸/乙腈),流速0.35 mL/min(40°C)。梯度程序为:0–9分钟(95%→5% A),9–10分钟(5% A),10-11.1分钟(5%→95% A),11.1–14分钟(95% A)。MS检测采用ExionLC? AD/UPLC-ESI-QTRAP系统,离子喷雾电压±5500/4500 V,源温度550°C,气体压力(GSI:50 psi, GSII:60 psi, CUR:25 psi),碰撞激活解离处于高模式。通过MRM定量代谢物,使用氮气作为碰撞气,优化去簇电压(DP)和碰撞能(CE)。
通过将实验谱图的精确质量、MS/MS碎片、同位素分布和保留时间(RT)与商业代谢物数据库(MetWare Database)进行匹配,使用智能MS/MS谱图匹配算法进行代谢物鉴定。前体离子和碎片离子的质量容差分别设置为20 ppm。
在MRM模式下进行相对定量时,第一级四极杆(Q1)选择目标前体离子,排除其他分子的离子以最小干扰。选定的前体离子然后在碰撞池中碎裂,第三级四极杆(Q3)过滤每个代谢物的特征产物离子。该特定产物离子的信号强度用于定量。数据采集后,积分所有代谢物的峰面积。使用MultiQuant软件(v 3.0.2)处理原始质谱数据,对不同样品中相同代谢物的峰进行比对和校正。随后根据各自的峰面积表示每种代谢物的相对含量。
4.9 异秦皮啶生物合成相关基因家族的鉴定
在鉴定参与异秦皮啶通路酶的基因家族时采用了综合方法。对于编码P450酶(包括CYP71、CYP73和CYP74)的基因,使用拟南芥的序列作为参考进行全基因组筛选,然后使用MAFFT进行序列比对,并使用IQ-TREE v.1.6.9(应用近似最大似然法)进行系统发育重建,以识别与AtCYP71、AtCYP73和AtCYP74聚类的候选序列。同时,对于PAL(PF00221)、COSY(PF02458)、CCoAOMT(PF01596)和OMT(PF00891),首先通过HMMER v3.0搜索Pfam域(E值截止值1e-15)识别初始候选