《Cell》:Evolutionary transcriptomics unveils rapid changes of gene expression patterns in flowering plants
编辑推荐:
为揭示开花植物快速多样化的分子机制,研究者通过构建7种被子植物跨越1.6亿年的器官转录组图谱,发现其基因表达模式尤其是环境响应相关基因的表达演化速率显著高于哺乳动物。该研究为理解植物适应性进化与生态优势形成提供了关键转录组学资源,成果发表于《Cell》。
在生命演化的长河中,被子植物(开花植物)以其惊人的物种多样性(超过30万种)占据了陆地生态系统的绝对主导地位,而哺乳动物仅有约6649个物种。这一鲜明的对比引出了一个深远的科学问题:为何被子植物能在相对较短的地质时间内爆发式地分化?传统的观点认为,基因编码序列的变异是驱动表型创新和物种形成的主要动力。然而,对灵长类等哺乳动物的比较基因组学研究揭示,亲缘关系相近的物种尽管共享大量蛋白质编码基因,其形态却差异显著,这表明基因序列的变化仅能部分解释表型的多样性。越来越多的证据指出,基因在时空维度上的表达变化对表型演化具有重要贡献,这方面的研究在哺乳动物中已较为深入。鉴于被子植物与哺乳动物在多样化速率上存在的巨大差异,研究者推测,基因表达水平的演化速率在这两个类群乃至界别(植物界与动物界)之间可能存在根本性不同。
为了验证这一假说,由剑桥大学Sainsbury实验室的Christoph Schuster和加州理工学院的Elliot M. Meyerowitz等领衔的国际研究团队,在《Cell》杂志上发表了一项开创性研究。他们系统性地生成了涵盖1.6亿年演化历史的7种代表性被子植物(包括拟南芥、琴叶拟南芥、红色荠菜、盐芥、Tarenaya hassleriana、截形苜蓿和二穗短柄草)的八个器官的高通量全转录组测序(RNA-seq)数据,构建了名为“DevSeq”的基因表达图谱。通过与已发表的哺乳动物器官转录组数据进行比较分析,团队深入探究了开花植物编码和非编码基因表达的演化动态,揭示了其独特的快速演化模式,特别是与环境响应相关的基因,为理解被子植物的生态成功提供了新的分子视角。
研究人员开展此项研究主要运用了几个关键技术方法:首先,他们利用核糖体RNA去除的链特异性总RNA测序(RNA-seq)技术,对七种开花植物的根、下胚轴、叶、营养顶端、花序顶端、花、心皮和雄蕊等八个器官以及成熟花粉进行了转录组分析,并引入ERCC RNA Spike-In对照来设定表达检测阈值。其次,基于蛋白质序列相似性,通过BLASTP最佳互惠比对鉴定了跨所有物种的7,003个蛋白质编码基因的1-1正交群(orthologs),作为跨物种比较的核心基因集。第三,研究采用方差稳定变换(Variance Stabilizing Transformation, VST)和转录本每百万(Transcripts Per Million, TPM)等多种方法对表达数据进行标准化处理,以确保结果的可靠性。第四,为了量化表达演化速率,研究计算了物种间的Pearson距离,并利用Ornstein-Uhlenbeck(OU)模型和负指数增长模型进行非线性回归拟合,以斜率值作为表达演化速率的度量。最后,研究还通过主成分分析(PCA)、系统发育树构建(Neighbour-joining法)以及基因本体(GO)功能富集分析等生物信息学方法,深入挖掘了基因表达演化的模式和功能关联。
研究结果
1. 被子植物器官转录组概览与基因表达特征
研究首先成功构建了包含303个文库的DevSeq基因表达图谱。分析显示,不同植物器官中表达的蛋白质编码基因和非编码RNA(包括顺式自然反义转录本cis-NATs和长基因间非编码RNA lincRNAs)数量相似,但花粉由于其细胞类型稀少,检测到的转录本数量显著较少。在拟南芥的详细发育阶段分析中,大多数蛋白质编码基因在根尖、阶段12的雄蕊和成熟种子中表达强度最高,而lncRNAs则倾向于在阶段12的雄蕊中高表达。研究还发现,高度保守的蛋白质编码基因(如存在至少1.6亿年的核心正交群基因)其最大表达强度高于年轻基因,这与在脊椎动物和酵母中的观察一致,表明表达强度与蛋白质序列演化速率呈负相关。此外,与早期研究基于平行标记测序和微阵列数据的发现不同,本研究观察到大多数cis-NATs与其对应的正义蛋白质编码基因的表达谱呈正相关,而非拮抗关系。
2. 被子植物基因表达水平的快速演化
层次聚类分析显示,在基于7,003个核心正交群基因表达谱的比较中,亲缘关系较远的被子植物(如T. hassleriana, M. truncatula, B. distachyon)的同种器官之间的基因表达模式比不同物种间被认为是同源器官的表达模式更为相似,即样本按物种而非器官聚类。这与哺乳动物研究中观察到的器官主导的聚类模式(即不同物种的同一器官样本聚集在一起)形成鲜明对比。为确保可比性,研究者重新分析了已发表的哺乳动物数据,在排除表达特征相似的器官(如哺乳动物的小脑、被子植物的顶端组织和花)后,两类数据集器官间的表达距离分布变得相似,但远缘被子植物仍呈现物种主导的聚类。主成分分析(PCA)进一步证实,在十字花科四个物种内,表达数据能按器官分离,但在包含所有七个被子植物的全数据集中,物种间的距离与器官间的距离量级相当,系统发育上最远的物种明显分离。通过计算拟南芥与其他物种同源器官间的Pearson相关性,发现器官转录组在十字花科家族内保持相对保守,但在与演化较远物种的比较中迅速分化。为了直接量化表达演化速率,研究计算了基于OU模型的表达距离,并比较了回归拟合的平均斜率值。结果显示,被子植物器官的表达演化斜率值显著高于哺乳动物器官,证实了基因表达水平在两类群中以不同速率演化的初始假说。系统发育树分析还表明,不同器官的表达演化速率存在差异,分生组织器官(营养和花序顶端、心皮)和叶的枝长最短(演化速率低),而雄蕊和花粉的枝长最长(演化速率最高)。对于lncRNAs,由于其序列保守性极低(仅发现8个跨所有七物种的核心正交群非编码转录本),分析限于十字花科内共享的较年轻lncRNAs(n=307),其表达保守性远低于蛋白质编码基因,且表达系统发育树的枝长约为蛋白质编码基因的两倍,表明非编码基因表达水平变化迅速。
3. 功能相关基因群的表达演化
研究进一步探讨了功能相关基因集的表达演化稳定性。通过将基因按表达强度分位数分析发现,表达量最低和最高的基因群其表达分化速率显著低于其他群,这些基因主要富集于代谢过程。更重要的是,通过匹配表达水平后的对照分析发现,参与响应内源性和外部刺激(如生物/非生物胁迫)的基因表现出高于对照的表达分化速率,而参与核心细胞过程、代谢和发育过程的基因则表达演化较为稳定。使用变异系数(Coefficient of Variation, CV)作为第二项指标进行验证,得到了高度一致的结果:绝大多数调控代谢、发育和细胞过程的基因被归类为演化稳定的,而响应非生物、生物、外部和内源刺激的基因则主要被归类为易变的。
结论与意义
本研究通过大规模的进化转录组学分析,揭示了被子植物基因表达模式,特别是那些响应环境变化的基因,以远超哺乳动物的速率快速演化。这一发现为理解“达尔文的‘可恶之谜’”——即被子植物为何能如此迅速地实现物种多样化和生态主导——提供了关键的分子机制解释。作为固着生物和外温动物,开花植物必须持续调整自身以适应环境以维持最佳生长。本研究发现功能与环境响应密切相关的基因具有最高的表达演化速率,这可能是植物快速适应性进化和物种形成的重要推动力。研究还指出,被子植物历史上的两次多样化爆发(白垩纪晚期和新生代晚期)与全球气候变化事件在时间上吻合,未来通过更密集的物种采样和针对特定谱系环境响应的直接研究,有望正式将这些地质事件与基因表达演化的特定速率联系起来。理解生态与进化动力学之间的相互关系,最终将有助于改进对植物生物多样性的有效保护,这对于人类的长期生存至关重要。该研究不仅揭示了动植物界基因表达演化的差异,还为开展跨界的转录组进化比较研究提供了全面的资源。