编辑推荐:
在基因表达研究中,为解决从 mRNA 计数数据推断转录中限速步骤数量的难题,研究人员开展了关于随机基因表达模型的研究。结果表明稳态 mRNA 计数数据难以估计非活性基因状态数量,而诱导后的幂律行为可推断基因状态下限。这有助于理解转录调控机制。
在生命科学的微观世界里,基因表达就像一场精密而复杂的交响乐演奏会。每一个基因都是一位独特的 “演奏家”,按照特定的节奏和旋律进行 “表演”,而 mRNA 则是这场演出中的关键 “音符”。科学家们一直试图解读这场 “音乐会” 背后的奥秘,即基因表达的调控机制。然而,目前在这个领域却存在诸多问题。
从分子层面来看,虽然真核生物转录的大致过程已较为明确,包括染色质打开、转录因子和 RNA 聚合酶 II(RNAP)结合到启动子区域、形成封闭的转录起始前复合物(PIC)、启动子 DNA 解旋形成开放的 PIC 并开始新生 RNA 的延伸等步骤,但细胞群体中基因表达的高度异质性却难以理解。数学建模为解决这一难题提供了潜在途径,通过构建模型并将其与实验数据拟合,有望揭示基因表达的统计规律。
在众多数学模型中,N - 状态模型(G1→k1G2→k2G3→k3...→kN?2GN?1→kN?1GN→kNG1,GN→ρGN+M,M→d?)被广泛应用。其中,G1到GN?1为非活性状态,GN为活性状态,mRNA(M)只能从活性状态合成 。通过拟合模型输出与实验数据,可估计速率常数,并筛选出最能描述数据特征的模型。然而,确定转录中限速步骤的数量(即非活性基因状态的数量)却面临诸多挑战。常用方法,如直接或间接测量非活性状态停留时间分布、测量扰动后 mRNA 计数的时间依赖性分布等,存在技术复杂、对静态外源噪声敏感等问题,且目前尚不清楚这些方法在稳态条件下确定非活性基因状态数量的可靠性。
为了解决这些问题,来自英国爱丁堡大学(University of Edinburgh)的研究人员 Andrew G. Nicoll、Juraj Szavits - Nossan、Martin R. Evans 和 Ramon Grima 开展了深入研究。他们的研究成果发表在《Nature Communications》上,为理解基因表达调控机制提供了新的视角。
研究人员采用了多种技术方法。首先,通过模拟生成大量合成数据,模拟不同参数设置下的基因表达情况;其次,运用单分子荧光原位杂交(smFISH)和单细胞测序(scRNA - Seq)等实验技术获取实验数据,这些技术能够在单细胞水平对 mRNA 进行检测和分析;此外,还使用了数学推导和统计分析方法,从理论上推导模型的相关性质,并对实验数据进行拟合和参数估计。
研究结果如下:
- 稳态 mRNA 计数数据的局限性:稳态 mRNA 计数数据存在两个基本局限性。一方面,其分布仅依赖于ki/d和ρ/d等归一化速率参数,无法推断ki和ρ的绝对值,除非单独估计降解速率 d;另一方面,稳态分布对k1,k2,...,kN?1的排列不变,即无法区分不同的转录过程顺序。研究还发现,对于 N = 3、4、5 的 N - 状态模型,其稳态 mRNA 计数分布在多数情况下可由有效电报模型(2 - 状态模型)很好地拟合。通过生成大量 N - 状态模型的速率参数集,并将其与有效电报模型进行匹配,计算 Wasserstein 距离(WD)发现,即使是统计差异最大的分布,两者差异也不大。这表明从稳态 mRNA 计数分布难以可靠推断基因状态的实际数量。
- 诱导后短时间内的幂律行为:研究人员发现,在基因诱导后的短时间内,真核细胞中 mRNA 平均计数的增加遵循幂律规律,其指数等于从初始非活性状态到活性状态经过的状态数与转录后限速处理步骤数之和。从 N - 状态模型的化学主方程(CME)出发,运用微扰理论推导得出,在短时间极限下,平均 mRNA 计数<m(t)>与时间 t 的关系为<m(t)>=ρ(N?j+1)!∏i=jN?1kitN?j+1+O(tN?j+2) 。通过对不同细胞类型的数据进行分析,验证了该幂律行为的准确性。这一结果为估计基因状态数量提供了新的方法,且该方法不受静态外源噪声的影响。
- 幂律指数与基因状态数量的关系:通过模拟实验数据,研究人员进一步验证了幂律指数与基因状态数量的关系。对 N - 状态模型在不同参数设置下的平均 mRNA 计数进行模拟测量,并对数据进行线性回归分析,发现计算得到的幂律指数的最大值始终小于理论值N?j+1,但可作为基因状态数量 N 的下限估计。同时,研究还考虑了细胞数量有限、mRNA 检测效率不完美以及初始基因状态分布等因素对估计结果的影响,结果表明在一定条件下,这些因素对估计结果的影响较小。
- 在真核生物数据中的验证:研究人员分析了酵母和哺乳动物的实验数据,以验证预测的幂律行为。在酵母数据中,对渗透压应激反应相关基因 CTT1 和 STL1 进行研究,通过对核和细胞质 mRNA 的测量数据进行非线性回归拟合,发现 mRNA 动力学在转录起始后的短时间内确实遵循幂律规律。根据幂律指数估计,这两个基因至少存在 4 个基因状态,且核输出动力学符合一级过程。在哺乳动物数据中,对肿瘤坏死因子(TNF)诱导的炎症基因进行分析,发现剪接过程也符合一级过程,且某些基因的幂律指数暗示存在 3 个或更多基因状态。
研究结论和讨论部分指出,本研究表明稳态 mRNA 计数数据在大多数情况下不足以估计转录中的非活性状态数量;当电报模型与 N - 状态模型(N>2)的稳态 mRNA 分布相似时,两者速率参数存在简单关系;诱导后短时间内平均 mRNA 计数的幂律行为为估计基因状态数量提供了有效方法,且该方法对多种基因表达模型有效,不受速率参数值和静态外源噪声大小的影响。这些结果与其他研究方法的结论一致,表明真核生物基因的非活性状态数量可能大于 1。此外,该研究还指出,确定基因状态数量下限的方法具有实际应用价值,有助于快速估计转录起始中限速步骤的数量,通过不同扰动实验,有望为每个离散基因状态建立生物学解释。总之,该研究通过简单的数学工具从转录组数据中获得了重要信息,为深入理解转录调控机制提供了有力支持,推动了生命科学领域对基因表达调控的研究进展。