《PLOS Computational Biology》:Assessing the inference of single-cell phylogenies and population dynamics from CRISPR lineage recordings
编辑推荐:
多细胞生物体通过细胞反复分裂、分化与死亡,由单个细胞发育而来,这一过程可表示为单细胞系统发育树。遗传谱系追踪(genetic lineage tracing)能够通过在细胞群体生长并随时间变化时追踪单个细胞的祖先关系,来研究这一发育过程。然而,如何基于此类追踪
多细胞生物体通过细胞反复分裂、分化与死亡,由单个细胞发育而来,这一过程可表示为单细胞系统发育树。遗传谱系追踪(genetic lineage tracing)能够通过在细胞群体生长并随时间变化时追踪单个细胞的祖先关系,来研究这一发育过程。然而,如何基于此类追踪数据准确重建细胞系统发育关系,并定量估计相应的系统发育动力学(phylodynamics)参数——细胞分裂、分化与死亡速率——仍然具有挑战性,且亟需系统评估。研究人员采用模拟并基于贝叶斯框架,评估了利用随机编辑或序贯编辑的CRISPR谱系记录,对时间尺度化细胞系统发育树和系统发育动力学参数进行联合推断的表现。原则上,研究系统刻画了随记录器容量增加而带来的推断改进。结果观察到,与随机记录相比,序贯记录能够实现更准确的系统发育重建;但利用编辑顺序所包含的附加信息,并未带来系统发育动力学推断的实质性提升。总体而言,研究发现,在采用合适模型时,CRISPR谱系记录对细胞分裂速率携带强信号。然而,在系统发育动力学模型设定错误的情况下,即将经典无记忆(memoryless)出生-死亡过程拟合到同步细胞分裂数据时,研究检测到推断得到的细胞分裂与死亡速率存在偏倚。此外,对于细胞分化为不同类型的情景,研究证明,对稀疏终点测量数据进行贝叶斯系统发育动力学分析,能够按照谱系与时间解析细胞分化轨迹。在原型动力学条件下,研究在超过80%的模拟中恢复了细胞类型特异性的分裂速率、死亡速率以及细胞类型转换速率。总体上,这项模拟研究探索了利用当前先进的遗传谱系追踪数据,并结合系统发育学与系统发育动力学方法,能够从细胞发育过程中提取多少信息。
该研究发表于《PLOS Computational Biology》,围绕CRISPR谱系记录(CRISPR lineage recording)数据在单细胞发育研究中的信息提取能力展开系统评估,核心问题是:仅凭实验终点获得的单细胞条形码(barcode)信息,究竟能够在多大程度上可靠重建细胞间祖先关系,并进一步估计细胞群体的分裂、死亡和分化动力学参数。发育生物学长期关注多细胞生物如何由单一祖细胞经增殖与命运决定形成复杂组织,但现实实验中,细胞祖先历史通常不可直接观测。CRISPR-Cas系统的发展使得可遗传且不可逆的编辑事件能够沿细胞分裂过程累积,为回溯细胞谱系提供了新的分子记录方式。然而,这类记录器的有效信息量受编辑速率、可编辑位点数量、编辑结果多样性及记录器饱和等因素限制;同时,从单一时间点稀疏采样的数据中联合推断系统发育树和群体动力学参数,本身也存在统计与计算上的困难。因此,有必要通过具有真值对照的模拟研究,系统评价不同记录策略及统计模型的推断边界。
研究人员首先针对均一细胞群体与异质细胞群体建立多类时间尺度化系统发育树模型,并在树上模拟两类CRISPR记录:一类是非序贯记录,其多个靶位点相互独立、随机积累编辑;另一类是序贯记录,利用串联排列位点按顺序发生编辑。随后,研究在贝叶斯马尔可夫链蒙特卡罗(Markov chain Monte Carlo,MCMC)框架下,分别使用TiDeTree与SciPhy编辑模型,联合出生-死亡采样模型(birth-death sampling model)或多类型出生-死亡模型(multi-type birth-death model),对系统发育树、编辑速率以及细胞分裂、死亡和类型转换速率进行联合推断,并将估计结果与模拟真值比较。研究结论显示:CRISPR谱系记录确实携带较强的谱系拓扑与细胞分裂时序信号,尤其当记录器容量较高、条形码多样性充分时,系统发育重建显著改善;序贯记录在拓扑重建上优于非序贯记录,但对动力学参数估计的增益有限;细胞分裂速率通常可以稳健恢复,而死亡速率更易受模型设定错误影响;在引入终点细胞类型注释后,还可进一步恢复细胞类型特异性分裂、死亡与分化转换过程。该研究的重要意义在于,为CRISPR谱系追踪实验设计、模型选择及结果解释提供了定量依据,也说明了系统发育动力学方法在细胞发育与疾病演化研究中的应用潜力。
研究所采用的主要技术方法可概括如下:其一,基于同步分裂模型、恒定速率出生-死亡模型以及多类型出生-死亡模型模拟时间尺度化细胞系统发育树,样本为模拟获得的终点单细胞群体;其二,利用TiDeTree和SciPhy分别模拟并拟合非序贯与序贯CRISPR条形码演化;其三,在BEAST 2平台中实施贝叶斯MCMC联合推断,估计树拓扑、分支时间、编辑速率、细胞分裂/死亡速率及细胞类型转换速率;其四,采用加权Robinson-Foulds距离、最高后验密度区间(highest posterior density,HPD)覆盖率、相对偏倚、相对HPD宽度以及随机性状映射(stochastic mapping)等指标,系统评价推断准确性与不确定性。
在研究结果部分,论文按照多个问题依次展开。
2.1 The workflow
研究首先建立了统一工作流程:先从单一祖细胞出发生成时间尺度化系统发育树,树枝表示细胞、内部节点表示细胞分裂、末端表示采样细胞、枝长表示时间;再沿树模拟CRISPR编辑积累,生成非序贯或序贯条形码;之后在BEAST 2中进行贝叶斯联合推断;最后将推断树和参数与真实值比较。该流程为后续所有情景的定量比较奠定了基础,也明确将系统发育重建与群体动力学估计纳入同一分析框架。
2.2 Assessing the phylogenetic and phylodynamic signal in CRISPR lineage recordings - the baseline
在基线情景下,研究模拟了同步规则分裂、伴或不伴死亡及不完全采样,以及随机出生-死亡过程产生的细胞树,并分别赋予非序贯和序贯CRISPR记录。结果显示,编辑速率、树高和树长等参数在大多数模拟中可被良好恢复,覆盖率普遍超过80%。当真实树本身由出生-死亡过程生成时,细胞分裂速率与死亡速率均可较准确估计;当真实过程为同步细胞分裂而推断时仍套用无记忆出生-死亡模型时,便出现明显模型失配,尤其死亡速率估计偏倚更为显著。系统发育树重建方面,非序贯记录的加权Robinson-Foulds距离约为0.2,而序贯记录中位数约为0.1,说明后者的谱系重建更准确。研究据此指出,CRISPR记录对细胞分裂信息的承载能力较强,但对死亡事件的信号较弱,且更依赖模型正确性。
2.3 Varying experimental parameters
研究进一步改变编辑速率、可编辑位点数量和编辑时间窗,以评估实验设计参数如何影响推断。结果表明,编辑速率过低会使信息不足,过高则导致记录器过早饱和,二者都会降低树重建质量;对于非序贯记录,高编辑速率尤其容易造成多个细胞获得相同条形码,显著恶化推断。相比之下,序贯记录由于位点按顺序激活,在较高编辑速率下仍能持续积累有效信息。随着目标位点或记录带数量增加,系统发育树重建与动力学参数估计均持续改进。对编辑时间窗的分析则显示,即便只在实验中段或后段进行编辑,在某些条件下也能获得与全程编辑相近的重建效果。总体上,条形码多样性与推断性能密切相关:唯一条形码比例越高,树重建越准确,动力学参数区间越窄。
2.4 Evaluating sequential editing
为区分“序贯性”本身与“容量增加”对推断改进的相对贡献,研究在基本等容量条件下比较了20个非序贯位点与1条含20个序贯位点的记录系统,并校准编辑速率使总体编辑量与条形码多样性相当。结果显示,序贯编辑在系统发育树拓扑恢复上具有显著优势,即编辑发生顺序本身确实提供了额外谱系信息;但在分支时间分辨率以及细胞分裂、死亡速率估计方面并未带来实质改善。由此可见,序贯记录主要增强的是祖先关系解析,而非时间动力学参数恢复。
2.5 Filtering out noisy data
考虑到真实实验中常见靶位点沉默(target silencing)与测序缺失(dropout),研究在更大树上模拟含噪条形码,并采用实际研究中常见的过滤策略,仅保留具有较高完整性的细胞和位点。尽管过滤后平均仅保留约5个有效靶位点,且只分析较小细胞子集,细胞分裂速率、死亡速率、编辑速率、树高与树长等参数仍可在多数模拟中恢复。过滤后的树拓扑准确性略逊于无噪声且等位点数的情景,但在考虑枝长的指标下并未显著变差。研究认为,过滤在某种程度上引入了非均匀采样,使同步树在形态上更接近出生-死亡模型,从而部分缓解了模型失配。该结果说明,即使数据损失严重,群体动力学参数在一定条件下仍具有可估性,但代价是只能重建少量细胞的谱系。
2.6 Inferring cell differentiation dynamics
在多类型出生-死亡模型下,研究模拟了三种终末类型由祖细胞类型0产生的两类典型分化路径:终末型转换与链式转换,并为终点细胞附加类型标签。结果显示,无论是非序贯还是序贯记录,细胞类型特异性的分裂速率、死亡速率及类型转换速率的覆盖率均较高,多数参数的95% HPD区间明显较先验缩窄。对于祖先细胞类型推断,终末型转换树中的准确率高于链式转换树,但总体上超过80%的祖先类型可以被正确恢复。研究还通过随机性状映射重建了沿谱系树的祖先类型变化轨迹,说明即使只有终点测量,贝叶斯系统发育动力学仍可解析分化发生的时间与谱系路径。需要注意的是,当某一中间类型在终点样本中完全缺失时,对相应转换速率的估计会膨胀且不确定性增大,提示样本中必须包含足够代表性的细胞类型,才能稳定估计类型特异性动力学。
讨论部分的核心结论是:CRISPR谱系记录的推断表现首先取决于记录器容量与编辑参数是否匹配,容量越高、条形码越多样,系统发育与动力学信号越强;序贯记录总体优于非序贯记录,其优势主要体现在谱系拓扑恢复;细胞分裂速率能够在多种条件下较稳健地由谱系记录恢复,而死亡速率信号较弱、易受模型失配与有限样本影响;若结合终点细胞类型信息,则可进一步恢复分化轨迹及类型特异性动力学。论文同时指出,当前方法的主要限制包括:出生-死亡模型难以充分刻画同步细胞分裂等真实发育过程;复杂误差过程尚未被完整纳入推断模型;贝叶斯MCMC在多类型模型下计算开销很大,限制了其在超大规模单细胞数据中的应用。研究因此建议,在实际实验前应进行前向模拟,综合考虑目标细胞群生长动力学、编辑机制、终点采样和数据过滤步骤,以条形码多样性作为信息量代理,校准编辑速率与记录器容量,从而优化实验设计。
研究结论部分可译为:总之,基于CRISPR谱系记录开展系统发育学(phylogenetic)与系统发育动力学(phylodynamic)推断具有良好前景,但也面临多重挑战。除需扩展CRISPR编辑机制模型以实现更可靠的系统发育重建外,建立能够准确表征多种细胞群体动力学(如同步细胞分裂)的系统发育动力学模型,对于克服模型设定错误导致的持续偏倚至关重要。此外,运行时间长以及目前仅适用于小样本,是该推断框架的主要计算瓶颈,随着遗传谱系追踪技术与分析方法的发展,这些问题仍需解决。未来,将遗传谱系追踪数据与其他单细胞分子测量整合,有望建立更全面的细胞发育模型,并获得更深入的生物学认识。