《FEBS Letters》:Modelling stem cell differentiation related processes—A practical overview for biologists
编辑推荐:
干细胞分化是发育和再生医学的核心,但复杂的潜在过程阻碍了研究人员在实验中控制它。计算模型可以帮助形成假设并生成预测。有许多类型的计算模型可用于帮助理解干细胞分化相关过程,但对于实验生物学家来说,可能很难选择与其研究问题相匹配的建模方法,并且不知道需要什么数据才
干细胞分化是发育和再生医学的核心,但复杂的潜在过程阻碍了研究人员在实验中控制它。计算模型可以帮助形成假设并生成预测。有许多类型的计算模型可用于帮助理解干细胞分化相关过程,但对于实验生物学家来说,可能很难选择与其研究问题相匹配的建模方法,并且不知道需要什么数据才能利用该模型。本综述旨在为实验生物学家介绍各种建模类型,将它们与这些模型可以帮助回答的问题类型联系起来,并概述获得新见解所需的数据。综述讨论了机制动态模型,包括常微分方程(ODE)和抽象多尺度模型,以及数据驱动的深度学习(DL)方法。每种模型类别都介绍了模型所代表的内容、可以提供的见解、验证策略和局限性。通过这篇综述,我们希望更容易将建模纳入干细胞分化相关研究的实验工作流程中,以帮助实验并加速发现。
建模干细胞分化相关过程——实验生物学家的实用概述
摘要
干细胞分化是发育和再生医学的核心,但复杂的潜在过程阻碍了研究人员在实验中控制它。计算模型可以帮助形成假设并生成预测。有许多类型的计算模型可用于帮助理解干细胞分化相关过程,但对于实验生物学家来说,可能很难选择与其研究问题相匹配的建模方法,并且不知道需要什么数据才能利用该模型。本综述旨在为实验生物学家介绍各种建模类型,将它们与这些模型可以帮助回答的问题类型联系起来,并概述获得新见解所需的数据。综述讨论了机制动态模型,包括常微分方程(ODE)和抽象多尺度模型,以及数据驱动的深度学习(DL)方法。每种模型类别都介绍了模型所代表的内容、可以提供的见解、验证策略和局限性。通过这篇综述,我们希望更容易将建模纳入干细胞分化相关研究的实验工作流程中,以帮助实验并加速发现。
缩略语
ABM:基于代理的模型;ANIMO:交互式网络分析建模;CPM:细胞Potts模型;CRISPR:成簇规律间隔短回文重复序列;DL:深度学习;FCS:荧光相关光谱;FRAP:光漂白后荧光恢复;FRET:F?rster共振能量转移;GRN:基因调控网络;IHH:印度刺猬因子;iPSC:诱导多能干细胞;KO:敲除;ODE:常微分方程;PDE:偏微分方程;PKN:先验知识网络;qPCR:定量聚合酶链反应;RNA-seq:RNA测序;scATAC-seq:单细胞核assay for transposase-accessible chromatin using sequencing;scRNA-seq:单细胞RNA测序;SHH:Sonic刺猬因子;TF:转录因子;VAE:变分自动编码器;WNT:Wingless/Integrated;β-Cat:β-连环蛋白。
常见术语
节点(Node):模型中代表生物实体的变量(如基因、蛋白质或细胞状态)。边(Edge):节点之间的关系,定义影响(如激活和转换)。拓扑(Topology):包含所有节点和边的网络结构。参数(Parameters):模拟开始时定义的数值,决定模型行为。拟合(Fitting):调整参数使模拟重现实验数据。模拟(Simulation):让模型随时间运行以观察起始条件下的结果。扰动(Perturbation):改变模型中的特定节点以测试对模拟结果的影响。验证(Validation):使用模型预测测试模型的有效性,采用未用于构建或拟合过程的数据。
研究问题的类别
包括机制解释、干预/调节、动态轨迹(细胞状态随时间转变)、群体水平模式形成和数据驱动预测(从组学数据预测细胞命运)。
数据的属性
深度(稀疏到密集)、时间(快照到时间分辨)、分辨率(批量到单细胞)、扰动(无到有)和空间背景(无到有)。
建模过程
建模由研究问题和可用数据驱动。计算模型可以辅助预测扰动下的细胞命运、从数据重建谱系轨迹、解释分化背后的机制以及预测分化过程中的组织组织。建模工具的选择取决于生物学家想要回答的问题,但用于构建模型的数据的属性严重决定了可以构建的模型类型。因此,在提出生物学研究问题并考虑可用工具后,有必要生成具有适合建模工具属性的数据。每个建模方法都有其自身的挑战和风险,一些常见的陷阱包括过拟合、不可识别的参数、模型组件可解释性差、建模者偏差和错误的拓扑。模型需要验证,通常应预留一些数据不用于构建模型,以便随后使用独立数据进行验证。验证也可能涉及测试未用作输入的已知效应,或直接进行湿实验测试预测。如果模型未能通过验证,可提供关于缺失信息、参数拟合不正确或系统未完全理解的宝贵见解,从而允许创建改进的模型。案例研究展示了研究人员如何通过实验和建模识别activin A信号适应的机制,比较受体降解模型和反馈模型,最终确定反馈模型能更好地再现动力学。
细胞分化的计算方法
综述重点介绍了几种方法:机制模型、多尺度模型和基于深度学习的方法。每种方法按以下问题描述:何时使用、从模型中获得什么、模型在生物学上代表什么、需要什么数据以及模型的局限性。通过一个假设案例研究说明:研究人员使用WNT信号化合物将iPSC分化为中胚层细胞,根据不同研究问题应用不同建模类别。
机制模型用于分化
常微分方程(ODE)特别适用于建模时间依赖过程,主要包括区室模型和信号网络模型。
区室ODE模型:将分化建模为状态转换
区室模型将分化解释为细胞类型之间的离散切换,每个区室描述处于特定状态的细胞数量。何时使用:适用于理解分化过程中出现的细胞状态及细胞在状态间移动的速率,评估扰动对命运决定的影响。模型见解:可进行参数敏感性分析,识别分化过程的“关键”组分,优化协议以提高目标细胞产量。数学抽象:区室代表细胞类型,细胞以一定概率或速率在状态间切换,不描述分子细节。数据需求:来自流式细胞术、时间分辨群体测量或不同扰动下的谱系比例。局限性:仅代表群体水平数据,无法确定基因或细胞内过程;参数可识别性问题常见。验证策略:比较预测的区室大小与实验测量,使用独立数据集验证,测试替代区室结构。案例研究:研究人员忘记添加WNT导致未知细胞类型出现,通过建立两个区室模型(有无WNT),假设去分化速率相同,模拟结果与观察一致,确认假设。
信号网络ODE模型:建模细胞内逻辑
信号网络模型明确表示基因和蛋白质,连接决定基因表达和蛋白质活性随时间变化。何时使用:适用于单一细胞动态系统中的因果细胞内决策逻辑和信号串扰问题。模型见解:预测扰动效应,识别有影响的节点,通过敏感性分析确定相互作用的重要性。数学抽象:基于信号网络,包括配体结合受体、细胞内信号通路、转录因子激活等。数据需求:需要模型拓扑(所有相互作用)和相互作用的强度和动力学。可以使用先验知识网络(PKN)或数据驱动网络。PKN可从数据库和文献构建,不需要精确的反应速率,可通过分子生物学和生物物理技术推断。数据驱动网络可从时间序列(单细胞)RNA-seq或多组学数据生成,但需注意RNA-seq不能完全捕获信号事件,多组学方法更有前景。局限性:无构建网络的黄金标准,PKN易受主观性和建模者偏差影响,数据驱动网络在数据噪声下不可靠,参数数量随基因增加而迅速增加导致不可识别性。验证策略:测试替代拓扑,进行敏感性分析,评估模型预测独立条件下的动力学,与扰动实验结果比较。案例研究:研究人员想添加WNT而不使iPSC分化为中胚层,通过建立信号网络ODE模型,基于公共数据库拓扑,从实验推断参数,识别出β-Cat是敲除的良好靶点,计算机敲除显示可防止分化。
抽象(半定量)机制建模
抽象或半定量机制模型描述生物组分如何相互影响,无需精确反应速率,使用简化的活性水平和定性反应速率。何时使用:与ODE模型类似,但允许参数不确定或缺失,或从半定量时间序列数据推断,保留事件相对时间和因果关系。模型见解:提供分化过程的机制见解,解释不同信号通路如何影响转录因子,区分瞬时、持续或延迟的激活,识别网络模体如反馈循环的作用。可进行系统扰动分析识别关键玩家,主要用于假设生成和实验优先级排序。数学抽象:不使用ODE,将生化浓度抽象为离散水平,如布尔网络(开/关)或ANIMO中的定性速度(非常慢、慢、中、快、非常快)。这些抽象基于实际生化反应的近似,允许高效模型分析和模型检查技术。数据需求:与ODE模型类似,但对精确参数值的依赖性较低,适用于实验数据有限但至少包含三个时间点时间序列的情况。局限性:不如ODE精确,无法期望模拟时间序列与实验数据紧密匹配,但可进行定性比较。验证策略:侧重于与生物现实的定性一致性,测试通路激活的正确响应、激活顺序和最终结果,通过改变初始状态和规则测试鲁棒性。案例研究:研究人员面临类似问题,但缺乏推断参数的实验数据,使用生物直觉分配快慢过程,模型结果与ODE方法一致,同样指出β-Cat敲除可防止分化。
多尺度模型:当空间和细胞-细胞相互作用重要时
干细胞在组织中的分化受细胞空间背景影响,需要结合不同尺度的模型。何时使用:当研究问题依赖于跨空间、时间或功能尺度相互作用的过程时,如连接细胞内调控到细胞行为和组织水平现象。模型见解:能够链接组织组织、空间信号、基因敲除、力学和力等因素,量化一个尺度上的变量对另一个尺度的影响,如短时间抑制信号通路对长期组织组织的影响。数学抽象:多尺度模型是涵盖多个尺度的总称,包括亚细胞尺度(蛋白质相互作用、信号转导)、细胞尺度(形状、运动、分裂)、中尺度(细胞-细胞相互作用)和组织尺度(形态素梯度、机械输入)。数据需求:通常源于链接单尺度模型,没有通用数据集,取决于系统特性。组织尺度的规则可从基本图像、活体成像和力推断技术获得。局限性:结合不同生物尺度,局限性取决于每个尺度的建模选择,参数集往往不准确,构建劳动密集,错误可能在错误原因下产生正确行为,易受建模者偏差影响。验证策略:分层验证,先单独验证单尺度模型,再比较多尺度模型与未使用的系统水平数据,如空间组织、组织大小和细胞类型分布,进行扰动实验和敏感性分析。案例研究:研究人员观察到3D球体中外层细胞分化更快,假设由于WNT渗透有限,建立多尺度模型,结合ODE信号模型和扩散规则,模拟显示外层细胞更早表达中胚层标记,支持假设。
深度学习和数据驱动的动态建模
随着单细胞组学数据增加,深度学习(DL)用于获取复杂数据的见解,如谱系轨迹重建、命运预测和推断调控动态。何时使用:涉及内在复杂的大规模数据时,可利用全数据集而不需抽象基因,桥接不同模态数据。模型见解:可作为虚拟分化实验,重建连续分化轨迹,揭示过渡状态和谱系分支,不限于预定义基因集,允许假设灵活性,估计变化方向和速度,预测未来细胞状态,提出因果驱动因素。数学抽象:一些DL模型(如变分自动编码器(VAE)和扩散模型)将分化视为细胞在学习到的低维状态空间中的移动,距离反映发育进展。数据需求:主要瓶颈是数据质量和覆盖范围,需要多个时间点的scRNA-seq测量,覆盖整个分化过程,理想情况下包括早期、中期和晚期,配对scATAC-seq或磷酸化蛋白质测量可改善模型。工具有scVI、Monocle3、PRESCIENT、scGen等。局限性:最大障碍是可解释性(“黑箱”问题),即使添加数据模态也不自动具有机制合理性,容易过拟合,泛化能力差。验证策略:通常将数据分为训练、验证和测试集,评估模型在分布外数据的表现,与湿实验验证比较。案例研究:研究人员进行2天iPSC到中胚层分化,对第0天和第2天细胞进行scRNA-seq,使用轨迹分析揭示四个簇,包括iPSC状态、中胚层状态、中间状态和脱靶状态,通过GRN推断确定关键调控基因,优化协议以防止脱靶分化。
选择建模方法
选择应基于研究问题和可用或可获取数据。表1总结了针对常见研究问题的建模策略,包括机制解释、干预/调节、动态轨迹、群体水平模式形成和预测映射。例如,机制解释可能需要信号网络和GRN的动态模型(ODE/抽象),空间组织需要多尺度模型,轨迹重建需要深度学习。表2列出了可用工具,如MATLAB/Python/Julia用于ODE,COPASI用于ODE,ANIMO用于定时自动机,Morpheus用于细胞Potts模型,FLAME用于基于代理的模型,Chaste用于顶点/力为基础,scVI、Monocle3、PRESCIENT、scVelo、scGEN、scGPT、Squidiff、Waddington-OT、DeepRiG、ANANSE、SCENIC+、DANSE等用于深度学习和GRN推断。在某些情况下,多种方法可解决同一问题,ODE模型适合需要包含已知相互作用和测试因果性的情况,而DL适合数据丰富但先验知识有限的情况,代价是降低可解释性。应仔细考虑是假设驱动还是数据驱动范式更适合。选择建模方法后,下一步应包括确定最适合具体用例的验证策略和风险缓解步骤。
结论和展望
干细胞分化过程复杂,仅凭实验难以解开。计算模型可以辅助机制解释,帮助形成和测试假设,并实现计算机实验以补充湿实验工作。许多建模框架存在,每个需要不同的数据、假设并产生不同的输出。为了使建模对实验生物学家更易访问,本综述强调了几种建模方法,并使用实际决策问题帮助决定哪种方法适合研究问题。特别是在当前生成大量数据变得更容易和更普遍的情况下,努力理解如何将测量转化为见解至关重要。所有计算方法都有其优点和局限性,理解它们是有效利用可用数据的关键。加强实验生物学家的建模理解有助于生成最有信息量的数据,并极大促进与计算合作者的有效沟通。这样,建模可以提供仅凭数据难以获得的新见解,加速实验和发现。自2002年“坏收音机”类比提出以来,计算方法已变得更加普遍,实验生物学家的计算素养近年来大大提高。在当前生物景观中,整合建模和湿实验工作有明确的机会。计算生物学家和湿实验生物学家之间的合作应从研究问题阶段开始,一直到结构化验证策略和针对性后续实验。这将减少对无信息试错的依赖,充分利用数据集,并加速干细胞分化研究的进展。