综述：建模干细胞分化相关过程——实验生物学家的实用概述

《FEBS Letters》：Modelling stem cell differentiation related processes—A practical overview for biologists

【字体：大中小】 时间：2026年07月03日 来源：FEBS Letters 3.1

编辑推荐：

　　干细胞分化是发育和再生医学的核心，但复杂的潜在过程阻碍了研究人员在实验中控制它。计算模型可以帮助形成假设并生成预测。有许多类型的计算模型可用于帮助理解干细胞分化相关过程，但对于实验生物学家来说，可能很难选择与其研究问题相匹配的建模方法，并且不知道需要什么数据才

干细胞分化是发育和再生医学的核心，但复杂的潜在过程阻碍了研究人员在实验中控制它。计算模型可以帮助形成假设并生成预测。有许多类型的计算模型可用于帮助理解干细胞分化相关过程，但对于实验生物学家来说，可能很难选择与其研究问题相匹配的建模方法，并且不知道需要什么数据才能利用该模型。本综述旨在为实验生物学家介绍各种建模类型，将它们与这些模型可以帮助回答的问题类型联系起来，并概述获得新见解所需的数据。综述讨论了机制动态模型，包括常微分方程(ODE)和抽象多尺度模型，以及数据驱动的深度学习(DL)方法。每种模型类别都介绍了模型所代表的内容、可以提供的见解、验证策略和局限性。通过这篇综述，我们希望更容易将建模纳入干细胞分化相关研究的实验工作流程中，以帮助实验并加速发现。

建模干细胞分化相关过程——实验生物学家的实用概述

摘要

缩略语

ABM：基于代理的模型；ANIMO：交互式网络分析建模；CPM：细胞Potts模型；CRISPR：成簇规律间隔短回文重复序列；DL：深度学习；FCS：荧光相关光谱；FRAP：光漂白后荧光恢复；FRET：F?rster共振能量转移；GRN：基因调控网络；IHH：印度刺猬因子；iPSC：诱导多能干细胞；KO：敲除；ODE：常微分方程；PDE：偏微分方程；PKN：先验知识网络；qPCR：定量聚合酶链反应；RNA-seq：RNA测序；scATAC-seq：单细胞核assay for transposase-accessible chromatin using sequencing；scRNA-seq：单细胞RNA测序；SHH：Sonic刺猬因子；TF：转录因子；VAE：变分自动编码器；WNT：Wingless/Integrated；β-Cat：β-连环蛋白。

常见术语

节点(Node)：模型中代表生物实体的变量（如基因、蛋白质或细胞状态）。边(Edge)：节点之间的关系，定义影响（如激活和转换）。拓扑(Topology)：包含所有节点和边的网络结构。参数(Parameters)：模拟开始时定义的数值，决定模型行为。拟合(Fitting)：调整参数使模拟重现实验数据。模拟(Simulation)：让模型随时间运行以观察起始条件下的结果。扰动(Perturbation)：改变模型中的特定节点以测试对模拟结果的影响。验证(Validation)：使用模型预测测试模型的有效性，采用未用于构建或拟合过程的数据。

研究问题的类别

包括机制解释、干预/调节、动态轨迹（细胞状态随时间转变）、群体水平模式形成和数据驱动预测（从组学数据预测细胞命运）。

数据的属性

深度（稀疏到密集）、时间（快照到时间分辨）、分辨率（批量到单细胞）、扰动（无到有）和空间背景（无到有）。

建模过程

建模由研究问题和可用数据驱动。计算模型可以辅助预测扰动下的细胞命运、从数据重建谱系轨迹、解释分化背后的机制以及预测分化过程中的组织组织。建模工具的选择取决于生物学家想要回答的问题，但用于构建模型的数据的属性严重决定了可以构建的模型类型。因此，在提出生物学研究问题并考虑可用工具后，有必要生成具有适合建模工具属性的数据。每个建模方法都有其自身的挑战和风险，一些常见的陷阱包括过拟合、不可识别的参数、模型组件可解释性差、建模者偏差和错误的拓扑。模型需要验证，通常应预留一些数据不用于构建模型，以便随后使用独立数据进行验证。验证也可能涉及测试未用作输入的已知效应，或直接进行湿实验测试预测。如果模型未能通过验证，可提供关于缺失信息、参数拟合不正确或系统未完全理解的宝贵见解，从而允许创建改进的模型。案例研究展示了研究人员如何通过实验和建模识别activin A信号适应的机制，比较受体降解模型和反馈模型，最终确定反馈模型能更好地再现动力学。

细胞分化的计算方法

综述重点介绍了几种方法：机制模型、多尺度模型和基于深度学习的方法。每种方法按以下问题描述：何时使用、从模型中获得什么、模型在生物学上代表什么、需要什么数据以及模型的局限性。通过一个假设案例研究说明：研究人员使用WNT信号化合物将iPSC分化为中胚层细胞，根据不同研究问题应用不同建模类别。

机制模型用于分化

常微分方程(ODE)特别适用于建模时间依赖过程，主要包括区室模型和信号网络模型。

区室ODE模型：将分化建模为状态转换

区室模型将分化解释为细胞类型之间的离散切换，每个区室描述处于特定状态的细胞数量。何时使用：适用于理解分化过程中出现的细胞状态及细胞在状态间移动的速率，评估扰动对命运决定的影响。模型见解：可进行参数敏感性分析，识别分化过程的“关键”组分，优化协议以提高目标细胞产量。数学抽象：区室代表细胞类型，细胞以一定概率或速率在状态间切换，不描述分子细节。数据需求：来自流式细胞术、时间分辨群体测量或不同扰动下的谱系比例。局限性：仅代表群体水平数据，无法确定基因或细胞内过程；参数可识别性问题常见。验证策略：比较预测的区室大小与实验测量，使用独立数据集验证，测试替代区室结构。案例研究：研究人员忘记添加WNT导致未知细胞类型出现，通过建立两个区室模型（有无WNT），假设去分化速率相同，模拟结果与观察一致，确认假设。

信号网络ODE模型：建模细胞内逻辑

信号网络模型明确表示基因和蛋白质，连接决定基因表达和蛋白质活性随时间变化。何时使用：适用于单一细胞动态系统中的因果细胞内决策逻辑和信号串扰问题。模型见解：预测扰动效应，识别有影响的节点，通过敏感性分析确定相互作用的重要性。数学抽象：基于信号网络，包括配体结合受体、细胞内信号通路、转录因子激活等。数据需求：需要模型拓扑（所有相互作用）和相互作用的强度和动力学。可以使用先验知识网络(PKN)或数据驱动网络。PKN可从数据库和文献构建，不需要精确的反应速率，可通过分子生物学和生物物理技术推断。数据驱动网络可从时间序列（单细胞）RNA-seq或多组学数据生成，但需注意RNA-seq不能完全捕获信号事件，多组学方法更有前景。局限性：无构建网络的黄金标准，PKN易受主观性和建模者偏差影响，数据驱动网络在数据噪声下不可靠，参数数量随基因增加而迅速增加导致不可识别性。验证策略：测试替代拓扑，进行敏感性分析，评估模型预测独立条件下的动力学，与扰动实验结果比较。案例研究：研究人员想添加WNT而不使iPSC分化为中胚层，通过建立信号网络ODE模型，基于公共数据库拓扑，从实验推断参数，识别出β-Cat是敲除的良好靶点，计算机敲除显示可防止分化。

抽象（半定量）机制建模

抽象或半定量机制模型描述生物组分如何相互影响，无需精确反应速率，使用简化的活性水平和定性反应速率。何时使用：与ODE模型类似，但允许参数不确定或缺失，或从半定量时间序列数据推断，保留事件相对时间和因果关系。模型见解：提供分化过程的机制见解，解释不同信号通路如何影响转录因子，区分瞬时、持续或延迟的激活，识别网络模体如反馈循环的作用。可进行系统扰动分析识别关键玩家，主要用于假设生成和实验优先级排序。数学抽象：不使用ODE，将生化浓度抽象为离散水平，如布尔网络（开/关）或ANIMO中的定性速度（非常慢、慢、中、快、非常快）。这些抽象基于实际生化反应的近似，允许高效模型分析和模型检查技术。数据需求：与ODE模型类似，但对精确参数值的依赖性较低，适用于实验数据有限但至少包含三个时间点时间序列的情况。局限性：不如ODE精确，无法期望模拟时间序列与实验数据紧密匹配，但可进行定性比较。验证策略：侧重于与生物现实的定性一致性，测试通路激活的正确响应、激活顺序和最终结果，通过改变初始状态和规则测试鲁棒性。案例研究：研究人员面临类似问题，但缺乏推断参数的实验数据，使用生物直觉分配快慢过程，模型结果与ODE方法一致，同样指出β-Cat敲除可防止分化。

多尺度模型：当空间和细胞-细胞相互作用重要时

干细胞在组织中的分化受细胞空间背景影响，需要结合不同尺度的模型。何时使用：当研究问题依赖于跨空间、时间或功能尺度相互作用的过程时，如连接细胞内调控到细胞行为和组织水平现象。模型见解：能够链接组织组织、空间信号、基因敲除、力学和力等因素，量化一个尺度上的变量对另一个尺度的影响，如短时间抑制信号通路对长期组织组织的影响。数学抽象：多尺度模型是涵盖多个尺度的总称，包括亚细胞尺度（蛋白质相互作用、信号转导）、细胞尺度（形状、运动、分裂）、中尺度（细胞-细胞相互作用）和组织尺度（形态素梯度、机械输入）。数据需求：通常源于链接单尺度模型，没有通用数据集，取决于系统特性。组织尺度的规则可从基本图像、活体成像和力推断技术获得。局限性：结合不同生物尺度，局限性取决于每个尺度的建模选择，参数集往往不准确，构建劳动密集，错误可能在错误原因下产生正确行为，易受建模者偏差影响。验证策略：分层验证，先单独验证单尺度模型，再比较多尺度模型与未使用的系统水平数据，如空间组织、组织大小和细胞类型分布，进行扰动实验和敏感性分析。案例研究：研究人员观察到3D球体中外层细胞分化更快，假设由于WNT渗透有限，建立多尺度模型，结合ODE信号模型和扩散规则，模拟显示外层细胞更早表达中胚层标记，支持假设。

深度学习和数据驱动的动态建模

随着单细胞组学数据增加，深度学习(DL)用于获取复杂数据的见解，如谱系轨迹重建、命运预测和推断调控动态。何时使用：涉及内在复杂的大规模数据时，可利用全数据集而不需抽象基因，桥接不同模态数据。模型见解：可作为虚拟分化实验，重建连续分化轨迹，揭示过渡状态和谱系分支，不限于预定义基因集，允许假设灵活性，估计变化方向和速度，预测未来细胞状态，提出因果驱动因素。数学抽象：一些DL模型（如变分自动编码器(VAE)和扩散模型）将分化视为细胞在学习到的低维状态空间中的移动，距离反映发育进展。数据需求：主要瓶颈是数据质量和覆盖范围，需要多个时间点的scRNA-seq测量，覆盖整个分化过程，理想情况下包括早期、中期和晚期，配对scATAC-seq或磷酸化蛋白质测量可改善模型。工具有scVI、Monocle3、PRESCIENT、scGen等。局限性：最大障碍是可解释性（“黑箱”问题），即使添加数据模态也不自动具有机制合理性，容易过拟合，泛化能力差。验证策略：通常将数据分为训练、验证和测试集，评估模型在分布外数据的表现，与湿实验验证比较。案例研究：研究人员进行2天iPSC到中胚层分化，对第0天和第2天细胞进行scRNA-seq，使用轨迹分析揭示四个簇，包括iPSC状态、中胚层状态、中间状态和脱靶状态，通过GRN推断确定关键调控基因，优化协议以防止脱靶分化。

选择建模方法

选择应基于研究问题和可用或可获取数据。表1总结了针对常见研究问题的建模策略，包括机制解释、干预/调节、动态轨迹、群体水平模式形成和预测映射。例如，机制解释可能需要信号网络和GRN的动态模型（ODE/抽象），空间组织需要多尺度模型，轨迹重建需要深度学习。表2列出了可用工具，如MATLAB/Python/Julia用于ODE，COPASI用于ODE，ANIMO用于定时自动机，Morpheus用于细胞Potts模型，FLAME用于基于代理的模型，Chaste用于顶点/力为基础，scVI、Monocle3、PRESCIENT、scVelo、scGEN、scGPT、Squidiff、Waddington-OT、DeepRiG、ANANSE、SCENIC+、DANSE等用于深度学习和GRN推断。在某些情况下，多种方法可解决同一问题，ODE模型适合需要包含已知相互作用和测试因果性的情况，而DL适合数据丰富但先验知识有限的情况，代价是降低可解释性。应仔细考虑是假设驱动还是数据驱动范式更适合。选择建模方法后，下一步应包括确定最适合具体用例的验证策略和风险缓解步骤。

结论和展望

干细胞分化过程复杂，仅凭实验难以解开。计算模型可以辅助机制解释，帮助形成和测试假设，并实现计算机实验以补充湿实验工作。许多建模框架存在，每个需要不同的数据、假设并产生不同的输出。为了使建模对实验生物学家更易访问，本综述强调了几种建模方法，并使用实际决策问题帮助决定哪种方法适合研究问题。特别是在当前生成大量数据变得更容易和更普遍的情况下，努力理解如何将测量转化为见解至关重要。所有计算方法都有其优点和局限性，理解它们是有效利用可用数据的关键。加强实验生物学家的建模理解有助于生成最有信息量的数据，并极大促进与计算合作者的有效沟通。这样，建模可以提供仅凭数据难以获得的新见解，加速实验和发现。自2002年“坏收音机”类比提出以来，计算方法已变得更加普遍，实验生物学家的计算素养近年来大大提高。在当前生物景观中，整合建模和湿实验工作有明确的机会。计算生物学家和湿实验生物学家之间的合作应从研究问题阶段开始，一直到结构化验证策略和针对性后续实验。这将减少对无信息试错的依赖，充分利用数据集，并加速干细胞分化研究的进展。

热点排行