综述:AI驱动的虚拟细胞模型在临床前研究中的应用:技术路径、验证机制与临床转化潜力

《npj Digital Medicine》:AI-driven virtual cell models in preclinical research: technical pathways, validation mechanisms, and clinical translation potential

【字体: 时间:2025年12月12日 来源:npj Digital Medicine 15.1

编辑推荐:

  本综述系统阐述了人工智能(AI)技术在构建虚拟细胞模型中的前沿进展。文章详细梳理了其核心技术路径,包括多模态数据整合、深度生成模型、图神经网络(GNN)和物理信息神经网络(PINN),并构建了从计算评估到实验验证(如CRISPR、类器官)的闭环验证机制。作者强调了虚拟细胞在个性化药物筛选、疾病建模及减少动物实验(New Approach Methodologies, NAMs)方面的巨大潜力,同时深入探讨了其在临床转化过程中面临的监管挑战、数据隐私及模型可解释性(Explainable AI, XAI)等关键问题。

  

引言

人工智能(AI)驱动的虚拟细胞模型正为生命科学研究带来范式转变,它通过整合多模态组学数据(如单细胞转录组学、空间转录组学、蛋白质组学)与先进算法,实现对细胞功能状态、信号网络及其在扰动下动态变化的高精度模拟。与传统的计算细胞模型相比,AI驱动的虚拟细胞能够从大规模生物数据中学习潜在模式,构建预测性的细胞状态空间。尽管文献中存在“虚拟细胞”、“数字细胞”和“数字孪生”等术语混用,但本综述统一采用“虚拟细胞”作为该领域的整合性标签。其兴起得益于单细胞RNA测序(scRNA-seq)、空间转录组学(ST)、蛋白质组学等高通量组学技术的快速发展,以及深度生成模型、图神经网络(GNN)、物理信息神经网络(PINN)等新型AI架构的引入。

技术路径

构建高精度的虚拟细胞模型面临整合异质性生物模态数据的主要挑战。深度生成模型和图神经网络在模拟单细胞状态和预测药物反应方面展现出强大潜力,而物理信息神经网络则能增强模型的可解释性和生物学合理性。
多模态数据整合
scRNA-seq提供了单细胞分辨率的基因表达信息,但丢失了空间背景;空间转录组学(ST)保留了空间结构,但在分辨率、通量和基因覆盖度上存在局限。AI驱动的跨模态融合方法,如SpatialScope利用深度生成模型将高维scRNA-seq数据投影到ST坐标中以提升分辨率,VAE(变分自编码器)框架如scVI和totalVI整合多批次单细胞数据并融合转录组与蛋白质组进行联合去噪分析。领域自适应方法(如scAdapt)通过对抗训练对齐ST和scRNA-seq的数据分布,提高了空间解卷积的准确性。大规模公共数据库(如TCGA、HPA、GEO)为模型训练提供了关键数据,但需使用ComBat、Harmony等方法校正批次效应。
组学基础模型与跨层次迁移
在数千万个单细胞上训练的虚拟细胞基础模型(如GeneFormer、scFoundation)在细胞类型注释和基因功能推断方面表现出色。针对复杂扰动的模型(如GEARS、State模型)在不同细胞类型间展现出可测量的泛化能力。通过跨尺度知识迁移,将基因/细胞水平学习的能力迁移到患者水平是关键任务,这需要明确模拟组织微环境、药代动力学(ADME)等系统约束。例如,CODE-AE将药物反应预测从细胞系扩展到患者肿瘤转录组,scDEAL整合群体水平和单细胞数据以改进个体化药物敏感性预测,CSG2A通过条件特异性基因和基因间注意力机制,将扰动知识从基因水平迁移到细胞和患者的药物反应预测中。
深度生成模型
深度生成模型是构建预测性和生成性细胞状态空间的核心。除了拟合高维数据分布,它们还能在潜在空间中生成药物扰动或基因编辑下的合成表达谱,用于虚拟实验。例如,图结构的VAE-GAN模型UNAGI捕获了特发性肺纤维化中的单细胞动态,并预测了硝苯地平的潜在抗纤维化活性,该预测在患者肺组织和蛋白质组学中得到了验证。流匹配(Flow Matching)和扩散模型(Diffusion Models)定义了生成建模的新范式,scDiffusion结合扩散动力学与预训练基础模型,能够高保真地生成单细胞转录组。然而,当前深度学习方法总体上并未大幅超越简单线性基线,而知识图谱引导的框架(如GEARS)在预测多基因扰动的转录反应方面报告了约40%的准确率提升。建立标准化的实验验证管道应成为该领域的优先事项。
图神经网络
细胞通过信号通路、细胞间通讯网络和空间邻近性相互影响。图神经网络(GNN)天然适用于单细胞组学中的细胞关系建模。通过将每个细胞视为一个节点,GNN迭代聚合邻域信息以捕获上下文依赖关系。scGNN将scRNA-seq嵌入图中并应用多层图卷积网络(GCN)进行特征聚合,在细胞类型识别、插补和轨迹推断方面优于t-SNE/UMAP。对于多模态融合,PINNACLE通过图注意力整合scRNA-seq和蛋白质-蛋白质相互作用网络,能更好地检测稀有亚群和调控模式。GNN也扩展到药物反应预测,DrugCell-GNN统一了细胞转录组、药物分子图和已知靶点网络,以预测敏感性和协同作用。随着空间转录组学的兴起,SpaGCN将空间邻接性与表达矩阵耦合,解析细胞类型和组织结构,在肿瘤微环境异质性分析中表现出色。
物理信息神经网络
尽管深度学习模型在虚拟细胞模拟中展现出强大的数据拟合和生成能力,但大多数是缺乏已知生物定律明确表达和约束的“黑箱”模型。物理信息神经网络(PINN)的核心思想是在模型训练过程中融入已知的生物物理定律、动力学方程或约束,以确保预测结果具有生物学合理性。这种方法结合了理论模型和数据驱动的深度网络,平衡了灵活性和可解释性。在药物代谢和毒理学模拟中,虚拟细胞基于 assays(VCBA)平台结合细胞器水平动力学模型(如线粒体膜电位变化、活性氧物种产生)和剂量-时间积分模型,模拟药物暴露下肝细胞和心肌细胞的动态响应。这些模型在预测药物性肝损伤(DILI)和心脏毒性方面与部分体外实验数据和临床不良事件报告高度一致。混合约束方法是当前趋势,例如将代谢通路的通量平衡分析(FBA)模型与神经网络结合,可以在保持代谢通量守恒的同时提高对环境扰动响应的预测准确性。然而,构建PINN仍面临挑战,其预测改进依赖于生物物理知识的完备性和动力学参数的识别,而非硬件扩展;不完整的定律和参数差距构成了硬性限制。
平台与工具箱概览
虚拟细胞及细胞尺度建模平台现已形成一个紧凑的技术生态,涵盖分子网络、多细胞系统和器官级生理学。这些平台可根据其核心建模目标和方法学基础大致分组。例如,VCell(Virtual Cell)为细胞生物学提供了一个统一环境,支持空间分辨和非空间、确定性和随机性建模;COPASI(Complex Pathway Simulator)专注于基于ODE/SDE的生化网络建模和参数估计;PhysiCell强调3D组织尺度的基于代理的建模(ABM),特别适用于模拟肿瘤微环境;CompuCell3D实现了细胞Potts/GGH多尺度平台,耦合了反应-扩散和力学过程。新兴的AI驱动平台,如DeepCell和CellPose提供高精度的细胞图像分割和分析,而NVIDIA Modulus则为物理约束的神经网络提供了框架。

验证机制

虚拟细胞模型的性能验证可分为计算评估和实验验证两大方面,形成一个从计算评估到实验确证的闭环架构,通过迭代循环加速转化,同时为模型在不同情境下的鲁棒性和可移植性积累分层证据。
计算评估
计算评估主要关注模型对现有数据的拟合及其预测未知场景的能力。常见的定量指标包括:(1)重建误差和分布一致性:测量生成数据与训练数据在高维空间中的距离、统计分布差异,并通过t-SNE等降维方法比较其聚类结构。(2)预测准确性与稳定性:针对外推场景,评估模型预测与实际结果的吻合度。(3)模型复杂性与泛化能力:涉及统计模型参数、计算时间,并通过交叉验证等方法评估模型适应新数据的能力。不确定性量化(如蒙特卡洛dropout、模型集成)增强了结论的可解释性和鲁棒性。由于单细胞实验的破坏性,评估应转向群体分布水平,通过比较扰动模拟细胞群与实验观察到的细胞群的统计分布(如Wasserstein距离、Kullback-Leibler散度)来量化一致性。
实验验证
经过计算评估的模型需要通过生物学实验进行验证,以确认其预测是否反映真实的生物现象。在基因功能预测方面,CRISPR/Cas9等基因编辑技术用于通过体外或体内验证模型预测的关键靶点。在药物反应预测方面,通过体外细胞实验或类器官模型验证虚拟细胞模型的预测。例如,如果模型提示某候选化合物可能诱导肝细胞脂肪变性或其他毒性反应,可在小鼠模型中验证其毒理学指标。随着新型体外模型的发展,更贴近体内环境的实验系统(如类器官、器官芯片)也被用于验证虚拟细胞的预测。这些3D模型在细胞组成、组织结构和功能表现等多个层面高度复现原生组织微环境,有望与虚拟细胞深度融合,加速药物从虚拟筛选到临床试验的转化进程。
计算评估与实验验证的闭环整合
闭环架构包含计算内循环、实验中循环和转化外循环,将方法学评估与应用级验证联系起来。计算内循环中,严格的数据分区、批次协调和预分析质量控制是前提,量化扰动场景下的分布一致性并表征预测不确定性。实验中循环利用近生理系统(如类器官、器官芯片平台)对模型声称的功能终点进行针对性测试。转化外循环中,跨平台复制和前瞻性数据集构成主要场景,通过综合证据评判部署就绪度。三环耦合确保了分布水平的统计可重复性,同时交叉验证功能证据和转化可行性。

应用场景

虚拟细胞模型在药物筛选、机制推断、数字孪生和多平台互操作性等方面的应用正在稳步扩展,为精准医学开辟了新途径。
虚拟细胞赋能的精准筛选与机制推断
虚拟细胞模型可协助推进和优化药物筛选流程。在靶点发现阶段,虚拟细胞可模拟基因敲除或过表达,预测下游分子网络和表型变化,以推断潜在治疗靶点及其作用机制。在先导化合物筛选中,虚拟细胞模型可用于大量候选化合物的计算机筛选,预测其纠正病理细胞状态的能力并评估其毒副作用风险。在机制推断方面,虚拟细胞模型可深入分析药物-细胞相互作用的动态过程,并用于假设检验。研究人员可将新的调控因子或通路假设引入模型,测试其是否能复现观察到的现象。
数字孪生与虚拟细胞的协同
“数字孪生”概念的引入为虚拟细胞模型的应用提供了新的机遇。通过将虚拟细胞模型整合到数字孪生框架中,可以实现从分子、细胞水平到整个生物体的多尺度、全面模拟。在罕见病研究中,通过结合患者特异性干细胞衍生的虚拟模型与患者表型数据,可以模拟个性化药物干预的效果。这种策略允许在临床试验前进行大规模虚拟筛选高效、低毒的候选化合物,并显示出在靶点发现等过程中部分替代动物实验的潜力。数字孪生与虚拟细胞的结合也为疾病预测和监测提供了新方法。通过持续输入患者的生物标志物数据,虚拟细胞模型可以模拟疾病进展中的细胞演化,为医生提供关于疾病进程和结果的预测。
边界设定与互补性
尽管虚拟细胞模型能力强大,但它们并非在所有场景下都能完全替代传统方法。因此,界定其应用边界并发挥其互补作用至关重要。在涉及复杂多细胞行为的研究中,虚拟细胞目前侧重于分子和细胞内过程,对于涉及组织形态变化的现象,传统的多细胞建模或实验方法仍然不可或缺。在模型可解释性方面,直接基于已知人类定律的物理模型和基于规则的模型通常更易被研究人员接受,而深度学习驱动的虚拟细胞虽然提供准确预测,但可能难以提供演绎性的机制解释。因此,在需要明确机制理解的研究中,虚拟细胞可作为探索工具,而最终的机制阐明应结合传统实验和分析模型。

临床转化、伦理与合规

虚拟细胞模型从理论构建到临床使用的安全转化已成为决定性转折点。这一轨迹不仅受技术能力制约,还受监管架构、伦理保障、法律问责和信任建立机制的共同影响。
监管趋势
随着非动物测试方法的快速发展,AI驱动的虚拟细胞模型已逐渐进入监管机构的讨论范围。2022年,美国国会通过了《FDA现代化法案2.0》,明确表示动物测试数据不再是新药临床试验申请(IND)的强制性要求,允许使用人源化细胞模型、类器官、器官芯片系统以及人工智能/机器学习(AI/ML)模型作为替代。这为虚拟细胞在毒理学和药理学评估中的合规应用开辟了潜在路径。2025年,美国FDA发布了其首份关于AI开发的指南草案,提出了一个基于风险的模型可信度评估框架。在欧洲,欧洲化学品管理局(ECHA)和欧盟REACH法规近年来也加强了对非动物测试方法的采纳。总体而言,全球监管趋势谨慎支持AI驱动的替代方法,一方面认可其在加速药物开发和减少动物使用方面的潜力,另一方面通过立法和指南确保其在决策中的可靠性和透明度。
监管与实施挑战
尽管政策环境逐渐宽松,但在当前监管体系下,虚拟细胞模型在完全替代传统体内外实验方面仍面临重大挑战。美国FDA在IND审查过程中仍要求提交足够的体外和/或体内验证数据,AI模型目前被视为补充证据而非唯一依据。研究团队在数据来源、模型架构、参数设置和验证流程上的差异,以及缺乏统一的第三方基准测试平台,限制了模型结果的可比性和可重复性。目前,监管机构尚未建立针对基于AI的生物模型的明确审查指南,项目通常需进行个案审查,申请人难以预测所需的验证水平。此外,监管机构的人员也面临挑战,审查复杂的虚拟细胞模型通常需要计算生物学、机器学习和疾病生物学领域的跨学科专家,而许多监管机构目前缺乏足够的此类人力资源。
数据隐私与安全合规
虚拟细胞模型的构建和训练依赖于常包含敏感患者信息的大规模生物医学数据集。如果处理不当,此类数据可能导致个人隐私泄露并引发伦理问题。许多国家和地区已颁布关于健康数据使用的法律。开发虚拟细胞模型时必须在数据收集和处理过程中确保合法合规,并需要采取技术措施(如差分隐私、联邦学习)来保障数据安全和隐私。网络安全也是重要考量,如果虚拟细胞模型作为云服务提供给医疗机构,其依赖的数据库和计算基础设施可能成为攻击目标。
知识产权与责任
AI模型生成产出的知识产权归属目前缺乏统一的法律定义。在虚拟细胞模型的商业化过程中,数据提供者、模型开发者和最终用户之间的权益边界尚不清晰。当模型预测被用于支持关键研发或临床决策,且错误预测导致不良后果时,责任应由哪方承担以及商业利益分配纠纷变得有争议。监管机构和法律界应尽早介入,建立针对AI模型应用的责任认定框架和保险机制,明确各方的权利和责任,降低采用新技术的法律风险。
算法公平性与可解释性
虚拟细胞模型的公平性和透明度直接影响其在临床环境中的采纳。如果训练数据存在种族或其他因素相关的偏差,模型可能放大这些不公。将可解释人工智能(XAI)方法(如SHAP值分析)整合到虚拟细胞模型中至关重要,这些方法可以量化模型输出对个体输入特征的依赖性,从而阐明模型决策背后的原理。在模型开发中引入公平性约束,在部署中增强可解释性分析,将显著增强虚拟细胞模型的可信度。

未来发展与展望

随着监管-伦理-合规对齐的实现,虚拟细胞发展进入新阶段:术语统一/标准化为基础;界定技术瓶颈;展望跨学科、多尺度整合;建立开放科学、国际合作平台以加速创新。
术语统一与标准化
目前,“虚拟细胞”、“数字细胞”和“数字孪生”等术语在学术界和工业界的使用并不一致。这种术语重叠不仅使跨学科交流复杂化,还可能给监管和审查过程带来模糊性。国际标准化组织(ISO)已开始推动数字孪生领域术语和定义的统一,但在生命科学领域,迫切需要跨国学术组织和监管机构牵头制定虚拟细胞的标准化词汇和分类框架。标准化努力应超越命名法,扩展到模型描述语言(如SBML、CellML)、数据格式和验证指标。
技术瓶颈与挑战
虚拟细胞模型有限的可解释性是其获得监管和临床采纳的主要瓶颈。作为黑箱模型,它们往往无法提供明确的生物学因果解释,削弱了临床医生和监管专家对其预测的信任。开发一个分级的模型可信度框架是一个有前景的途径,即根据训练数据量、验证严谨性等因素对预测置信度进行分层,并将每个可信度层级与不同应用场景所需的验证强度对齐。
跨学科、多尺度整合
展望未来,虚拟细胞将与类器官、器官芯片平台、数字孪生等前沿技术深度融合,实现从分子、细胞、组织、器官到整个生物体的多尺度、统一建模。这种多尺度整合有望更系统地预测药物反应和疾病进展,从而增强虚拟细胞在精准医疗中的作用。同时,新兴的生成式人工智能和大规模多模态模型将为虚拟细胞提供更强的泛化和推理能力。
国际合作与开放科学
为加速虚拟细胞技术的迭代发展和临床转化,应建立国际协作和开放科学平台。此类平台可实现大规模多模态组学数据集的共享、标准化模型格式的采用以及开源工具的传播,从而促进统一的模型性能评估标准和清晰的监管采纳路径。跨国合作不仅能扩大数据多样性、减少模型偏差,还能促进各国监管机构之间的相互认可与协调。开放协作必须同时解决知识产权和数据主权相关的挑战。
展望
虚拟细胞模型有望从临床前研究的辅助工具演变为药物评估框架的核心组成部分。其模拟范围将超越当前的细胞内过程,扩展到更高的组织层次,从而实现对复杂生理和病理生理过程的更完整描绘。建立国际公认的基准数据集和定量指标将允许对不同模型的预测性能和可信度进行客观比较。同时,可解释AI方法将被整合到虚拟细胞模型的开发流程中,以端到端的方式记录和评估模型决策的证据基础,提高预测的可追溯性及其临床可接受性。随着透明度的提高和验证案例的积累,临床和监管对这些模型的信心预计将逐步增强。展望未来,虚拟细胞技术有望在药物发现、疾病建模和个性化医疗中发挥核心作用,实现从理论创新到临床转化的闭环。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号