综述:AI驱动的可编程虚拟人助力人类生理导向的药物发现
【字体:
大
中
小
】
时间:2025年10月10日
来源:Drug Discovery Today 7.5
编辑推荐:
本综述系统阐述了人工智能(AI)驱动的可编程虚拟人(Programmable Virtual Human, PVH)在药物发现领域的范式革新。作者指出传统靶向药物发现(target-based drug discovery)和表型筛选(phenotype-based screening)存在临床转化鸿沟,而PVH通过整合多尺度生理模型、单细胞/空间多组学(single-cell/spatial multi-omics)与AI技术,实现对新化合物临床效价和毒性的端到端(end-to-end)预测,为早期药物研发提供革命性路径。
程序化虚拟人:人类生理导向药物发现的新范式
人工智能(AI)在图像生成、自然语言处理和结构生物学领域的成功,激发了其在药物研发中的应用热情。然而,当前大多数AI驱动的药物发现方法仍局限于传统“一药一靶”范式,或仅对现有实验进行数字化模拟,未能真正预测新化合物在人体内的临床效果。复杂疾病治疗的低成功率源于疾病的多基因特性及靶点生物学功能的不完全认知。多器官锁定状态模型(multiorgan locked-state model)强调疾病涉及多器官系统的协同功能障碍,而流形医学(manifold medicine)等新框架需在高维生物空间中导航以寻找有效疗法。
表型药物发现虽重新引起关注,但其局限性显著:疾病模型难以准确模拟人类疾病状态,体外药代动力学(pharmacokinetics, PK)和药效学(pharmacodynamics, PD)与体内作用存在显著差异,且分子靶点与机制常不明确。Bender等人指出,无论是靶向还是表型筛选,均存在从分子优化到临床疗效的转化鸿沟。回顾性分析显示,从基因组学、组合库、DNA编码库(DEL)到高内涵筛选的技术进步,并未显著提升复杂疾病药物研发的成功率。若不能解决疾病复杂性和转化鸿沟问题,AI在现有药物发现流程中的局部成功可能仅导致“更快、更便宜的失败”。
理想情况下,药物应通过直接优化其在人体内的临床效果来筛选或设计,但早期直接人体实验不伦理,计算建模成为唯一可行途径。药理学数字孪生(pharmacology digital twins)作为人体的虚拟复制体,被提出用于模拟药物在体内的作用,但其依赖临床数据或机制知识,无法可靠预测新化合物的临床结局。因此,需要一种新型可编程虚拟人(PVH),以在缺乏全面疾病病因理解的条件下,预测未知分子的生理效应并实现逆向药物设计。
可编程虚拟人助力人类生理导向药物发现
PVH旨在实现人类生理导向的药物发现新范式,克服现有研发流程的局限。其核心是通过计算平台整合过程、数据和方法,直接优化药物候选物在患者中的治疗效价和安全性,桥接从靶点识别、先导化合物优化、临床前动物研究到临床试验的转化鸿沟。与传统线性流程不同,生理导向发现允许以“提示”方式生成分子,将患者疾病状态逆转为健康状态,类似ChatGPT根据文本生成图像。
为实现这一目标,所需数据需表征人类生理并提供药物作用的机制理解。化学蛋白质组学数据可提供蛋白靶点的生理浓度信息,从而在细胞背景下预测化学物的靶点结合(target engagement);化学扰动多组学数据支持化学诱导分子表型变化的预测建模;多模态生物标志物数据促进分子特征与临床观察的关联。Wu等人提出,需跨分子模态(DNA、RNA、蛋白质、代谢物)、生物层级(分子、细胞、组织、器官、人体、群体)和物种整合异质多组学与真实世界数据。
尽管技术进步,主流计算工具仍未能连接早期药物发现与后期开发。多组学数据多用于靶点识别、表型读取或精准医疗生物标志物,但少有方法能利用其作为中间特征建立化学-靶点相互作用与患者药物效应间的因果联系。基于结构的药物设计(如AlphaFold3)未考虑细胞背景下的靶点结合和全基因组脱靶效应;基于生理的药动学(PBPK)模型和数字孪生依赖临床前或临床数据,早期常不可用。PVH通过统一数据与流程孤岛,模拟新化合物的PBPK和PD,在单细胞水平映射分子表型响应,建模组织器官间细胞互作,并将药物诱导分子表型连接到 organism-level 诊断与治疗生物标志物,最终预测患者安全性与有效性。同时,PVH整合数据驱动建模与机制方法(数学建模、生物物理、知识工程),以应对数据稀缺和域转移挑战。
开发可编程虚拟人的机遇
PVH的成功取决于两个关键因素:准确捕捉人类生理系统分子组分及其互作的数据,以及整合异质、噪声、稀疏和高维数据以进行可靠可解释预测的先进建模技术。深度学习具备利用标记与未标记多模态数据、端到端优化临床结局、融合先验科学知识的独特能力,恰是构建PVH所需。
PVH的核心任务之一是预测新分子的PK/PD。PBPK建模与定量系统药理学(QSP)已成为药物开发和监管决策的强大工具,但其基于机制模型微分方程,预测新分子生理浓度和效应的能力有限。机器学习的应用增强其预测能力,化学基础模型(chemical foundation models)预测PK相关分子特性,物理信息神经网络(PINNs)通过将物理定律融入神经网络,提高数据效率、泛化性和可解释性。
确定分子细胞浓度后,关键问题在于其与细胞组分(DNA、RNA、蛋白质等)的相互作用。预测全基因组蛋白-化学互作的结合姿态、热力学、动力学和功能选择性至关重要。蛋白质结构预测的进展推动使用大语言模型和扩散模型预测蛋白-小分子复合物,以及将物理原理融入机器学习。半监督学习、元学习、迁移学习和对比学习等技术增强全基因组蛋白-化学互作预测。配体结合动力学(ligand binding kinetics)比结合亲和力更关联药物效价和毒性,但机器学习预测因数据稀缺而挑战。分子动力学(MD)模拟受长时间尺度限制,机器学习力场(machine-learned force fields)和构象采样可能实现更高效准确的动力学预测。
预测配体结合的功能选择性(激动剂、部分激动剂、拮抗剂等)和偏置信号(biased signaling)仍是模拟药物作用的缺失环节。对GPCR等重要靶点,整合机器学习与MD模拟及化学诱导组学图谱,是 promising 方向。
PVH需准确捕捉分子扰动下细胞状态的变化 across 多样遗传和环境背景。单细胞组学技术使细胞状态详细表征成为可能,包括基因组学、表观基因组学、转录组学、蛋白质组学(含翻译后修饰)、代谢组学、脂质组学、糖组学、微生物组学、形态学等。系统生物学与机器学习在识别表型分子驱动、重建基因调控网络、映射定向蛋白-蛋白互作网络、构建基因组尺度代谢网络、揭示生物过程时序动态和识别疾病生物标志物方面取得显著进展。
单组学数据仅提供细胞功能的部分洞察,需整合多组学数据跨生物层级(DNA→RNA→蛋白质→代谢物→细胞表型)。多模态机器学习是实现此整合的强大工具,深度学习允许使用未标记数据开发DNA、RNA和蛋白质的基础模型,融合多数据模态到统一表示空间,并模拟跨生物层级的生物信息流。生物学启发的端到端深度学习框架对基因型-环境-表型关系预测具重大潜力。
人体由多样细胞类型层次组织成组织、器官和系统,细胞通过化学信号通信。功能障碍可相互影响,如肠道微生物组影响中枢神经系统,高血压或心脏病影响肾功能,慢性肾病导致心血管并发症。空间组学技术允许表征器官组、细胞组和全基因组细胞过程,多器官多细胞疾病模型和深度学习阐明微生物组-人类互作的分子基础,凸显多尺度方法对理解治疗复杂疾病的重要性。
扰动功能基因组学和图像分析技术(如perturb-seq、表观基因组编辑、drug-seq、细胞绘画(cell paintings)以及人类微生理系统(MPS))的发展,使PVH成为可能。这些技术系统改变特定基因或分子通路以观察表型变化, sufficient 扰动数据使逆向工程人类生理复杂性成为可能。
AI创新方法预测和建模细胞对扰动的响应。ChemCPA使用编码器-解码器架构与对抗训练转移 bulk RNA-seq 数据到单细胞背景;GEARS采用图神经网络(GNN)预测多基因扰动的转录响应;MultiDCP整合多组学数据预测剂量特异性药物响应(细胞活力和转录组);PDGraphe使用因果启发的神经网络预测特定表型的遗传扰动;最近研究通过结合细胞行为本体与单细胞/空间组数据 via 基于代理的模型(ABMs)扩展数字孪生开发。
尽管扰动功能基因组学和MPS数据对PVH开发 invaluable,但其非直接来自患者,即使最先进模型(如器官芯片)也无法完全复制人类生理。因此,将疾病模型知识转化到人类系统至关重要。AI、系统生物学和生物物理的整合提供重大潜力:准确PBPK建模桥接体外/动物模型与人类间的PK差异;多组学分析提供 unbiased 全面表型读值,含靶点可转移性、药物作用模式和PK信息;基础模型、对比学习、迁移学习和其他赋能生成式AI的技术,基于疾病模型预测临床药物响应显示 promising 结果。PVH开发将极大受益于对改进疾病模型、高通量组学分析和数据高效AI技术的重大投资。
开发可编程虚拟人的路线图
尽管快速增加的组学数据和改进的疾病模型促进PVH开发,但疾病模型与人类间的鸿沟将始终存在,新分子实体的真实世界人类数据稀缺或完全不可用。因此,新未见案例(如化学物、未充分研究蛋白或患者)可能显著不同于训练数据,导致域外(OOD)场景。药物发现中化学物、生物分子和表型的OOD空间巨大,对开发泛化、可信和可解释PVH构成重大挑战。
传统机器学习技术无法处理小数据或OOD案例。尽管生物实体基础模型和合成数据可能缓解小数据和OOD问题,但在数据高度 biased、零样本设置或回答“what-if”问题时问题持续。此外,量化新案例预测不确定性对药物发现等高风险领域至关重要。现有不确定性量化统计框架通常假设数据遵循独立同分布(IID)模式,但此假设在OOD场景失效。模型可解释性对PVH vital,当前最先进解释方法依赖将输入特征映射到输出标签,但在OOD案例中“标签”可能未观察(如新癌症细胞类型),使现有方法对解释OOD预测可能不可靠。
因果表示学习(causal representation learning)为构建在OOD数据下可靠执行的模型提供基础。传统机器学习模型学习仅在训练分布中成立的伪相关,而因果表示学习聚焦解耦跨环境或分布保持不变的真实因果因子。通过学习这些因果因子,模型变得更鲁棒并更好泛化到新未见分布。因果表示学习对开发可解释机器学习技术也 essential,可外推到OOD案例。
个体预测的不确定性量化对成本风险敏感应用(如药物发现) critical。新不确定性量化方法需(i)改进PVH多模态嵌入空间的度量、采样和聚类;(ii)整合OOD检测和不确定性量化统计框架(如 conformal prediction);(iii)区分偶然不确定性(数据噪声)和认知不确定性(模型不完美)。多模态模型OOD结合亲和力预测的不确定性量化研究代表此方向努力。
机制数学建模作为 promising 技术潜力应对机器学习挑战。例如,约束代谢网络建模能直接预测 organismal 表型(如 diverse 条件下的生长速率)。与“黑盒”机器学习模型不同,机制模型明确表示系统内过程和互作,提供对系统 governing 底层原理的洞察。因此,机制模型可利用现有知识进行预测,即使在数据稀缺或难获取 situation。此类模型 exhibit 更大泛化性,跨不同场景执行良好。机制模型的透明度促进预测解释和理解影响 outcome 的因素,对PVH关键应用 crucial 优势。此外,机制模型无缝整合先验知识到建模过程,增强预测准确性和相关性。
尽管机制数学建模有其优势,但与机器学习相比具劣势和局限。机制模型通常基于现有知识和假设设计,可能无法捕捉和表示超出假定机制的新或意外数据模式。此外,复杂模型常需充分表示生物系统复杂性以进行可靠预测,但求解机制模型衍生的复杂数学方程计算 demanding,阻碍其在PVH全人模型中的实际应用。复杂模型的参数化 pose 另一挑战,参数常需从数据估计,引入不确定性和潜在不准确性。为使机制模型数学易处理,常依赖真实世界系统的简化和近似,可能导致不准确性,尤其处理高度复杂或非线性系统时。
最近努力整合数学建模与机器学习预测细胞表型。一方面,利用生物信息数据结构(如基因组尺度代谢模型) holds 重大潜力增强AI驱动表型预测模型的预测能力并提供 meso-phenotype 尺度因果机制洞察。另一方面,扩散模型和PINN等新深度学习技术 promise 应对数学建模的计算复杂性。例如,Lewis & Kemp通过整合基因组尺度代谢模型与机器学习分类器改进患者亚组识别准确性,为个性化辐射响应预测提供新方法。由于PVH设计探索新化学空间并研究新化合物对人类生理的影响,而数字孪生聚焦评估临床前和临床药物患者,两种方法高度协同。现有数字孪生,尤其机制模型,可并入PVH。
从真实世界数据(如电子健康记录临床数据、可穿戴设备数据、生活方式和行为信息)构建的数据驱动或机制模型,是构建PVH for 药物发现和开发 essential——但非 sufficient——组分。整合微尺度分子模型与宏尺度人类模型对此目标 crucial。
微尺度模型与宏尺度模型整合的几个 promising 方向 emerged。在纯数据驱动模型中,已提出跨层级端到端学习从基因型预测扰动 organismal 表型。例如,群体临床数据可用无监督学习嵌入以增强基因组学发现和预测。当宏尺度模型为机制时,微尺度模型输出可用作宏尺度模型输入。例如,机器学习可用以预测药物发现早期阶段化合物的PBPK模型参数。知识驱动模型整合可能统一跨尺度多样模型,如NIH全人项目所推动。
组学数据作为PVH基础,固有噪声。这被视为组学数据应用机器学习的主要 hurdle。通过适当 harmonization、去混淆和对齐,我们认为组学数据的噪声可能改善神经网络模型的鲁棒性和泛化性。如去噪自编码器,噪声可作为正则化器防止过拟合,通过捕捉数据底层结构而非记忆输入值。
关键验证PVH以确保预测准确、可重复和生物学有意义。适当验证帮助证明预测跨多样化学和生物空间泛化,降低后期实验或临床阶段昂贵失败风险。也支持监管接受并确保AI可靠贡献于识别安全有效治疗候选物。
模块级验证:开发和验证应模块化。PVH个体组分(如PBPK模拟、细胞响应预测)必须独立验证并对照现有最先进方法基准测试。通过系统验证各模块 before and after 整合,我们可确保最终 comprehensive PVH不仅强大,而且可信、鲁棒并真正适用于真实世界药物发现挑战。
系统级验证:整合PVH应经受使用充分表征药物和 documented 临床结局的回顾性验证。这包括预测跨多治疗领域药物的治疗效价和已知 adverse 事件。成功度量应包括准确性,也包括正确按效价和安全 profile 排序化合物的能力。由于不可能在早期阶段评估患者对新化合物的响应,我们提出逆向评估模式:使用患者特征(如组学 profile)预测化合物对疾病模型的效果,并将预测与化合物处理疾病模型的实验结果比较。
前瞻性级验证:PVH的真实适用性将通过作为人机回圈(HITL)代理系统的前瞻性验证证明。在此框架中,首先,PVH作为生成新假设的AI代理。其次,人类专家考虑可行性和影响优先级并设计验证实验。第三,实验结果在实验室执行。最后,确认或反驳预测的结果基于领域专业知识和实际约束选择,并通过主动学习算法反馈更新PVH。此持续反馈循环 fundamental 随时间增强模型准确性和可靠性。
结语
制药行业面临开发复杂疾病有效治疗的前所未有挑战,传统药物发现方法尽管技术进步显示回报递减。 proposed PVH代表药物发现和开发的范式转变,提供桥接分子设计与临床效价关键转化鸿沟的潜在解决方案。通过使能在虚拟人类系统中直接优化治疗结局,PVH可能 fundamentally 改变我们发现和开发药物的方式,尤其对复杂多因素疾病。
AI、组学技术和MPS的若干技术进展 convergence 使此愿景 increasingly 可行。但开发可解释、可信和泛化PVH仍存重大挑战。药物发现中巨大OOD空间、人类生理固有复杂性、疾病模型与人类系统间持续鸿沟需新解决方案。我们提出三管齐下方法应对这些挑战:(i)开发新机器学习技术专门设计处理OOD预测、不确定性量化和可解释性;(ii)整合数据驱动方法与机制建模以增强泛化性和可解释性;(iii)桥接分子水平模型与生理/真实世界模型间的尺度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号