综述:推进罕见病建模的前沿:对计算机技术的批判性评价

《npj Digital Medicine》:Advancing the frontier of rare disease modeling: a critical appraisal of in silico technologies

【字体: 时间:2025年11月19日 来源:npj Digital Medicine 15.1

编辑推荐:

  本综述系统评述了计算机(in silico)技术在罕见病研究中的应用前景与挑战。文章按应用场景(CoU)分类,详细分析了机制模型、机器学习(ML)和数字孪生等技术在疾病诊断(CoU1)、药物发现(CoU2)、临床前开发(CoU3)和临床试验设计(CoU4)中的优势与局限。作者强调,尽管这些工具在整合异构数据、模拟生物复杂性和应对患者稀少的挑战方面潜力巨大,但其广泛应用仍受限于数据质量、模型验证(如VVUQ框架)、可解释性及监管对齐等问题。最后,文章提出了优先行动方案,呼吁通过协同努力将计算机技术确立为罕见病转化研究的核心支柱。

  

计算机技术在罕见病研究中的应用场景

罕见病虽然单一病种患病率低,但全球患者总数超过3亿,构成了重大的公共卫生和研究挑战。这些疾病通常病因不明,基因型-表型关系复杂,临床轨迹高度异质。患者群体小、生物样本获取困难、缺乏经过验证的生物标志物或终点指标,这些都阻碍了传统的研究和治疗方法开发。历史上,罕见病研究严重依赖动物模型,但这些模型往往难以捕捉疾病复杂且知之甚少的病理生理学。近年来,基于人类的复杂体外模型(CIVMs)已成为在生理相关背景下研究罕见病机制和评估疗效的有前景的工具。然而,CIVMs目前在可扩展性以及在整个研发管线中的整合方面存在局限,需要将CIVMs与其他人类相关方法结合,以提高研究和药物开发的准确性和效率。
虽然CIVMs能提供生理相关的读数,但它们与计算机模型的整合仍受三个差距的限制:(i)语义互操作性,即缺乏将CIVM输出(如成像、分泌组、电生理学)与计算模型变量联系起来的共享本体和元数据;(ii)校准/验证工作流程,定量的CIVM测量并未常规用于校准机制模型或混合模型,模型预测也未能前瞻性地在CIVMs中进行测试;(iii)通量和标准化,许多CIVM方案仍是定制的,难以在不同实验室间复制。本文概述了一个可能的闭环工作流程,其中CIVMs生成符合可查找、可访问、可互操作和可重用(FAIR)原则的标准化、带注释的数据集,用于参数化或挑战数字孪生/定量系统药理学(QSP)基于代理的模型;然后模型预测提名下一个CIVM实验(扰动、剂量、时间)。这种双向设计可以更好地利用稀缺的患者来源材料,可能有助于减少探索性动物使用,并有助于建立适合监管审查的可追溯证据链。
在此背景下,计算机技术作为罕见病研究的强大工具日益受到重视。这些方法,包括机制模型、机器学习(ML)和数字孪生,可以从有限的数据集中生成见解,整合异构信息,并跨尺度模拟生物过程。其潜力涵盖几个关键应用场景(CoUs):(1)通过基因组学和生物信息学工具改善诊断和分子表征;(2)通过虚拟筛选和重定位策略加速药物发现;(3)通过预测疾病机制和药物-靶点相互作用支持非临床开发;以及(4)使用基于模拟的模型和数字患者队列指导临床试验设计。

诊断与表征(CoU1)

计算机工具通过整合异构数据集并实现更早、更精确的干预,正在改变罕见病的诊断。人工智能(AI)增强的流程现在利用全基因组和外显子组测序、从电子健康记录(EHR)中提取表型以及用于变异致病性预测的机器学习。例如,一项最近使用自然语言处理(NLP)增强的EHR分析的研究在罕见病的鉴别诊断中优于人类专家,展示了更高的精确度和可扩展性。然而,这些方法并非没有局限,深度学习模型常常难以处理意义未明的变异(VUS),其预测性能可能与专家共识不一致,这强调了需要引导靶点验证和混合人机协同流程。
此外,使用Orphanet数据的计算研究表明,与超罕见病相比,边界常见疾病涉及更复杂的遗传结构,这凸显了整合基因组-表型组建模的价值。在这种背景下,计算机工具可以通过在实验模型不可行的情况下模拟疾病机制来填补诊断空白。
具体疾病案例如戈谢病(Gaucher disease)已广泛使用计算工具进行研究。传统的PCR-RFLP方法已通过SNPs3D、SIFT、PolyPhen和I-TASSER等计算机工具得到增强,这些工具可预测新型葡萄糖脑苷脂酶β1(GBA1)基因突变的功能影响并重建突变蛋白结构。在患者样本稀缺的情况下,这些工具通过利用结构模板来模拟疾病机制,提供了关键的见解。虽然它们可能尚未完全捕捉细胞背景的复杂性,但它们代表了实验方法的一个强大且可扩展的补充。
在桑德霍夫病(Sandhoff disease)中,类似地使用了基于结构的方法,如SWISS-MODEL、COTH和Mutation Taster来评估己糖胺酶β亚基(HEXB)突变的结构后果。同源建模和配体对接阐明了特定变异如何损害酶功能。虽然捕捉复杂的多蛋白相互作用(尤其在溶酶体贮积症中相关)仍然具有挑战性,但持续的进展正在稳步扩展这些方法的能力。
最近,基于深度学习的分类器已使用变异效应预测因子(如MutPred、SpliceAI和REVEL)在囊性纤维化和遗传性视网膜营养不良等疾病上进行了测试。这些模型提供了可扩展性和卓越的预测准确性,并且正在进行的努力正在解决诸如“黑箱”不透明性和对超罕见变异的性能偏差等挑战,以进一步提高其可靠性和透明度。
相比之下,基于网络的方法(如Phenolyzer、STRING、Cytoscape)已用于埃勒斯-当洛斯综合征(Ehlers-Danlos syndrome)和多发性硬化症(Multiple Sclerosis),以推断基因型-表型相关性并预测疾病进展。它们的优势在于利用先验知识,但对数据库的完整性和注释偏差敏感。
对于超罕见或奠基者变异,采用三角测量策略可能是有效的:结合REVEL(基线错义风险)、MutPred(机制假设)和SpliceAI(排除剪接混杂因素)。这将允许报告分数版本/阈值,针对疾病特异性真实集进行校准,并且应包括对边界判定使用人机协同裁决。

药物发现(CoU2)

罕见病的计算机药物发现日益利用人工智能(AI)、网络药理学和分子模拟来识别新靶点和重新利用现有化合物,特别是在湿实验室筛选不可行的情况下。
肌萎缩侧索硬化症(Amyotrophic lateral sclerosis) exemplifies AI引导的药物靶点识别。PandaOmics,一个组学整合的AI平台,通过分析转录组学和患者来源的数据集,产生了新的靶点假设。虽然此类工具加速了发现和假设生成,但它们对训练数据的依赖可能限制了在数据集稀疏的疾病间的普适性。
对于杜氏肌营养不良症(Duchenne muscular dystrophy)和脊髓性肌萎缩症(spinal muscular atrophy),多组学荟萃分析结合功能富集和通路分析工具已被用于识别共享或独特的分子通路。这些方法在揭示趋同的疾病机制方面表现出色,并且随着样本管理和标准化程序的进步,其有效性有望提高。
经典的配体对接模拟,例如用于共济失调毛细血管扩张症(Ataxia Telangiectasia)的模拟,能够预测药物与共济失调毛细血管扩张症突变(ATM)蛋白靶点的结合。使用HADDOCK、AutoDock Vina和DynaMut2的研究支持虚拟筛选流程。然而,其有效性受限于静态结构模型和关于结合位点可及性的假设。
网络药理学方法,例如整合基因表达特征、蛋白质-蛋白质相互作用图和药物诱导的转录组,已部署于多发性硬化症和脊髓性肌肉疾病中识别候选物。它们的优势在于情境感知,并且相互作用数据库和平台协调化的逐步改进有望增强其完整性和可重复性。

临床前药物开发(CoU3)

计算机模型越来越多地应用于临床前开发,以模拟疾病病理生理学、预测治疗效果和识别生物标志物。这些工具对于罕见病尤其有价值,因为临床前动物模型不可用、无法提供信息或不可行。一个值得注意的案例是法布里病(Fabry disease),其中开发了一种结合多组学数据和通路建模的系统生物学方法,以识别新的生物标志物并模拟疾病进展。这使得能够定量评估酶替代疗法并揭示性别特异性的生物标志物反应。随着更全面的组学数据集的可用,模型适用性有望进一步提高。
多尺度建模平台,如应用于杜氏肌营养不良症的肌肉模拟代码(MUSICO),通过将分子相互作用与组织水平动力学联系起来模拟肌肉功能。这些模型能够预测肌肉力量缺陷和对皮质类固醇的治疗反应,提供丰富的机制见解。随着计算能力的进步和校准技术的发展,它们的可访问性和效率可能会提高。
NEUBOrg,一个诱导多能干细胞(iPSC)来源的脑类器官平台,将基于类器官的数据与深度学习网络集成。通过模拟器官水平的发育,它支持临床前假设测试而无需动物模型。然而,此类方法在将类器官读数与临床终点验证方面仍面临一些挑战。
另一种强大的方法是定量系统药理学(QSP),它将药物作用与疾病网络整合,以模拟剂量反应并预测疗效。例如,QSP已用于内分泌罕见病,以优化给药方案并预测治疗适应性。其优势在于机制保真度,但成功取决于合格且可重复的动力学和药效学参数的可用性。

临床试验设计(CoU4)

罕见病临床试验面临样本量小、缺乏对照以及伦理问题(尤其是在儿科人群中)的挑战。计算机技术可以通过模拟虚拟人群、优化给药方案以及替换或增强试验组来缓解这些问题。
虚拟临床试验已应用于如先天性胫骨假关节(congenital pseudoarthrosis of the tibia)等疾病,这些疾病患者招募极其有限。使用数字孪生模拟,研究人员测试了剂量反应关系并预测了儿科亚组的疗效,减少了对安慰剂对照组的依赖。然而,这些模型的准确性取决于输入临床数据的保真度。
生理药代动力学(PBPK)模型正被广泛用于模拟不同人群中的吸收、分布、代谢和排泄(ADME)。例如,PBPK模型已应用于罕见代谢疾病,以推断新生儿的剂量并预测药物-药物相互作用。这些模型提供了有价值的机制透明度,但需要大量的物理化学和解剖学参数,这些参数对于罕见病队列通常不可用。
群体药代动力学(popPK)和药代动力学/药效学(PK/PD)模型采用自上而下的方法,利用临床数据预测暴露-反应关系。这些在试验数据有限时特别有用,并且通过仔细的鉴定程序,可以有效地最小化过拟合的风险。在罕见病中,它们通常支持关于给药的监管决策。
新兴实践还包括构建合成对照组,其中计算机生成的队列来自历史或真实世界数据,以替代安慰剂组。这已在几种罕见神经退行性疾病中进行了试点,并且外部对照数据开始被监管机构接受,最常见于罕见病药物。

挑战与未来优先行动

尽管取得了实质性进展,但计算机技术在罕见病研究中的应用仍面临系统性挑战,限制了其可扩展性、可重复性和转化影响。这些挑战不仅是技术性的,还涉及数据治理、模型验证、监管对齐和生态系统准备度。解决这些问题可能需要跨学科和利益相关者的持续、协调努力。
罕见病本身患者数量有限,数据来源分散。许多计算流程,特别是那些依赖机器学习的流程,需要庞大、多样且注释良好的数据集才能实现稳健性能。然而,在罕见病背景下,数据可能被孤立、不完整或在机构或注册库之间不标准化。诸如GA4GH、IRDiRC和FAIR数据倡议等努力旨在推广可互操作和可重用的数据格式,但采用率仍然不一致。即使基因组或临床数据可用,也常常缺乏表型粒度(例如,详细的纵向临床注释)。这尤其削弱了深度学习模型的性能,并限制了外部验证。对联邦数据基础设施、统一注释标准(如HPO、OMOP)以及符合隐私法规的数据共享激励措施的投资,对于负责任地扩展计算方法至关重要。
为了超越声明性的FAIR主张,我们应用基于指标的自我评估,涵盖持久标识符(PID)(例如数字对象标识符DOI)、机器可读元数据、词汇对齐、访问/授权、许可、溯源、版本控制和重用证据。我们在框1中简洁地报告这些元素,并在本文引用的每个资产的数据/代码可用性声明中引用它们。
关于基准测试透明度,我们提供了一个简洁的、容器优先的计算环境和精确工件的描述,这些是端到端复制所必需的。框2列出了我们在本文(及未来版本)中报告的项目:带摘要的容器镜像、依赖锁文件、确定性种子、数据集PID/校验和、冻结分割、硬件说明以及一个重新生成图/表的单命令运行器。
需要提及的是,本综述未生成新的数据集或代码;框1和框2概述了我们推荐给未来版本的报告标准。
计算机方法通常缺乏标准化的验证协议,这使其解释和接受复杂化。虽然一些工具使用公共数据集进行回顾性基准测试,但前瞻性或实验性验证很少进行。这对于具有监管意义的模型(例如,临床试验中的PBPK或数字孪生)尤其成问题。此外,模型假设记录不完善、代码可用性缺乏以及ML框架中的版本问题阻碍了可重复性。机制模型虽然通常更可解释,但由于参数数量相对于可用数据较多,可能遭受过拟合。采用正式的模型可信度框架(例如,验证、确认和不确定性量化VVUQ)、预注册建模协议以及开源模型共享的激励措施是迫切需要的。
临床采用的一个关键障碍在于计算机开发与实验或监管路径之间的脱节。计算模型通常用于早期发现,但由于工作流程孤立或与实验室或试验系统缺乏互操作性,可能无法影响临床前或临床开发的下游决策。这种脱节在药物重定位努力中尤其明显,计算预测很少随后在体外或动物模型中进行系统验证。类似地,很少有数字临床试验模拟被整合到提交给监管机构的实际试验方案中。建立闭环工作流程,其中计算机见解反馈到实验设计中,反之亦然,可以增强可靠性和速度。将计算科学家嵌入转化团队并跨平台采用通用应用程序编程接口(API)将支持整合。
关于在罕见病背景下使用计算机工具的监管指南仍然有限,分散在各个治疗领域,并且很大程度上是反应性的。虽然对模型知情药物开发(MIDD)的开放性日益增长,但大多数监管机构仍然逐案评估计算模型。这限制了它们的可扩展性并阻碍了行业采用。值得注意的是,数字证据框架仍在发展,计算机工具作为药物开发工具在欧洲药品管理局(EMA)或美国食品药品监督管理局(FDA)路径下的资格认定仍然是一个耗时的过程,对于从事罕见病的申办者而言,收益/风险权衡不明确。共同开发监管沙盒、模型资格认定路径和罕见病的共享验证数据集可能有助于降低采用障碍。多利益相关者联盟应从模型开发之初就纳入监管机构。
最后,如果计算机方法在设计
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号