综述:药物发现中的基础模型:今日现象级增长,明日变革性潜力
《Drug Discovery Today》:Foundation models in drug discovery: phenomenal growth today transformative potential tomorrow
【字体:
大
中
小
】
时间:2025年10月29日
来源:Drug Discovery Today 7.5
编辑推荐:
本篇综述系统梳理了基础模型(FM)在药物发现领域的迅猛发展(自2022年起已发布>200个模型)与变革潜力,涵盖靶点发现、分子优化及临床前应用等,并展望了由OMICs-FM、CHEM-FM和PRECLIN-FM驱动的端到端智能化药物研发新范式。
在过去的十年中,人工智能(AI)领域飞速演进。其中,生成式AI(GenAI)的进展尤为显著,其核心是基础模型(FM)——这些通用的AI算法经过海量数据预训练,可适应广泛的下游任务。如今,像GPT-4这样的大型语言模型(LLM)已广为人知。除了LLM,还有单模态FM(如大型视觉模型)、多模态FM以及专用FM。这些AI技术的快速发展正开始影响各个行业和学科,药物研发也不例外。历史上,新药发现过程缓慢、高风险且昂贵。AI方法正致力于解决药物发现中的根本性挑战,使其更快、更成功、更高效。鉴于GenAI的快速进步和LLM的卓越表现,科学家们已开始试验专门构建的FM来辅助药物发现。
什么是基础模型?它们与药物发现中使用的其他AI方法有何不同?
药物研发长期以来一直是计算方法和AI/机器学习(ML)应用的前沿。目前,AI/ML的主要应用包括疾病研究、小分子和生物制剂发现、疫苗开发以及临床前表征和优化。如今药物发现中最广泛采用的AI应用包括知识图谱和任务特定深度学习模型(TDL)。知识图谱是实体及其关系的结构化表示,通常通过挖掘和整合多个数据库构建,其创建和分析可能很繁琐,应用往往局限于挖掘已知科学见解而非发现新知识。TDL是从标记数据中学习模式以进行预测的AI模型,例如用于蛋白质结构预测和成像标志物识别,但通常需要大量标注数据。
相比之下,FM是一类更为通用的神经网络。它们在海量数据集上预训练,能够学习数据中的广泛模式和关系,随后可通过微调适应各种下游任务。与许多其他神经网络不同,FM可以自监督地训练未标记数据或多模态数据,以学习生物医学概念的整体表征。这使得FM用途广泛,可应用于药物发现等不同场景。许多FM使用Transformer架构,将输入转换为能够高效分析和大规模挖掘数据的数值表示。
分析表明,药物发现相关FM在过去几年经历了巨大增长。从2022年末首个FM发布到2025年初,已发布超过200个不同的FM,这相当于约40%的季度复合增长率,以及超过250%的年复合增长率。这一增长惊人,可能反映了FM在药物发现领域的兴奋度和潜力。
截至2025年第二季度,近30%的已发布FM是多模态的,其余为单模态。约20%的FM基于蛋白质结构或分子数据训练,约15%基于生物成像数据。转录组学、表观遗传学、DNA和RNA为基础的FM合计约占30%。
这种巨大增长有多种原因。首先,药物发现的某些挑战非常适合FM解决。其次,FM在工业研发环境中具有吸引力,因为经过充分预训练的FM在少样本甚至零样本设置中表现良好,这大大降低了模型训练和推理的运营成本与时间。第三,日益庞大的数据集和高性能计算的普及也加速了FM的快速发展。
转录组学:预训练数据集规模迅速扩大,从数百万细胞发展到超过1亿细胞。目前,大多数模型在零样本设置下性能有限,但在经过大量任务特定微调后,其性能往往可比或优于专门模型。
蛋白质结构与性质:训练数据规模已从数亿扩展到数十亿,并从仅序列数据发展到多模态序列-结构-配体数据集。这种扩展使得零样本蛋白质-配体对接和零/少样本结合亲和力预测成为可能,但最终的化合物优先排序目前仍常由TDL和基于物理的方法领先。
病理影像:基于Transformer的FM(视觉Transformer模型)已适用于计算机视觉任务。训练数据集已从数万张图像扩展到数百万张。零样本和少样本性能高度依赖于具体任务。目前最成熟的应用包括切片分类和图像分割,但要达到最佳性能通常需要大量微调才能超越强大的任务特定深度学习模型。
总之,这些发现表明FM在不同药物发现应用中具有强大潜力。但就像LLM一样,当前用于生物学和医学的FM在针对特定任务和目标进行定制时,才能发挥其最强性能。
基础模型驱动的药物发现范式可能是什么样子:一个思想实验
当前分析揭示了FM在药物发现中的潜力。未来的端到端FM驱动药物发现过程可能如下所述,并与经典药物发现形成对比。
从靶点识别阶段开始。未来,这些任务可能由一个在公共和专有多组学数据集及已发表文献上训练的FM(OMICs-FM)支持。该模型可以识别靶点-通路-疾病关联,并提出具有置信度的新靶点假设。为确保捕捉疾病机制的最新见解,OMICs-FM需要频繁重新训练和微调。
例如,一个对特定生物过程(如小胶质细胞衰老)在特定疾病(如神经退行性疾病)中作用感兴趣的研发团队,OMICs-FM会交叉检查遗传数据、CRISPR筛选结果和文献结果,生成排序的因果图并建议潜在靶基因。这些可在自动化实验平台中进行评估,结果反馈给OMICs-FM,以重新校准靶点推荐置信度并生成新的预测,形成“实验室在环”方法。
接下来是分子设计阶段。对于小分子,未来的发现过程将由一个化学FM(CHEM-FM)驱动,该模型联合表示SMILES、2D分子图和由MS/NMR光谱数据驱动的3D构象状态。该模型将作为生成、对接、类药性、ADMET和推荐逆合成步骤的通用编码器/解码器。CHEM-FM还将通过基于全原子共折叠预测生成和评分3D蛋白质-配体复合物结构,来支持基于蛋白质结构的小分子设计,从而减少对耗时费力的结合亲和力测定等的依赖。
例如,CHEM-FM(解码器模式)会根据期望的多药理学特征和专利空间,为每个靶点生成数千个可合成分子。同一FM(编码器模式)将用于单次前向传播预测结合亲和力、选择性、ADMET和逆合成成本。经过足够次数的设计闭环迭代后,选定的化合物将在机器人和自动化细胞实验等辅助下合成。实验结果可反馈给CHEM-FM,以优化采样温度和奖励函数。
最后是临床前优化和预测安全性。从CHEM-FM产生的先导分子将使用一个临床前FM(PRECLIN-FM)进行分析和优化,该模型利用从人体器官芯片数据迁移学习,在体内给药前预测动物模型暴露量和毒性。PRECLIN-FM可标记历史上与研发失败相关的表型,并输出排名分数或可转化性指数,指导推进哪个系列。一旦某个系列进入候选阶段,将进行常规临床前测试以确保分子的安全性和有效性。
需要承认此范式的一些注意事项和局限性。首先,许多描述的FM尚不存在或性能不足。其次,生物学的规模和复杂性可能使思想实验中的某些步骤不可行。例如,人类细胞中总的成对基因-基因相互作用数估计超过2亿,而类药有机分子的可及化学空间估计约为10^60,当前最大的FM训练数据集规模仍远小于此。第三,FM的技术挑战仍然存在,包括幻觉问题、对并非专为药物发现设计的模型架构和训练方法的依赖,以及模拟高度动态生物过程的困难。
本综述概述了FM在药物发现中的应用,并描绘了FM驱动药物发现的未来图景。FM的显著增长及其在不同任务中的早期表现表明,它们可能成为药物研发的游戏规则改变者。未来几年,随着更多、更大型的FM出现,该领域的进展将令人期待。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号