编辑推荐:
本文综述生成式人工智能(Generative AI)在药物发现中的应用,介绍关键模型(如 GANs、VAEs、Transformer)、分子表征、评估指标及趋势(如 PPIs、DTIs、从头药物设计),分析数据稀缺、可解释性等挑战,提出混合模型等解决方案,展望技术前景。
生成式人工智能重塑药物发现格局
药物发现的传统框架与挑战
药物发现通常历经四个阶段:研发(R&D)、临床前研究、临床试验及审批上市。其中研发阶段涵盖靶点识别、验证、苗头化合物生成、先导化合物筛选及优化等核心环节。以特发性肺纤维化(IPF)药物 INS018_055 为例,传统流程需耗时超 10 年、耗资数亿美元,且临床失败率极高,主要因药代动力学特性不佳、疗效不足或毒性问题。生成式人工智能(Generative AI)的出现为缩短周期、降低成本提供了新路径,其通过分析复杂生物化学数据,加速靶点识别与药物设计。
生成式 AI 核心模型与技术应用
模型类型
生成式 AI 模型主要包括生成对抗网络(GANs)、变分自编码器(VAEs)、流模型及基于 Transformer 的模型。其中,Transformer 因文本型生物数据丰富及 ChatGPT 等语言模型的成功而备受关注。例如,Insilico Medicine 开发的 PandaOmics 平台采用生成式预训练 Transformer(GPT)模型,通过整合生物网络分析、科学文献文本数据及多组学数据(如基因表达谱),实现疾病靶点的高效识别。
案例:INS018_055 的研发突破
- 靶点识别:针对 IPF,PandaOmics 通过异质图随机游走、因果推断等算法,从候选靶点中确定 TNIK 激酶为关键靶点。单细胞基因表达分析显示,TNIK 在 IPF 患者损伤组织的细胞毒性 T 细胞、肌成纤维细胞及棒状细胞中高表达,验证了其作为治疗靶点的潜力。
- 药物设计:基于 TNIK 激酶结构域的晶体结构,利用 Chemistry42 的 AI 结构药物设计方法,生成特异性结合 TNIK 活性位点的抑制剂。INS018_055 通过羧基氧与铰链区 Cys108-NH 形成氢键,经表面等离子体共振等实验验证其亲和力(解离常数 Kd=4.32 nM),并完成临床 I 期试验,目前处于 II 期阶段。
技术趋势与关键领域
当前研究重点集中于 Transformer 模型在蛋白质 - 蛋白质相互作用(PPIs)、药物 - 靶点相互作用(DTIs)及从头药物设计中的应用。Transformer 凭借其捕捉序列数据上下文关系的能力,推动了多模态数据整合(如化学结构与生物活性数据),助力同时优化化合物的合成可行性、生物活性及类药性质。
挑战与解决方案
生成式 AI 在药物发现中面临多重挑战:
- 适用性局限:模型泛化能力不足,难以覆盖复杂生物场景。
- 可解释性缺失:黑箱模型导致机制解析困难,影响决策可靠性。
- 数据瓶颈:高质量标注数据稀缺,尤其罕见病领域。
- 计算资源与扩展性:大规模模型训练需高算力支持,限制普及。
- 评估标准缺失:缺乏统一的性能评价指标,妨碍模型横向比较。
应对策略包括:开发混合模型融合多模态数据(如基因组、蛋白质组数据),引入可解释人工智能(XAI)技术(如注意力机制可视化),利用数据增强与迁移学习缓解数据不足,借助云平台实现算力共享,以及建立标准化评估体系。
未来展望与跨学科协作
未来发展方向聚焦于整合化学、生物及多组学数据的统一数据集构建,推动生成式 AI 与实验科学的深度融合。例如,通过干湿实验结合,验证 AI 设计化合物的实际活性。同时,跨学科合作(计算机科学、药理学、结构生物学)至关重要,需优化 AI 模型架构、强化实验验证流程,并探索其在个性化医疗中的应用,如基于患者基因组数据的定制化药物设计。
结论
生成式 AI 通过加速靶点识别、优化药物设计流程,显著提升了药物发现的效率与经济性。尽管面临数据、算法及转化等挑战,其在 TNIK 抑制剂等案例中的成功已彰显技术潜力。未来需通过模型创新、多学科协作及标准化建设,进一步释放生成式 AI 在开发新型疗法(尤其是难治性疾病)中的价值,推动精准医疗时代的到来。