深度对比学习实现了全基因组的虚拟筛选

《SCIENCE》:Deep contrastive learning enables genome-wide virtual screening

【字体: 时间:2026年01月10日 来源:SCIENCE 45.8

编辑推荐:

  提出DrugCLIP,一种基于对比学习的超快速虚拟筛选框架,较传统对接快10倍,在5HT2A受体、NET及TRIP12等靶点上通过湿实验验证,并发布GenomeScreenDB数据库覆盖约2万口袋。

  

编辑总结

尽管在药物发现方面取得了进展,但大约90%的可成药疾病靶点仍然缺乏小分子疗法。虽然虚拟筛选可以加速命中分子的识别,但传统的分子对接等方法在基因组规模的应用中仍然过于缓慢。Jia等人提出了DrugCLIP,这是一个对比学习框架,它将蛋白质口袋和小分子嵌入到一个共享的潜在空间中,使得虚拟筛选的速度比分子对接快1000万倍。湿实验验证证实了DrugCLIP的有效性,它能够识别出针对目标蛋白质的强效激动剂或抑制剂,在某些情况下仅使用AlphaFold2预测的结构即可完成。一个开源数据库对大约10,000个人类蛋白质和5亿个分子进行了筛选,展示了这种方法在AlphaFold时代之后进行全基因组药物发现中的变革潜力。——Di Jiang

结构化摘要

引言

人类可成药基因组的很大一部分尚未被小分子疗法所针对。随着蛋白质结构预测技术(如AlphaFold)的进步,全基因组药物发现已成为一个更可实现的目标。然而,目前使用的虚拟筛选工具远远无法满足这一需求。现有的方法,无论是经典的分子对接还是深度学习方法,计算成本都过高,无法覆盖全基因组的靶点。为此,我们的目标是开发一种高效的全基因组虚拟筛选方法,能够快速识别人类基因组中每个可成药靶点的小分子配体。

理由

我们开发了DrugCLIP,这是一种用于快速准确虚拟筛选的对比学习框架。DrugCLIP将蛋白质口袋和小分子编码到一个共享的潜在空间中,并使用大规模合成数据和实验确定的蛋白质-配体复合物结构进行训练。然后可以使用密集检索技术快速查询大型化合物库与蛋白质靶点,类似于现代搜索引擎。为了使其适用于AlphaFold结构,我们开发了GenPack,这是一个用于改进口袋检测精度的生成模块。我们使用基准数据集和湿实验验证了DrugCLIP的有效性。为了进一步展示其潜力,我们进行了全基因组虚拟筛选,所有结果均已公开。

结果

在DUD-E和LIT-PCBA这两个广泛使用的虚拟筛选数据集上,DrugCLIP在速度和准确性方面均优于传统的分子对接和最先进的深度学习方法。它还在不同的化学骨架和蛋白质家族中表现出强大的泛化能力,并且对结构扰动具有鲁棒性。
在实验验证中,DrugCLIP识别出了5-羟色胺2A受体(5HT2AR)和去甲肾上腺素转运蛋白(NET)的强效配体,这两种蛋白质是精神疾病的关键靶点。两种5HT2AR激动剂的中位有效浓度值低于100 nM,两种NET抑制剂通过冷冻电子显微镜得到了结构验证。
当与GenPack结合使用时,DrugCLIP在处理具有挑战性的无配体状态(apo)和AlphaFold预测的结构时,其性能显著优于分子对接和诱导对接方法。DrugCLIP和GenPack成功识别出了一个较少被研究的靶点——甲状腺激素受体相互作用蛋白12(TRIP12)的小分子抑制剂,该靶点目前没有报道的全貌结构或配体。该模型在表面等离子共振实验中的命中率为17.5%,其中两种抑制剂进一步得到了酶抑制作用的验证。
最后,我们使用DrugCLIP对约10,000个人类蛋白质和5亿个化合物进行了全基因组虚拟筛选,仅使用8个图形处理单元(GPUs)就在24小时内评估了超过10万亿个蛋白质-配体对。这次筛选产生了超过200万个候选分子,覆盖了大约一半的人类基因组。所有筛选数据均已公开,以支持广泛的药物发现应用。

结论

DrugCLIP是一种超快的虚拟筛选方法,我们通过计算机模拟基准测试和湿实验对其进行了严格验证。其快速性使得能够对人类可成药蛋白质组进行万亿级别的筛选,提供了一个开放获取的资源,为下一代药物发现奠定了基础,特别是对于那些了解较少靶点的研究。
使用DrugCLIP进行的全基因组超快虚拟筛选。
DrugCLIP利用包含5亿个化合物的库,在8个GPU上耗时一天完成了对约10,000个AlphaFold预测的人类蛋白质结构的全基因组虚拟筛选。由此产生的GenomeScreenDB数据库在靶点覆盖率上超过了ChEMBL数据库。TRIP12的筛选结果得到了实验验证,识别出了功能性小分子结合剂。Kd表示解离常数;RU表示响应单位。

摘要

蛋白质结构预测的最新突破为全基因组药物发现开辟了新的途径,但现有的虚拟筛选方法在计算上仍然存在障碍。我们提出了DrugCLIP,这是一种对比学习框架,实现了超快且准确的虚拟筛选,速度比分子对接快1000万倍,并且在各种计算机模拟基准测试中始终优于其他方法。在湿实验验证中,DrugCLIP对去甲肾上腺素转运蛋白的命中率为15%,并且两种鉴定出的抑制剂的结构也在与目标蛋白质的复合物中得到了确认。对于缺乏全貌结构和小分子结合剂的甲状腺激素受体相互作用蛋白12(TRIP12),DrugCLIP仅使用AlphaFold2预测的结构就实现了17.5%的命中率。最后,我们发布了GenomeScreenDB,这是一个开放获取的数据库,提供了对约10,000个人类蛋白质与5亿个化合物进行筛选的预计算结果,开创了AlphaFold时代之后的药物发现范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号