REvoLd:基于进化算法的超大规模组合化合物库柔性对接筛选新策略

《Communications Chemistry》:Ultra-large library screening with an evolutionary algorithm in Rosetta (REvoLd)

【字体: 时间:2025年11月08日 来源:Communications Chemistry 6.2

编辑推荐:

  面对亿级“按需定制”化合物库的虚拟筛选难题,本研究开发了Rosetta进化算法REvoLd。它通过模拟自然进化机制,在RosettaLigand全柔性对接框架下,仅需数千次计算即可从200亿分子空间中高效富集先导化合物,命中率较随机筛选提升869–1622倍,为超大规模库的药物发现提供了突破性解决方案。

  
药物发现过程中,从海量化合物的筛选是耗时且成本高昂的挑战。随着“按需定制”(make-on-demand)组合化合物库的规模已突破200亿分子,传统的虚拟高通量筛选(vHTS)方法因计算资源限制难以实现全柔性对接,且易忽略受体与配体的构象变化,导致假阴性结果。为此,莱比锡大学与范德堡大学的研究团队在《Communications Chemistry》发表研究,提出了一种基于进化算法的Rosetta进化配体筛选工具REvoLd,通过模拟自然选择过程,在超大规模化学空间中实现高效定向探索。
关键技术方法
研究以Enamine REAL Space(超200亿分子)为筛选库,针对5个靶点(酪氨酸磷酸酶A、食欲素受体OX1、毒蕈碱受体M1、神经肽Y Y1受体、酪氨酸激酶ABL1)开展基准测试。REvoLd核心采用进化算法框架,通过突变(替换片段/反应)和交叉(重组分子模块)操作生成新个体,并以RosettaLigand全柔性对接评分(归一化指标lidroot2)作为适应度函数。每个靶点进行20次独立运行,累计对接4.9万–7.6万分子,并基于富集因子(EF)评估性能。
研究结果
超参数与协议优化
通过百万分子子集的迭代测试,团队确定了最优参数:初始种群200个分子,每代保留50个个体,运行30代。引入高相似度突变(Tanimoto相似度>0.6)和反应类型突变以平衡探索与利用,并通过双轮交叉策略增强多样性。
现实条件下的基准测试
在200亿分子库中,REvoLd对所有靶点均实现显著富集(图2)。以已知活性分子评分阈值为基准,EF值达200–532;若以更严格阈值计算,EF峰值升至869–1622。例如,对ABL1激酶,REvoLd发现99个超活性分子,而随机样本无一命中。
繁殖机制的定性分析
突变与交叉操作可模拟药物化学家的理性设计策略(图3)。突变通过局部修饰(如改变环连接原子)优化物化性质,交叉则重组优势药效团,例如将四唑环与1,2,4-三唑模块结合,衍生出高亲和力分子。
运行时间分析
在AMD EPYC 7713集群上测试显示,99%计算时间用于对接(图4)。使用20–100核时,并行效率达1.152–1.679,接近线性加速。库初始化耗时6分钟,内存占用23 GB,但筛选效率与库规模无关。
数据库规模的影响
从百万到200亿分子库,REvoLd所需对接次数恒定,仅内存与初始化时间增加。多次运行可覆盖不同化学子空间,且重复分子率虽达50–70%,但通过相似性惩罚(Tanimoto>0.95时加分)控制多样性。
讨论与结论
REvoLd在富集能力、计算效率及化学多样性方面优于V-SYNTHES、Galileo等现有方法,且无需先验片段信息。其局限性在于依赖RosettaLigand的评分函数可靠性及对接速度,未来结合机器学习对接工具(如DiffDock)可进一步突破效率瓶颈。该工作为亿级库的药物发现提供了可扩展的新范式,且通过“按需合成”平台直接关联实验验证,显著降低转化壁垒。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号