SAVI-Space-2024:基于组合编码的百亿级合成可及虚拟分子库空间构建与高效搜索技术

【字体: 时间:2025年06月24日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对传统虚拟筛选技术处理超大规模化合物库时存在的计算资源瓶颈问题,开发了SAVI-Space-2024——一种基于反应驱动的组合编码技术,将75亿个合成可及分子压缩存储为仅1.4GB的化学片段空间。通过将LHASA转化规则翻译为反应SMARTS模式,结合Enamine Building Blocks(2024版),实现了在标准硬件上快速进行相似性/子结构搜索和分子对接,相比枚举式SAVI-Lib-2020(210GB)内存需求降低99.3%,为早期药物发现提供了革命性的大规模化学空间探索工具。

  

在药物发现领域,化学家们长期面临一个"幸福的烦恼":随着组合化学技术的发展,虚拟化合物库规模已突破百亿级别,但传统虚拟筛选技术需要逐个处理分子,导致计算成本呈指数级增长。就像试图用显微镜观察整个星空,科学家们急需一种能同时兼顾存储效率和搜索速度的革命性技术。

德国汉堡大学ZBH生物信息中心联合BioSolveIT GmbH等机构的研究团队在《Scientific Data》发表了突破性解决方案。他们利用LHASA转化规则(一种源自1970-90年代有机化学专家知识的反应规则系统),将Enamine Building Blocks通过53种转化规则进行组合,创建了包含7.5亿分子的SAVI-Space-2024化学空间。这项研究最引人注目的成就是其惊人的压缩比——仅用1.4GB存储空间就编码了相当于210GB枚举式库的化学信息,同时支持在普通台式电脑上完成秒级分子搜索。

研究团队开发了三个关键技术:(1)将CHMTRN/PATRAN语言编写的LHASA转化规则半自动翻译为反应SMARTS模式;(2)建立拓扑片段空间数据结构,通过反应中心组合编码替代显式分子存储;(3)将KILL语句(用于过滤不稳定产物)转化为反应物预过滤规则。使用2024年7月的Enamine Building Blocks(255,861个)作为原料,通过109个子反应生成化学空间。

研究结果显示:

  1. 技术验证:与SAVI-Lib-2020相比,采用相同规则的SAVI-Space-2020(Lib-2020规则)覆盖率达95%,但内存需求降低两个数量级。
  2. 合成可行性:通过SA-Score和RA-Score评估显示,Hantzsch噻唑合成和Suzuki-Miyaura偶联反应产物的合成难度评分优于商业化合物库平均水平。
  3. 空间扩展性:2024版空间包含7.5×109个分子,是2020版的3.1倍,但存储空间仅增加75%。
  4. 独特化学空间:与CHEMriya、GalaXi等商业空间重叠率<0.5%,具备独特知识产权价值。

这项研究的创新性体现在三个方面:首先,首次实现了LHASA专家系统规则与现代化片段空间技术的无缝整合;其次,开发的SMARTS翻译器解决了CHMTRN/PATRAN语言中特殊键属性(如融合键)的转换难题;最后,通过反应物预过滤机制,将原本需在产物层级应用的KILL语句提前到反应物选择阶段。

正如通讯作者Matthias Rarey教授指出,SAVI-Space-2024不仅解决了"存储墙"问题,更重要的是它使科研人员能在普通实验室内探索传统方法需要超级计算机才能处理的化学空间。该技术已集成至SpaceLight(相似性搜索)和SpaceMACS(子结构搜索)等工具中,为基于结构的药物设计开辟了新范式。未来,随着更多转化规则的加入和Building Blocks的更新,这种组合编码技术有望成为万亿级虚拟化合物库的标准存储方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号