基于主动学习驱动分子数据采集的智能分布式数据工厂志愿者计算平台:加速药物研发的新利器

【字体: 时间:2025年03月01日 来源:Scientific Reports 3.8

编辑推荐:

  为解决药物发现中数据难题,研究人员构建智能分布式数据工厂(SDDF)平台,加速药物研发进程。

  在药物研发的 “战场” 上,数据就如同关键 “武器”,但当下却面临诸多困境。药物研发依赖于对分子性质的精准预测和理解,机器学习(ML)技术虽在数据丰富领域成绩斐然,在药物发现中却遭遇挑战。“药物相似” 的化学空间估计约有个分子,可现有数据不仅数量有限,质量也参差不齐。许多分子数据集并非为满足 ML 算法需求而设计,像常用的 QM9 数据集,每个分子仅提供一种构象,缺乏支架多样性,且存在数据泄露问题,其他如 ANI-1、NablaDFT 和 MPCONF196 等数据集也有类似缺陷,这严重阻碍了可靠分子模型的构建。
同时,密度泛函理论(DFT)计算虽能精确估算分子性质,但其高昂的计算成本,尤其是在大规模数据集面前,令人望而却步。而 ML 技术性能又高度依赖训练数据质量。在这样的背景下,来自 Deep Origin(位于亚美尼亚埃里温和美国南旧金山)的研究人员决心开辟新路径,开展了一项旨在解决药物发现中数据难题的研究。他们构建了智能分布式数据工厂(SDDF)平台,结合主动学习、分布式计算和量子化学,为开发精确分子模型提供了可扩展且经济高效的解决方案,该研究成果发表在《Scientific Reports》上。

研究人员在这项研究中主要运用了以下关键技术方法:一是采用志愿者计算模式,利用全球个人电脑的处理能力加速 DFT 计算;二是构建基于主动学习的框架,通过集成多种 ML 模型预测分子性质,挑选最具挑战性的数据点进行 DFT 计算,并生成新的分子构象;三是精心创建并发布了包含 217 万个分子构象及其 DFT 计算能量标签的数据集,为后续研究提供了重要资源。

下面来看具体的研究结果:

  • SDDF 平台搭建与性能评估:SDDF 平台提供网站供志愿者注册参与,接收分子构象进行 DFT 计算。其基于文件的消息代理确保了高可靠性和系统正常运行时间,能每秒处理数千条消息且延迟极小。志愿者机器默认使用约 50% 的计算资源,每个任务在约三个线程上运行。对于目标属性和中等大小分子(约 25 个重原子),单核心(2.4GHZ)机器约 10 分钟可完成一次计算任务。
  • 基于主动学习的数据采样策略:SDDF 运用主动学习框架选择分子进行标记并添加到数据集中。该框架从大型数据库中随机采样分子,生成多个构象,通过集成 ML 模型挑选出最具挑战性的构象,用 DFT 计算其目标属性,并将新标记数据用于重新训练 ML 集成模型。研究对比了多种数据采样策略,发现基于集成模型的采样比随机选择更有效,其中基于损失预测的采样方法能使模型性能提升最快,且集成模型中多样化的架构至关重要。
  • 分子动力学(MD)辅助数据采样:研究人员还利用集成模型中表现最佳的模型进行 Langevin MD,生成新的构象用于标记。实验表明,添加通过 MD 采样生成的训练示例,比添加相同数量的随机采样训练示例,对集成模型引导分子达到更低能量构象的能力有更积极的影响。
  • 构象能量数据集与模型性能:研究创建并发布了新的构象能量数据集,包含 2170553 个构象,还提供了用于训练和基准测试能量预测 ML 模型的子集。使用 SDDF 训练集和验证集训练的构象能量预测模型,在 RMSE 和 MAE 指标上优于 ANI-2x 集成模型,且 SDDF 模型在不同大小分子上的 MAE 表现更稳定。

研究结论与讨论部分指出,SDDF 通过聚焦高误差估计实例,有效识别出预测误差高的分子构象,为 DFT 计算优先选择这些实例,从而提高了数据集质量,有助于开发更精确可靠的分子性质预测模型。该平台生成的数据集在多个领域应用广泛,如开发分子性质预测器、训练和评估构象生成方法等。然而,SDDF 也面临一些挑战,如志愿者计算平台的可扩展性依赖参与者,任务分配算法有待优化,平台目前计算项目有限,ML 模型和主动学习策略也需进一步改进,分子数据库的多样性也需要增强。尽管如此,SDDF 仍展现出巨大潜力,为药物研发及相关领域的计算化学研究开辟了新方向,有望推动基于结构的分子研究取得重大进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号