数据驱动的生成策略:避免多目标分子设计中的奖励黑客问题

《Nature Communications》:

【字体: 时间:2025年03月12日 来源:Nature Communications

编辑推荐:

  编辑推荐:研究团队针对分子生成模型中因预测外推失败导致的奖励黑客(reward hacking)问题,开发了动态可靠性调整框架DyRAMO。该框架通过贝叶斯优化自动调整各预测模型的适用性域(AD)可靠性水平,成功设计出兼具高预测可靠性和优化性质的EGFR抑制剂,为数据驱动的多目标分子设计提供了规避预测偏差的新范式。

  在人工智能驱动的药物发现领域,数据驱动的生成模型正掀起一场革命。这类模型通过逆向设计,能快速生成具有特定性质的分子结构,为抗癌药物和功能材料开发提供了全新路径。然而,一个隐藏的陷阱——奖励黑客(reward hacking)现象正威胁着这项技术的可靠性。当模型生成的分子结构与训练数据差异过大时,预测模型会像迷路的向导一样给出错误的方向指示,导致设计出实际无效甚至荒谬的分子。这个问题在多目标优化场景中尤为棘手,因为不同性质预测模型的适用性域(AD)可能像错位的拼图般难以重合。

日本理化学研究所等机构的研究团队在《Nature Communications》发表的研究中,提出了名为DyRAMO(Dynamic Reliability Adjustment for Multi-objective Optimization)的创新框架。该研究以抗癌药物设计中常见的表皮生长因子受体(EGFR)抑制剂为范例,需要同时优化抑制活性(pIC50)、代谢稳定性(1h剩余百分比)和膜渗透性(μcm s-1)三个关键性质。传统方法要么需要预先确定各AD的重叠区域,要么被迫降低可靠性标准,都难以保证设计质量。

研究团队采用ChemTSv2作为分子生成器,结合蒙特卡洛树搜索(MCTS)和循环神经网络(RNN)进行分子探索。通过最大Tanimoto相似度(MTS)定义各预测模型的AD,开发了DSS评分(Degree of Simultaneous Satisfaction)来平衡可靠性与性质优化。贝叶斯优化(BO)被引入来自动寻找最优可靠性水平组合,形成"设定可靠性-分子生成-结果评估"的闭环优化系统。

在EGFR抑制剂设计中,DyRAMO展现出显著优势。当设定可靠性阈值为抑制活性0.66、代谢稳定性0.55、膜渗透性0.43时,系统成功生成了含喹唑啉结构的分子(已知EGFR抑制剂特征结构),其预测pIC50>8且各项性质均衡优化。相比之下,不考虑可靠性的对照组产生了结构怪异、与已知药物差异显著的分子,典型奖励黑客案例。更引人注目的是,即使从训练数据中移除已批准药物(如吉非替尼),DyRAMO仍能重新发现这些药物分子,证明其探索能力。

研究还展示了可靠性优先级的灵活性。通过调整DSS评分中的Scaler函数参数σ,可实现对特定性质(如抑制活性)的可靠性侧重,相应生成的分子在该性质AD内相似度显著提高(0.63 vs 0.53)。在训练数据相似度低的挑战场景中(移除跨数据集MTS>0.5的777个分子),系统仍能设计出高活性(实验pIC50 7-8)且性质平衡的分子。

这项研究突破了多目标分子设计中可靠性控制的瓶颈。DyRAMO的创新性体现在三个方面:首次实现AD的动态协同调整、建立可靠性-性能的量化平衡标准、开发出自动化优先级调控机制。尽管在活性悬崖(activity cliffs)处理和三维结构相似度应用等方面仍有改进空间,该框架为规避数据驱动设计中的"虚假繁荣"提供了可靠方案。随着量子化学计算等物理方法的融入,这种混合策略有望进一步拓展可信分子设计的边界,加速从计算机预测到实验室验证的转化进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号