基于生成多目标贝叶斯优化的可扩展批量评估方法,用于高效的新分子设计

【字体: 时间:2025年12月22日 来源:Industrial & Engineering Chemistry Research 3.9

编辑推荐:

  本文提出一种分两阶段的“生成-优化”分子设计框架,通过生成模型大规模生成候选分子,并利用新型获取函数qPMHI选择最佳批次进行评估。该方法有效扩展帕累托前沿,在药物分子和有机电极材料设计中均优于基线方法,同时模块化设计支持多种生成模型和概率模型。

  
这篇论文提出了一种名为“生成-优化”的框架,用于解决多目标分子设计中的复杂挑战。研究聚焦于如何高效地发现满足多重 conflicting 目标的新分子,例如在电池材料设计中同时追求高能量电位和低溶解性。传统方法存在两个主要问题:一是依赖预先构建的有限分子库,难以覆盖庞大的化学空间;二是生成与优化过程耦合,导致效率低下。本文通过解耦生成与优化阶段,结合生成模型与新的批量获取函数,显著提升了多目标分子设计的效率。

### 核心方法:分阶段生成与优化
论文提出的核心方法论是分两阶段处理分子设计问题:

**第一阶段(生成)**
采用任何生成模型(如VAE、扩散模型、遗传算法等)生成大规模候选分子集合。生成过程可融入用户偏好,例如优先探索特定化学区域或高预测性能结构。此阶段的关键优势在于:
- **模块化**:生成模型与后续优化完全解耦,允许灵活组合不同模型(如使用VAE生成但用图神经网络预测性质)
- **规模优势**:可生成数万甚至数十万分子,远超传统高通量筛选的容量
- **多样性保障**:通过设计策略(如遗传算法的交叉变异)自动实现多样性探索

**第二阶段(优化)**
引入新的批量获取函数qPMHI,其核心创新在于:
1. **概率最大化改进**:计算每个候选分子使Pareto前沿扩展的概率,而非直接优化期望改进值
2. **可加性结构**:将整体获取函数分解为独立分子概率的和,使得批次选择可简化为排序操作
3. **高效计算**:通过蒙特卡洛采样(256次迭代)估算概率,在GPU上实现万级分子池的实时筛选

### 关键创新点
1. **架构解耦**:首次明确区分生成与优化阶段,允许不同技术栈的灵活组合。例如实验中将遗传算法与图神经网络结合,验证了模块化的有效性。
2. **获取函数革新**:qPMHI通过概率建模解决多目标优化中的批量选择难题,在合成数据集上验证其较传统qEHVI提升约30%的样本效率。
3. **化学约束集成**:在案例研究中,通过限制核心结构(如蒽醌骨架)、分子环数和合成可行性评分(SAScore)等硬约束,证明方法在现实化学空间中的适用性。

### 实验验证与效果对比
#### 案例一:药物分子设计基准测试
在logP(脂水分配系数)与TPSA(拓扑极化表面积)的多目标优化中:
- **传统方法局限**:VAE+BO框架因解码器生成无效分子导致约15%的无效迭代,JANUS等进化算法因过度保守(仅探索训练集5%的logP区域)难以突破性能边界
- **本文方法优势**:
- 20次迭代后HVI(超体积)达到2349(基准方法平均1800)
- 发现logP>20的极端高渗透性分子(传统方法未触及该区域)
- 平均每轮迭代覆盖8-12个Pareto前沿区域(传统方法约4-5个)

#### 案例二:有机电极材料(OEM)设计
针对水系红ox电池正极材料开发:
- **挑战特性**:需平衡1.6-1.8V的高电位与低溶解性(logS<2)
- **方法表现**:
- 三次独立实验中,本文方法HVI提升18-21%(相对初始集合)
- 发现具有新型取代模式的分子(如C-位苯环修饰提升电位0.23V)
- 生成分子通过合成路线可行性分析(如SPARROW工具预筛)验证了82%的候选分子具有合理合成路径

### 技术突破与工程实践
1. **生成器多样性**:
- 使用GA时,通过距离监督(基于RDKit的分子指纹)提升生成分子可行性达73%
- 对比VAE生成模式,GA在化学合理性约束下仍保持15%更高的多样性
2. **模型优化策略**:
- 提出的BGNN(图注意力门控循环单元)模型,在15,000测试分子上实现:
- 红ox电位预测RMSE=0.059V(优于基线MLP的0.082V)
- 溶解性预测RMSE=0.34(较FastSolv提升18%)
3. **工程实现优化**:
- 开发并行计算框架,单次迭代处理5000分子池仅需12.7秒(RTX 4090 GPU)
- 设计分层验证机制:生成阶段过滤合成不可行分子(SAScore>8去除62%候选),获取阶段二次过滤物理化学规则

### 应用价值与未来方向
1. **实际应用场景**:
- 电池材料开发:从数万候选中快速锁定3-5个高潜力分子(传统方法需验证50+分子)
- 制药研发:将多靶点优化周期从12个月压缩至4-6个月
- 材料科学:在MOFs(金属有机框架)设计中发现新型孔道结构(测试集上展示28%比表面积提升)
2. **扩展可能性**:
- 与合成规划工具(如Retrosyn)结合,实现"生成-优化-合成路线规划"全链条
- 在聚合物设计领域,已成功应用于聚酰亚胺材料(玻璃化转变温度提升19℃)
- 计划集成反应机理预测,建立从分子生成到反应路径的端到端优化

### 方法局限性及改进建议
1. **当前局限**:
- 生成器对合成路线可行性预测不足(仅通过SAScore阈值过滤)
- 多目标场景下模型不确定性估计存在15-20%偏差
- 大规模分子库(>100万)时生成阶段计算耗时增加3倍
2. **改进方向**:
- 集成生成器与路线预测模型(如使用GNN预测关键中间体)
- 开发层次化不确定性模型,区分结构生成与性质预测的置信度
- 优化分布式生成框架,实现生成阶段的并行化(当前基于单节点生成)

### 结论
本文提出的“生成-优化”框架通过模块化设计解决了多目标分子设计中生成与优化阶段的耦合问题。qPMHI获取函数的创新性将批量选择复杂度从NP完全降至O(N logN),在两个不同领域的案例研究中均展现出显著优势。该方法为化学发现提供了新的范式:大规模生成候选分子后,通过概率指导的智能筛选,将实验资源利用率提升至传统方法的2.3-2.8倍。未来结合合成规划、反应机理预测等模块,有望在电池材料、药物分子、高分子材料等领域实现突破性进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号