
-
生物通官微
陪你抓住生命科技
跳动的脉搏
YieldFCP:基于细粒度跨模态预训练的化学反应产率精准预测新方法
【字体: 大 中 小 】 时间:2025年04月22日 来源:Artificial Intelligence Chemistry
编辑推荐:
针对化学反应产率预测中多模态信息融合粗糙、原子级相互作用忽略等问题,研究人员开发了YieldFCP模型。该模型通过1D SMILES序列与3D几何数据的细粒度跨模态对齐(采用Q-Former架构),在USPTO等大规模数据集上预训练,在Buchwald-Hartwig等真实场景数据中R2提升1.4%-3%,成功识别卤素原子等关键反应位点,为药物合成路线优化提供新工具。
在有机化学合成领域,反应产率(Yield)预测一直是制约新药开发和材料合成的关键瓶颈。传统方法依赖专家设计的分子指纹或单一模态的深度学习模型,难以捕捉原子级别的立体化学效应。更棘手的是,现有多模态模型如ReaMVP仅进行反应级别的粗粒度对齐,导致预测真实场景中未见分子时性能骤降——例如在电子实验记录本(ELN)数据上,现有最佳模型的R2不足0.3。这种"实验室到产线"的预测鸿沟,使得化学家们仍在大量依赖试错法优化反应条件。
针对这一挑战,浙江大学的研究团队在《Artificial Intelligence Chemistry》发表的研究中,提出了名为YieldFCP的创新框架。该模型首次将视觉-语言领域的Q-Former架构引入化学领域,通过8个可学习查询令牌(Query Tokens)在原子级别桥接1D SMILES序列与3D分子构象(由Uni-Mol编码器提取)。研究团队采用三阶段预训练策略:基于最大相似度的构象-SMILES对比损失(?CSC)、二元匹配分类任务(?CSM)以及自回归SMILES生成(?SG),在包含396万反应的USPTO-CJHIF数据集上训练。
关键技术方法包括:1)使用ETKDG算法生成分子3D构象;2)基于BLIP2架构设计跨模态投影器;3)采用多任务预训练策略;4)在BH/SM等数据集上采用留出分子(out-of-sample)验证策略。实验数据来自4类真实场景:高通量实验(HTE)的Buchwald-Hartwig反应(3,955例)、Suzuki-Miyaura偶联反应(5,760例)、电子实验记录本(ELN,750例)和文献提取的镍催化C-O键活化反应(NiCOlit,1,406例)。
3.2 Results on the HTE datasets
在配体留出的Suzuki-Miyaura数据集上,YieldFCP的R2达到0.480±0.029,较ReaMVP提升1.2%。特别值得注意的是,模型在吡啶类反应物留出的Buchwald-Hartwig数据中,对添加剂异恶唑1a/1b的关键氧原子和氮原子展现出显著注意力权重,这与化学机制中配体配位作用的认知一致。
3.3 Results on the real-world ELN dataset
面对结构多样性更高的ELN数据,模型R2提升至0.242,增幅达30%。UMAP可视化显示,传统方法在反应指纹(DRFP)空间存在明显聚类偏移,而YieldFCP通过原子级特征对齐缓解了该问题。
3.5 Visualization analysis
如图5所示,模型在预测溴代芳烃产率时,对溴原子(Br)和杂原子(N)的注意力权重分别达到0.48和0.32,准确反映出卤素键断裂能垒和孤对电子效应对反应活性的影响。
这项研究的突破性在于:首次实现分子级别而非反应级别的跨模态融合,使产率预测在真实场景中的R2提升最高达3%。通过可解释的注意力机制,化学家能直观识别影响产率的关键原子——例如在Pd催化反应中,模型自动聚焦卤素原子与钯的配位位点。尽管在ELN数据上表现仍有提升空间(R2<0.3),但该方法为计算机辅助合成设计(CASD)提供了新范式。未来工作可探索将2D分子图像纳入多模态体系,或结合强化学习优化反应条件组合。
研究团队特别指出,当前性能瓶颈可能源于计算构象与实验晶体结构的差异。采用更精确的量子化学计算方法生成构象,或引入反应能垒等物理化学描述符,可能是下一步改进方向。这项成果标志着AI化学从"黑箱预测"迈向"可解释设计"的重要一步。
生物通微信公众号
知名企业招聘