MolProphecy:融合药物化学家知识预训练模型的多模态框架提升分子性质预测精度与可解释性

《Journal of Advanced Research》:MolProphecy: Bridging medicinal chemists’ knowledge and molecular pre-trained models via a multi-modal framework

【字体: 时间:2025年10月26日 来源:Journal of Advanced Research 13

编辑推荐:

  本研究针对药物发现中分子预训练模型缺乏专家知识的问题,提出MolProphecy框架。通过ChatGPT模拟化学家知识,结合图神经网络特征,采用门控多头交叉注意力机制进行多模态融合。在九个MoleculeNet基准测试中显著提升预测性能(如BACE的AUROC提高5.39%),并验证了其在外部队列中的泛化能力,为可解释性AI辅助药物发现提供了新范式。

  
在当今药物研发领域,新药开发面临着一个严峻的现实:平均需要10-15年和10-20亿美元的投入才能成功推出一款新药,且随着技术进步,研发成本不降反升,这一现象被称为Eroom定律。造成这种困境的核心瓶颈在于分子性质预测的可靠性——它直接决定了候选化合物能否顺利通过后续开发阶段。尽管人工智能技术在分子性质预测方面展现出巨大潜力,特别是基于BERT、GPT-3和LLaMA等大型语言模型(LLM)以及领域特异性分子预训练模型的发展,但现有模型大多仅关注结构信息(如SMILES字符串),忽略了药物化学家基于经验的隐性推理,这限制了预测准确性和可解释性,阻碍了AI在真实药物发现场景中的部署。
为了解决这一关键问题,来自长春理工大学计算机科学与技术学院的研究团队在《Journal of Advanced Research》上发表了题为"MolProphecy: Bridging medicinal chemists’ knowledge and molecular pre-trained models via a multi-modal framework"的研究论文。该研究开发了一个名为MolProphecy的代理人类参与循环(proxy-HITL)多模态框架,创新性地将化学家领域知识与结构分子信息相结合,显著提高了药物发现中的预测准确性和可解释性。
研究人员采用了几项关键技术方法:首先利用ChatGPT作为虚拟代理生成化学家风格的专业见解;接着使用LLaMA3大型语言模型对生成的化学知识进行编码;同时采用基于GIN(图同构网络)的分子图编码器提取分子结构特征;最后通过门控多头交叉注意力模块实现多模态融合。研究基于九个MoleculeNet基准数据集进行评估,包括FreeSolv、ESOL、Lipophilicity三个回归数据集和BBBP、BACE、HIV、SIDER、ClinTox、Tox21六个分类数据集,并使用了外部独立溶解度数据集进行泛化能力验证。
整体架构设计
MolProphecy包含四个核心组件:化学家知识生成模块(从人类化学家或ChatGPT收集知识见解)、化学家知识通路(使用LLM编码这些见解)、分子结构通路(从分子输入中提取基于图的特征)以及多模态融合模块(通过交叉注意力整合两种模态)。这种设计使模型能够对人类衍生信息和结构信息进行联合推理,模拟了药物化学家分析分子时从结构出发并应用领域知识推断潜在行为的典型方式。
化学知识模拟与编码
研究团队采用ChatGPT作为药物化学家的虚拟代理,使用精心设计的结构化提示来获取基于分子上下文的领域特异性推理。为确保生成内容的质量和一致性,在确定性解码设置(温度=0)下生成参考见解。化学知识嵌入通过LLaMA3模型获得,产生的隐藏状态作为上下文化标记级表示,允许后续融合层学习最优整合策略。
分子图编码器
研究人员采用了基于GIN的架构并增强了边缘特征,直接从分子图G=(V,E)中学习嵌入,其中V表示原子集合,E表示化学键集合。通过边缘条件消息传递捕获键级相互作用,在每次迭代中计算节点嵌入,最终通过读函数获得图级分子表示。
多模态融合层
该模块采用门控多头交叉注意力机制,其中分子图嵌入作为查询,化学家知识嵌入同时作为键和值。这种不对称配置反映了设计直觉:分子结构编码了化合物的核心身份,而化学家知识提供上下文指导。通过学习门控函数进一步调节信息流,实现化学家见解的受控整合。
性能比较结果
在回归任务中,MolProphecy在FreeSolv上实现了0.796的RMSE,比最佳基线降低了9.1%;在BACE、SIDER和ClinTox上,AUROC分别提高了5.39%、1.43%和1.06%。在分类任务中,该方法在多个数据集上表现最佳,特别是在BACE上达到0.938 AUROC,在ClinTox上达到0.957 AUROC。重新实现的基线比较进一步证实了MolProphecy的优越性,特别是在处理类别不平衡数据集时,AUC-PR指标显示出更大优势。
外部验证与泛化能力
在独立溶解度数据集上的测试表明,MolProphecy实现了0.651的RMSE,显著优于D-MPNN(0.858)、ChemBERTa(0.764)和MolPROP(0.797),证明了框架的强大泛化能力和实用性。
消融研究验证
模态消融实验表明,移除化学家知识编码器或分子图编码器都会导致性能明显下降,证实了结构特征和化学家见解的互补性。知识源比较显示,ChatGPT生成的化学家风格推理比传统RDKit描述符和化学特异性LLM Tx-Gemma都能提供更丰富的见解,从而获得更好的预测性能。
代理HITL框架验证
通过多LLM共识分析识别高不确定性挑战案例,并由经验丰富的药物化学家进行精化,研究发现将冲突的LLM生成知识替换为人工精化知识后,AUROC从0.871提高到0.889,准确率从0.793提高到0.815。这证明了框架的知识接口本质上是源无关的,为从代理HITL向真正协作HITL框架过渡提供了实证蓝图。
鲁棒性与可解释性分析
研究表明,即使在随机解码下,LLM生成的化学家知识也保持语义稳定性,缓解了对变异和幻觉的担忧。通过PCA、熵、SHAP和SME等可解释性分析显示,融合表示比单一模态更具表达性和信息性,能够纠正单模态特定的弱点。
研究结论表明,MolProphecy通过将化学家启发式知识与基于图的分子表示相结合,为分子性质预测提供了一个可推广的框架。其设计允许模拟输入被真实化学家知识替换而无需重新训练,建立了通向协作和可解释药物发现的途径。该框架不仅在九个基准数据集上实现了持续的性能提升,还通过可解释性分析强调了多模态融合的益处。
这项研究的重要意义在于它成功地将人类专家推理与数据驱动建模相结合,为解决药物发现中的关键瓶颈问题提供了创新解决方案。通过建立代理HITL设计,MolProphecy既利用了LLM的可扩展性来处理常规案例,又为人类化学家无缝集成以解决高不确定性挑战提供了途径,真正实现了自动化系统与不可或缺的专家直觉之间的桥梁作用。这种融合符号知识和结构表示的方法不仅提高了预测准确性,还增强了模型的可解释性和可信度,为下一代AI辅助药物发现工具的开发奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号