
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MolPrompt:基于知识提示的多模态分子预训练框架在药物发现中的突破性应用
【字体: 大 中 小 】 时间:2025年08月24日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对当前分子预训练模型过度依赖拓扑结构而忽视物理化学属性的局限性,开发了MolPrompt框架。该研究创新性地将分子描述符转化为自然语言提示,通过Graphormer和BERT双编码器实现分子图与文本的对比学习,在分子性质预测、毒性评估和抗癌抑制剂识别等任务中显著超越现有方法(ROC-AUC提升2.0-4.1%),为AI驱动的药物发现提供了语义更丰富、可解释性更强的分子表征新范式。
在人工智能驱动的药物研发浪潮中,分子表征学习正成为加速药物发现的革命性工具。然而现有预训练模型大多像"盲人摸象"般仅关注分子拓扑结构,忽视了决定药物活性的关键物理化学属性——这就像试图仅通过骨架轮廓来识别动物,却忽略了皮毛颜色、纹理等特征。这种局限性导致模型难以捕捉分子结构与功能间的复杂关系,成为制约AI在药物设计中应用的瓶颈。
为突破这一困境,Yang Li等研究团队在《Bioinformatics》发表了题为"MolPrompt"的创新研究。该工作受人类化学家多维度认知分子的启发,首次将分子描述符转化为自然语言提示,构建了知识增强的多模态预训练框架。研究人员从PubChem收集20万分子-文本对构建PC200K数据集,采用RDKit提取10种核心分子描述符(如分子量MolWT、拓扑极性表面积TPSA等),将其数值转化为"描述符:数值"格式的文本提示。通过Graphormer(图Transformer)编码分子图结构,BERT处理文本描述,并创新性地将知识提示嵌入图编码器节点特征,最终通过跨模态对比学习实现语义对齐。
关键技术包括:1)基于RDKit的分子描述符文本化提示构建;2)Graphormer-BERT双编码器架构;3)知识提示引导的图结构表征学习;4)分子图-文本对比损失函数设计。
分子-文本跨模态检索
在PCDes和MoMu数据集上,MolPrompt的M2T(分子到文本)和T2M(文本到分子)Recall@20分别达到88.2%和86.5%,较最优基线提升3.0-5.1%。案例显示其对4-羟基苯磺酸等复杂分子的语义捕捉能力显著增强。
分子性质预测
在MoleculeNet的8个基准测试中,MolPrompt在BBBP(血脑屏障穿透性)等6项任务中ROC-AUC领先,临床毒性预测准确率达94%。注意力可视化揭示模型能精准识别决定活性的关键子结构。
分子毒性预测
针对hERG(人类醚相关基因)阻滞剂预测,模型ROC-AUC达87.8±0.5%,较MOLEBLEND提升2.7%。活性悬崖(activity cliffs)分析表明,MolPrompt能敏锐区分结构相似但毒性迥异的分子对(如相差一个羟基的化合物),注意力图清晰显示差异区域。
抗癌靶点抑制剂发现
应用于FGFR1(成纤维细胞生长因子受体1)抑制剂筛选时,模型从4214个已上市药物中成功定位Erdafitinib等8个已知抑制剂,对接能量均<-7 kcal/mol。PLIP分析证实预测分子能与FGFR1关键残基形成稳定氢键网络。
这项研究的重要意义在于:首次通过自然语言提示将领域知识无缝融入分子表征学习,突破了传统预训练模型"重结构、轻属性"的局限。就像为化学家配备了"分子翻译器",MolPrompt实现了结构特征与物化属性的早期交互,使AI模型能像人类专家一样多维度理解分子。其在毒性预测和抗癌靶点识别中的优异表现,验证了知识引导的多模态学习在精准药物设计中的巨大潜力。未来,该框架可扩展至3D分子构象、生物通路等多模态数据,为构建药物研发的基础模型开辟新路径。
生物通微信公众号
知名企业招聘