
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态融合与关系学习的分子性质预测框架MMFRL:提升药物发现与材料科学的精准度
【字体: 大 中 小 】 时间:2025年07月06日 来源:Communications Chemistry 5.9
编辑推荐:
本研究针对分子性质预测中现有方法难以捕捉复杂分子关系及依赖单一模态数据的局限性,提出创新性解决方案MMFRL(Multimodal Fusion with Relational Learning)。通过引入改进的关系学习度量(MRL)和多阶段融合策略(早期/中期/晚期融合),该框架在MoleculeNet基准测试中显著提升预测性能(最高ROC-AUC达95.4%),并实现无辅助模态时的知识迁移。其解释性分析(如MPS子结构识别)为药物设计提供新见解,相关成果发表于《Communications Chemistry》。
在药物发现和材料科学领域,准确预测分子性质如同破解生命的密码。传统图神经网络(GNN)虽能将分子结构转化为原子节点和化学键边的拓扑图,却面临两大困境:如同仅凭骨架判断双胞胎性格差异,相同拓扑结构的分子(如沙利度胺(R)/(S)-对映体)可能展现截然不同的生物活性;而依赖单一数据模态的预测模型,更像用单眼观察世界,难以全面捕捉分子特性。这些局限性严重制约了新药研发和功能材料设计的效率。
针对这些挑战,中国科学院团队在《Communications Chemistry》发表突破性研究,提出多模态融合关系学习框架MMFRL。该工作创新性地将分子指纹(Fingerprint)、SMILES字符串、核磁共振(NMR)谱和分子图像等多模态数据,通过改进的关系学习度量(MRL)进行对齐,并系统探索早期、中期、晚期三种融合策略。令人振奋的是,该方法在11项MoleculeNet基准测试中全面超越现有技术,其中BACE分类任务ROC-AUC达95.1%,脂溶性预测RMSE低至0.525。更可贵的是,通过t-SNE可视化(图2)和子结构分析(图5),研究者首次揭示分子溶解度梯度变化规律与关键药效团特征,为理性药物设计提供全新视角。
关键技术包括:1)改进关系学习模块(MRLM)通过softmax加权实现跨模态连续相似性对齐(公式1-3);2)定向消息传递神经网络(DMPNN)避免分子图信息传递中的冗余循环;3)多阶段融合策略(公式6-11)分别处理模态互补与主导场景;4)基于NMRShiftDB2数据库的25,000分子预训练。研究数据来源于国际公开数据库MoleculeNet、DUD-E和LIT-PCBA。
研究结果
预训练有效性验证
如表1所示,除Clintox外,多模态预训练模型在所有下游任务中均显著优于未预训练模型。其中NMR模态在3项分类任务中表现最佳,而图像模态在溶解度相关回归任务中优势突出,与文献报道的视觉特征对物化性质的表征能力高度吻合。
MMFRL整体性能
如表2-3所示,中期融合策略在7项任务中领先(如BBBP分类ROC-AUC 95.4%),其通过MLP融合多维特征(公式8)的特性更适合模态互补场景;而晚期融合在脂溶性预测等任务中凭借权重自适应机制(公式11)占据优势。在DUD-E虚拟筛选中,MMFRL较基线模型提升超20%,证实其处理真实复杂数据的能力。
融合效应分析
通过皮尔逊相关性分析(表4),发现高"Pearson增益"数据集(如ToxCast增益0.318)更适合中期融合,而单模态主导场景(如FreeSolv)适用晚期融合。t-SNE热图(图2)直观展示中期融合如何将ESOL分子按溶解度梯度排列,而模态相似性分析(图3)揭示SMILES与图像模态的核心贡献。
可解释性研究
在BACE抑制剂分析中(图5),蒙特卡洛树搜索(MCTS)鉴定的最小阳性子结构(MPS)显示:柔性烷基化吡唑结构(5a-5c)通过降低空间位阻和增加氢键位点,使结合评分提升37%,而刚性三氟甲氧基苯基(5n-5p)则产生抑制作用。这一发现为靶向药物优化提供明确结构指导。
该研究开创性地将关系学习引入多模态分子表征领域,其理论价值体现在三方面:1)提出的MRL度量(定理5.3)严格证明在softmax约束下的收敛性,为跨模态对齐提供数学保证;2)构建的首个系统评估框架揭示融合策略与数据特性的匹配规律;3)开发的解释性工具链(从原子级CL到MPS分析)推动AI药物设计从"黑箱"走向可解释。在实际应用中,MMFRL已展示出替代部分湿实验的潜力,其开源代码(GitHub/zhengyjo/MMFRL)将加速相关领域发展。未来,该框架有望拓展至社会网络分析等更广阔领域,实现"分子社会学"的跨学科突破。
生物通微信公众号
知名企业招聘