MolCL-SP:基于非重叠子结构扰动和多模态对比学习的分子表示学习框架

【字体: 时间:2025年09月12日 来源:Bioinformatics 5.4

编辑推荐:

  本研究针对分子表示学习中化学语义破坏和跨模态冗余问题,提出MolCL-SP框架,通过非重叠子结构扰动策略和1D/2D/3D多模态对比学习,在8个MoleculeNet数据集和12个QM9任务上实现SOTA性能,显著提升分子性质预测的泛化能力和可解释性,为计算药物发现提供新范式。

  

在当今计算药物发现领域,分子表示学习已成为预测化合物性质、筛选候选药物的核心技术。然而,现有方法面临两大瓶颈:一是传统数据增强技术可能破坏分子固有的化学语义(如功能基团的空间构型),二是多模态融合中存在信息冗余问题,导致1D(SMILES序列)、2D(分子图)和3D(空间构象)模态间的互补性未能充分利用。例如GraphMVP和DVMP仅实现分子级别的模态对齐,而MOLEBLEND缺乏子结构层面的扰动策略。这些局限性促使中南大学研究团队开发出MolCL-SP——一个融合非重叠子结构扰动与多模态对比学习的创新框架。

该研究首先采用PCQM4Mv2数据集(包含337万个分子)进行预训练,并在20个下游任务上评估性能,包括MolecularNet的8个2D数据集(以ROC-AUC评估)和QM9的12个3D量子性质任务(以MAE评估)。关键技术方法包括:1)基于Transformer的1D编码器处理ESPF序列;2)图同构网络(GIN)编码2D分子图;3)DimeNet编码3D几何结构;4)跨模态特征交互Transformer模块;5)针对不同模态设计的重构解码器(含交叉熵损失、SCE损失和去噪损失);6)注意力加权的动态特征融合机制。

非重叠子结构扰动策略

通过原子级对齐的跨模态子结构划分,对选定子结构施加模态特异性扰动:1D采用token掩码,2D进行节点特征丢弃,3D添加高斯坐标噪声。这种设计确保扰动不会破坏关键化学语义,同时最大化跨模态互补信息。

对比学习主干网络

三模态编码器将特征映射至共享嵌入空间后,通过可训练模态标识符保留身份信息,再经Transformer实现原子级细粒度对齐。重构任务中,1D解码器预测掩码token,2D解码器重构节点特征,3D解码器整合L2损失和余弦相似性损失进行坐标去噪。

评估2D能力

在MoleculeNet基准测试中,MolCL-SP在BBBPTox21等8个数据集上平均AUC达到78.84%,显著超过MolCLR(70.79%)、GraphMAE(73.85%)等基线方法。特别是在ClinTox任务中取得99.4%的惊人性能,证明其对临床毒性预测的卓越能力。

3D量子性质预测

在QM9的12项任务中,该方法在偶极矩、极化率等量子力学性质预测上达到最低MAE,凸显其处理3D空间信息的优势。

药物关联预测应用

在DrugBank药物-药物相互作用(DDI)预测中,MolCL-SP在转导和归纳设置下均优于Morgan指纹、GMPNN-CS等方法,归纳设置P1分区ACC达74.25%(较第二提升3.94%)。在药物-疾病关联(DDA)预测中,以89.6%的AUC值超越DeepDR、HDGAT等专用模型,证实其表征的可迁移性。

可解释性分析

通过t-SNE可视化显示,预训练后的BACE数据集表征呈现清晰的类别聚集(Figure 3)。功能基团提示实验(Figure 4)表明模型能有效捕捉磺酰胺基、苯环等关键药效团与血脑屏障渗透性(BBB permeability)的关联,这与已知药理机制(如Seelig 2007年提出的分子大小/电荷影响BBB渗透理论)高度一致。

该研究证实了非重叠子结构扰动在增强跨模态互补性和减少冗余方面的有效性。通过原子级对齐的多模态融合机制,MolCL-SP不仅实现了SOTA性能,更产生了具有明确化学意义的可解释表征。在阿尔茨海默症靶点BACE1抑制剂(如Verubecestat)和IL-6信号通路(如gp130受体)相关药物发现中展现出应用潜力。未来工作可探索层次注意力融合、蛋白质-配体相互作用整合等方向,进一步拓展其在真实药物研发场景中的应用价值。

该论文发表于《Bioinformatics》,为多模态分子学习提供了新范式,其代码和模型已开源供学术使用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号