GraphGIM:基于几何图像建模的分子图对比学习新范式

【字体: 时间:2025年07月02日 来源:BMC Biology 4.4

编辑推荐:

  本文针对现有分子图对比学习(GCL)方法存在的样本对多样性不足、语义误导等问题,提出创新性解决方案GraphGIM。研究团队通过将2D分子图与多视角3D几何图像进行跨模态对比学习,显著提升了分子表征的泛化能力。实验证明该方法在MoleculeNet的8个分子性质预测基准测试中超越现有最优GCL方法,其变体GraphGIM-M/P通过多尺度特征融合策略进一步优化性能。该研究为药物发现领域提供了更强大的分子表征学习工具。

  

在人工智能驱动的药物发现领域,分子表征学习始终是核心挑战。传统方法将分子抽象为2D图结构(节点表示原子,边表示化学键),采用图神经网络(GNN)进行处理。然而,现有基于图对比学习(GCL)的方法面临两大瓶颈:一是通过增广技术(如节点删除、边扰动)生成的样本对多样性有限,如图1a所示,原始图与增广图的余弦相似度高达0.96;二是3D几何图虽能提供空间信息,却丢失了关键边界信息。更严峻的是,分子结构的微小变化可能导致生物活性显著改变(如活性悬崖现象),这使得传统增广方法容易引入语义噪声。

湖南大学、中国科学技术大学和深圳职业技术大学的研究团队另辟蹊径,提出GraphGIM框架。该研究首次发现3D几何图像相比3D几何图具有更完整的结构信息(图1b显示图像-图对的相似度分布更分散),通过将2D分子图与四视角3D几何图像进行对比学习,实现了跨模态特征对齐。创新性地,研究者观察到CNN不同卷积层可捕获从分子骨架(全局)到功能基团(局部)的多尺度特征(图5可视化显示浅层关注分子轮廓,深层聚焦原子细节),进而开发出加权融合多尺度特征的GraphGIM-M和基于提示学习的GraphGIM-P两个变体。

关键技术包括:1)使用Rdkit工具生成2D分子图,IEM方法渲染多视角3D图像;2)采用ResNet18提取图像多尺度特征(4个卷积层输出维度64-512),GIN网络提取图特征;3)设计双模态对比损失函数,通过NT-Xent损失实现特征空间对齐;4)对70万分子数据集进行跨模态检索验证,R@10指标达85%。

主要结果

  1. 性能突破:在MoleculeNet的8个数据集上,GraphGIM平均ROC-AUC达72.66%,超越GraphCL(70.64%)和GraphMVP(71.69%)。其中ClinTox任务提升最显著(88.08% vs 78.9%),证明3D图像比3D图更具信息增益(表1)。
  2. 特征分析:t-SNE可视化(图4)显示GraphGIM的DB指数(1.030)优于Morgan指纹(1.084),表明其能更好区分不同分子骨架。
  3. 多尺度验证:Level 1特征(64维)贡献最大(平均72.80%),证实浅层全局特征对分子表征的关键作用(表2)。

结论与意义
该研究通过几何图像建模重新定义了分子GCL范式:1)解决传统方法样本多样性不足和语义失真问题;2)首次证明3D图像比3D图更适合增强2D图表征;3)开创性利用CNN多尺度特征指导GNN学习。论文发表于《BMC Biology》,其开源代码和200万预训练数据集为后续研究提供重要资源。未来可探索方向包括结合生成模型增强图像多样性,以及扩展到蛋白质-配体相互作用预测等领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号