GraphGIM：基于几何图像建模的分子图对比学习新范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月02日 来源：BMC Biology 4.4

编辑推荐：

　　本文针对现有分子图对比学习(GCL)方法存在的样本对多样性不足、语义误导等问题，提出创新性解决方案GraphGIM。研究团队通过将2D分子图与多视角3D几何图像进行跨模态对比学习，显著提升了分子表征的泛化能力。实验证明该方法在MoleculeNet的8个分子性质预测基准测试中超越现有最优GCL方法，其变体GraphGIM-M/P通过多尺度特征融合策略进一步优化性能。该研究为药物发现领域提供了更强大的分子表征学习工具。

在人工智能驱动的药物发现领域，分子表征学习始终是核心挑战。传统方法将分子抽象为2D图结构（节点表示原子，边表示化学键），采用图神经网络(GNN)进行处理。然而，现有基于图对比学习(GCL)的方法面临两大瓶颈：一是通过增广技术（如节点删除、边扰动）生成的样本对多样性有限，如图1a所示，原始图与增广图的余弦相似度高达0.96；二是3D几何图虽能提供空间信息，却丢失了关键边界信息。更严峻的是，分子结构的微小变化可能导致生物活性显著改变（如活性悬崖现象），这使得传统增广方法容易引入语义噪声。

湖南大学、中国科学技术大学和深圳职业技术大学的研究团队另辟蹊径，提出GraphGIM框架。该研究首次发现3D几何图像相比3D几何图具有更完整的结构信息（图1b显示图像-图对的相似度分布更分散），通过将2D分子图与四视角3D几何图像进行对比学习，实现了跨模态特征对齐。创新性地，研究者观察到CNN不同卷积层可捕获从分子骨架（全局）到功能基团（局部）的多尺度特征（图5可视化显示浅层关注分子轮廓，深层聚焦原子细节），进而开发出加权融合多尺度特征的GraphGIM-M和基于提示学习的GraphGIM-P两个变体。

关键技术包括：1）使用Rdkit工具生成2D分子图，IEM方法渲染多视角3D图像；2）采用ResNet18提取图像多尺度特征（4个卷积层输出维度64-512），GIN网络提取图特征；3）设计双模态对比损失函数，通过NT-Xent损失实现特征空间对齐；4）对70万分子数据集进行跨模态检索验证，R@10指标达85%。

主要结果

性能突破：在MoleculeNet的8个数据集上，GraphGIM平均ROC-AUC达72.66%，超越GraphCL（70.64%）和GraphMVP（71.69%）。其中ClinTox任务提升最显著（88.08% vs 78.9%），证明3D图像比3D图更具信息增益（表1）。
特征分析：t-SNE可视化（图4）显示GraphGIM的DB指数（1.030）优于Morgan指纹（1.084），表明其能更好区分不同分子骨架。
多尺度验证：Level 1特征（64维）贡献最大（平均72.80%），证实浅层全局特征对分子表征的关键作用（表2）。

结论与意义
该研究通过几何图像建模重新定义了分子GCL范式：1）解决传统方法样本多样性不足和语义失真问题；2）首次证明3D图像比3D图更适合增强2D图表征；3）开创性利用CNN多尺度特征指导GNN学习。论文发表于《BMC Biology》，其开源代码和200万预训练数据集为后续研究提供重要资源。未来可探索方向包括结合生成模型增强图像多样性，以及扩展到蛋白质-配体相互作用预测等领域。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号