
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GraphGIM:基于几何图像建模的分子图对比学习新范式
【字体: 大 中 小 】 时间:2025年07月02日 来源:BMC Biology 4.4
编辑推荐:
本文针对现有分子图对比学习(GCL)方法存在的样本对多样性不足、语义误导等问题,提出创新性解决方案GraphGIM。研究团队通过将2D分子图与多视角3D几何图像进行跨模态对比学习,显著提升了分子表征的泛化能力。实验证明该方法在MoleculeNet的8个分子性质预测基准测试中超越现有最优GCL方法,其变体GraphGIM-M/P通过多尺度特征融合策略进一步优化性能。该研究为药物发现领域提供了更强大的分子表征学习工具。
在人工智能驱动的药物发现领域,分子表征学习始终是核心挑战。传统方法将分子抽象为2D图结构(节点表示原子,边表示化学键),采用图神经网络(GNN)进行处理。然而,现有基于图对比学习(GCL)的方法面临两大瓶颈:一是通过增广技术(如节点删除、边扰动)生成的样本对多样性有限,如图1a所示,原始图与增广图的余弦相似度高达0.96;二是3D几何图虽能提供空间信息,却丢失了关键边界信息。更严峻的是,分子结构的微小变化可能导致生物活性显著改变(如活性悬崖现象),这使得传统增广方法容易引入语义噪声。

湖南大学、中国科学技术大学和深圳职业技术大学的研究团队另辟蹊径,提出GraphGIM框架。该研究首次发现3D几何图像相比3D几何图具有更完整的结构信息(图1b显示图像-图对的相似度分布更分散),通过将2D分子图与四视角3D几何图像进行对比学习,实现了跨模态特征对齐。创新性地,研究者观察到CNN不同卷积层可捕获从分子骨架(全局)到功能基团(局部)的多尺度特征(图5可视化显示浅层关注分子轮廓,深层聚焦原子细节),进而开发出加权融合多尺度特征的GraphGIM-M和基于提示学习的GraphGIM-P两个变体。

关键技术包括:1)使用Rdkit工具生成2D分子图,IEM方法渲染多视角3D图像;2)采用ResNet18提取图像多尺度特征(4个卷积层输出维度64-512),GIN网络提取图特征;3)设计双模态对比损失函数,通过NT-Xent损失实现特征空间对齐;4)对70万分子数据集进行跨模态检索验证,R@10指标达85%。
主要结果
结论与意义
该研究通过几何图像建模重新定义了分子GCL范式:1)解决传统方法样本多样性不足和语义失真问题;2)首次证明3D图像比3D图更适合增强2D图表征;3)开创性利用CNN多尺度特征指导GNN学习。论文发表于《BMC Biology》,其开源代码和200万预训练数据集为后续研究提供重要资源。未来可探索方向包括结合生成模型增强图像多样性,以及扩展到蛋白质-配体相互作用预测等领域。
生物通微信公众号
知名企业招聘