基于上下文增强训练的分子构象增强基准:图 Transformer 与 GNN 模型的对比研究

【字体: 时间:2025年05月23日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  在分子表示领域,传统方法在处理复杂结构时存在局限。研究人员针对 Graph Neural Networks(GNNs)和 Graph-based Transformer(GT)模型,开展分子构象增强及性能对比研究。发现 GT 模型经上下文增强训练后性能与 GNN 相当,且更高效灵活,为分子表示学习提供新方向。

  在药物研发与分子性质预测的前沿领域,精准刻画分子结构与功能的关系始终是核心挑战。传统的分子描述符如扩展连接指纹(ECFPs)难以捕捉原子和化学键的空间排列及深层次相互作用,而基于字符串(如 SMILES)的一维表示虽便于数据增强,却与真实分子结构存在差距。随着深度学习技术的兴起,图神经网络(GNNs)凭借对分子图结构的建模能力崭露头角,但其在处理复杂构象和多任务场景时的效率与灵活性仍有待提升。与此同时,基于图的 Transformer 模型(GTs)作为新兴范式,在 2022 年开放图基准(OGB)挑战中表现亮眼,但其在不同化学空间和训练策略下的普适性尚未明确。在此背景下,来自 Janssen Cilag S.p.a. 和 Janssen Pharmaceutica N.V. 的研究团队开展了一项关键研究,相关成果发表于《Journal of Cheminformatics》,为分子表示学习领域提供了重要的方法学启示。
研究团队采用 Graphormer 架构的 GT 模型,与包括 ChemProp、GIN-VN、SchNet、PaiNN、ChIRo 在内的 GNN 模型展开对比。研究涉及三个数据集(BDE、Kraken、tmQMg),涵盖结合能估计、Sterimol 参数预测及过渡金属配合物(TMCs)量子性质预测等任务。技术方法层面,研究设计了二维(2D)、三维(3D)及四维(4D,构象集合)表示框架,并引入上下文增强训练策略,包括基于量子力学(QM)原子级性质的预训练和辅助任务多任务学习。模型输入方面,2D-GT 使用原子类型、邻居计数及拓扑距离,3D-GT 则采用分箱距离以捕捉更精细的空间信息,而 4D 模型通过最大池化操作聚合多构象特征。作为基线,研究还纳入了基于分子指纹(ECFPs、RDKit 拓扑指纹、MACCS 键)的 XGBoost 模型。

研究结果


模型效率与表示能力


GT 模型尽管参数数量多于 GNNs,但其在单 GPU 上的训练和推理速度平均快 5 倍,展现出显著的计算效率优势。在 Kraken 和 BDE 任务中,从 2D 过渡到 3D、4D 表示时,GT 模型的 R2 分数分别提升 0.11 和 0.04,表明构象集合信息的价值。然而,在 tmQMg 任务中,3D 信息引入噪声导致性能下降,凸显 2D 表示在特定场景下的稳定性。

上下文增强训练的影响


预训练于 QM 数据集(含 136,209 个小分子的 NMR 屏蔽常数、福井指数等原子级性质)显著提升了 GT 模型性能,尤其在 2D 场景下 R2 平均提升 0.11,使其在部分任务中超越 GNNs。多任务学习则表现出任务相关性依赖,在 Kraken 数据集的多任务训练中,部分子任务性能改善,但整体增益不如预训练显著。

模型对比与基线表现


在 tmQMg 任务中,3D GT 模型多数情况下 R2 优于 3D GNNs,而 PaiNN 4D 模型在 Kraken 构象集合任务中表现最佳,证明 GNNs 在充分利用多构象信息时的潜力。基线 XGBoost 模型在 Sterimol BurL 等任务中表现优异,甚至超越神经网络,提示传统方法在特定场景下仍具竞争力。

不确定性与鲁棒性


上下文增强的 GT 模型在多数任务中表现出更低的预测不确定性,而 SchNet 4D 模型因构象集合训练的复杂性,不确定性较高。这表明预训练不仅提升准确性,还增强了模型稳定性。

结论与讨论


本研究系统揭示了 GT 模型在分子表示学习中的潜力:经上下文增强训练后,其性能与 GNNs 相当,同时兼具速度和灵活性优势,尤其适用于多模态数据和快速推理场景。研究还指出,构象集合的价值高度依赖任务特性,在结构灵活的分子体系(如含多个可旋转键的配体)中优势显著,而单构象数据可能因噪声限制 3D 模型性能。此外,预训练作为注入领域知识的有效手段,为低数据场景下的模型优化提供了新路径。

该研究为药物发现、定量构效关系(QSAR)建模等领域提供了关键方法参考,证实 GT 模型可作为 GNNs 的高效替代方案。未来研究可进一步探索跨模态数据融合与自监督预训练策略,以推动分子深度学习模型向更高泛化能力和化学可解释性发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号