基于原子量子性质预训练图 Transformer 提升药物 ADMET 性质建模效果

【字体: 时间:2025年02月28日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  为解决数据稀缺和模型泛化性问题,卢森堡大学等机构研究人员开展关于预训练图 Transformer 对药物 ADMET 性质建模影响的研究,发现基于原子量子力学性质预训练的模型表现更优,为分子表征学习和药物研发提供参考。

  

一、研究背景

在药物研发领域,准确预测药物的吸收、分布、代谢、排泄和毒性(ADMET)性质至关重要,这关系到药物能否安全有效地发挥作用。随着深度学习的发展,分子表征学习成为研究热点,通过学习分子的特征表示,可用于预测各种性质。然而,当前的研究面临着数据稀缺和模型泛化性差等挑战。传统的预训练策略虽然在一定程度上有所帮助,但对模型学习到的表征的实际影响缺乏深入理解。为了突破这些困境,寻找更有效的预训练方法,卢森堡大学(University of Luxembourg)、杨森制药(Janssen Pharmaceutica NV)等机构的研究人员开展了一项深入研究。

二、研究方法

研究人员使用了自定义的 Graphormer 作为图 Transformer(GTs)网络实例,它将分子视为由原子作为节点、化学键作为边的图结构。在预训练阶段,使用了两个公开数据集:一个包含约 136k 有机分子及多种原子性质,如电荷、福井指数(Fukui indexes)、核磁共振屏蔽常数(NMR shielding constant)等;另一个是 PCQM4Mv2 数据集,包含分子的最高占据分子轨道 - 最低未占据分子轨道能隙(HOMO-LUMO gap,HLG)。研究人员对比了三种预训练策略:基于原子量子力学(QM)性质的预训练、基于 HLG 的预训练和原子掩码预训练(masking pretraining)。之后,在治疗数据共享库(Therapeutics Data Commons,TDC)的 ADMET 基准数据集上进行微调,并使用了内部公司的人肝微粒体(human liver microsome,HLM)清除率数据集进行测试。研究过程中,还运用了统一流形近似与投影(Uniform Manifold Approximation and Projection,UMAP)分析、正则化线性回归、计算表征秩相关的指标、注意力展开矩阵(Attention Rollout matrix)的谱分析以及邻居敏感性分析等方法。

三、研究结果

  1. 基准测试结果:在 TDC 的 ADMET 基准测试中,整体上预训练模型比从头训练的模型表现更好。基于原子 QM 性质预训练的模型组在多个任务中表现最佳,特别是在预测溶解度、亲脂性和急性毒性(LD50)等性质时,优于 TDC 排行榜上的最佳模型。基于 HLG 预训练的模型仅在一个性质上表现突出,原子掩码预训练模型在多个任务中与其他模型共同达到最佳性能1
  2. 内部数据集性能:在内部的 HLM 清除率数据集上,基于所有原子 QM 性质预训练的模型在系数和斯皮尔曼(Spearman)系数这两个指标上都取得了最佳结果,其次是基于 NMR 位移和原子电荷预训练的模型。而原子掩码预训练模型在所有预训练模型中表现最差,但仍优于从头训练的模型2
  3. 预训练信息的保留:通过对微调后模型的潜在表示分析发现,预训练信息在微调后总体上仍有保留,但不同预训练方式保留程度不同。例如,基于 NMR 位移预训练的模型与原子电荷表示高度相关,且在微调过程中预训练信息的退化最少3
  4. 潜在表示的跨层表现力:不同预训练策略对模型潜在表示的跨层表现力影响不同。与从头训练的模型相比,所有预训练策略都减轻了潜在表现力的下降。基于原子 QM 性质预训练的模型在网络的前半部分表现力显著增加,达到比其他模型更高的值,而后有所下降4
  5. 注意力展开的谱分析:从头训练的模型几乎没有非平凡的拉普拉斯特征模式,而预训练模型都呈现出非零的值。基于原子 QM 性质预训练的模型对图拉普拉斯特征模式的感知最强,原子掩码预训练模型的图谱感知最低5
  6. 邻居敏感性分析:从头训练的模型对相邻原子的敏感性较低且恒定,而预训练模型随拓扑距离呈现合理的下降趋势。基于所有原子 QM 性质预训练的模型对所有考虑的拓扑距离的敏感性最强,原子掩码预训练模型的敏感性最低66

四、研究结论与意义

研究表明,在测试的策略中,以多任务方式对 Graphormer 进行四种原子 QM 性质的预训练,为后续在 ADMET 性质上的微调提供了最佳模型。该模型在 TDC 基准测试和更大的 JNJ HLM 清除率数据集上都表现出色。潜在空间分析显示,这种预训练方式使模型在潜在表现力、邻居敏感性和图谱感知等方面都处于领先地位。同时,研究还发现基于 NMR 屏蔽常数和原子电荷预训练的模型在研究指标中排名第二,而福井指数预训练的模型表现相对较差。此外,研究突出了仅使用公共基准数据集选择最佳预训练方法的局限性,强调了使用其他指标进行评估的重要性。该研究为分子性质建模的评估提供了新视角,为分子表征学习和药物研发中有用的计算机模拟数据集的开发提供了有价值的见解,有望推动相关领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号