超图视角下统一可解释分子表示学习框架OmniMol破解不完美标注数据难题,赋能ADMET性质预测与药物研发

【字体: 时间:2025年10月02日 来源:Nature Communications 15.7

编辑推荐:

  研究团队针对药物研发中分子数据集存在标注不完整、稀疏及不平衡的挑战,从超图视角出发,开发了统一可解释的多任务分子表示学习框架OmniMol。该框架整合任务元信息编码器与任务路由混合专家(t-MoE)主干网络,有效捕捉性质间相关性并产生任务自适应输出;通过SE(3)编码器实现手性感知,结合平衡构象监督、递归几何更新与尺度不变消息传递,促进基于学习的构象弛豫。研究在ADMET性质预测中达到SOTA性能,在手性感知任务中表现优异,并对分子间、分子-性质间及性质间三类关系展现出强大可解释性,为药物发现提供了可靠的计算工具。

药物研发过程因其冗长、昂贵且高失败率而闻名。据统计,将一个新药推向市场需投入1.61亿至45亿美元,且需经历严格的多阶段临床试验以确保安全性与有效性。近年来,数据驱动的人工智能(AI)技术,尤其是分子表示学习(Molecular Representation Learning, MRL),在预测量子级别化学性质方面展现出显著潜力,为临床前药物筛选提供了高效、低风险的替代方案,有望减轻传统分子合成与湿实验的负担,从而加速药物研发进程。其中,早期对吸收、分布、代谢、排泄、毒性及理化性质(ADMET-P)的评估可显著降低研发成本并减少副作用风险。
然而,现有ADMET预测模型(如ADMETlab 2.0、admetSAR 2.0、HelixADMET等)仍面临泛化性、鲁棒性不足及对复杂药代动力学和毒理学知识理解有限的挑战。更根本的是,真实世界中的分子数据集常存在“不完美标注”问题:即并非所有分子都标注了所有感兴趣的性质,标注往往是稀疏、部分且不平衡的。这种不完美标注为模型设计与可解释性带来了巨大障碍。
针对这一挑战,研究团队从超图视角重新审视了分子与性质间的复杂关系,并开发了一个统一且可解释的多任务分子表示学习框架OmniMol。该框架将分子及其对应性质表述为一个超图(Hypergraph),从中提取出三种关键关系:性质间关系、分子-性质间关系及分子间关系。OmniMol的核心创新在于整合了一个任务相关的元信息编码器和一个任务路由的混合专家(t-MoE)主干网络。前者用于捕捉不同性质间的相关性,后者则能产生任务自适应的输出,从而避免传统多任务模型中因使用多个任务特定头而带来的训练同步问题与参数线性增长问题。
为了捕捉分子间共享的底层物理原理,研究团队还实现了一个创新的SE(3)编码器来保证物理对称性。该编码器通过施加平衡构象监督、递归几何更新和尺度不变消息传递,促进了基于学习的构象弛豫,使模型能够学习到一个启发式的分子间势,从而预测低能量构象,而无需显式计算原子间作用力。
在技术方法上,本研究主要依托了几个关键模块:1)基于Transformer架构(Graphormer)构建的分子表示学习主干网络;2)任务路由混合专家(t-MoE)模块,用于实现任务自适应的特征处理;3)SE(3)-等变编码器,用于处理三维分子几何并实现手性感知;4)基于Merck Molecular Force Field (MMFF)的构象生成与扰动,用于监督构象弛豫过程;5)采用来自ADMETLab 2.0等公共数据集的分子与性质数据进行训练与验证,数据集包含约25万分子-性质对,涉及90k个独特分子、52个ADMET-P端点(40个分类任务,12个回归任务)。
研究结果充分验证了OmniMol的强大性能。在ADMET-P性质预测任务上,OmniMol在52个预测任务中的47个上达到了最先进的性能,分类任务平均准确率提升超过6.8%,回归任务的R2相关系数相对提升了8.83%,平均绝对误差(MAE)相对降低了17.2%。尤为突出的是,在手性感知任务中,OmniMol实现了96.78%的R/S手性预测准确率,远超仅能达到随机猜测水平(50%)的模型(如DRFormer)。在预测光学旋转强度(一个需要量子化学计算的复杂性质)和手性对结合亲和力变化(手性悬崖)的任务中,OmniMol也表现出色,其预测与时间依赖密度泛函理论(TDDFT)计算结果高度一致,并能以78.3%的准确率识别出因手性而导致药效显著变化的分子。
学习基于构象弛豫的启发式分子间势
通过可视化分析中间几何构型的更新过程,研究发现OmniMol能够有效地将高能构象弛豫至低能状态。其能量随迭代更新稳步下降,而几何构型与平衡态的均方绝对误差(MAE)则呈现非单调变化行为。这表明OmniMol并非简单地在噪声构象与平衡态之间进行插值,而是通过学习到的变换来反映原子相互作用的结果,迭代地将原子引导至形成低能量构象,即使该构型在几何上可能并不最接近平衡态。这种无需显式计算力场即可预测能量有利构象的能力,对于药物发现尤为重要。
任务关系感知与自适应预测
通过UMAP对任务嵌入(task embedding)进行降维可视化,发现OmniMol能够有效感知任务间关系。六类不同的ADMET-P性质(吸收、分布等)在表示空间中清晰地分离成不同的簇;回归任务与分类任务也呈现出可区分的聚类模式。更重要的是,许多已知高度相关的任务(如Ames突变性与致癌性、CYP450酶抑制剂等)在嵌入空间中自动聚集在相近的位置。定性实验进一步表明,对于同一分子,OmniMol会针对不同性质任务分配不同的节点注意力模式,这些模式与已有的药物化学知识高度吻合。例如,对于甲硝唑,模型对硝基(与基因突变和癌症诱导相关)和含氮杂环(与CYP450酶抑制相关)等关键药效团给予了高度关注,且关注模式因任务组别(突变性/致癌性 vs. 酶抑制)而异。
可解释的注意力分布与比较研究
对八个不同ADMET-P端点的节点级注意力分布进行分析表明,OmniMol的注意力机制与既有的药物知识高度一致,其产生的解释可与专门的单任务模型相媲美甚至更优。例如,在预测hERG抑制时,OmniMol能有效识别出 tertiary amine、氨基和极性基团等已知影响hERG抑制的结构特征,其注意力模式与BayeshERG等专业模型非常相似。在急性毒性评估中,OmniMol与VenomPred 2.0等模型一样,能正确强调偶氮基和磷酸酯基等已知的毒性基团。比较分析显示,OmniMol与专业模型的注意力分布模式存在高相似度、中度相似度和部分相似度三种对应关系,且大多数比较表现出中到高度相似性,表明OmniMol无需显式特征工程即可成功识别出化学相关的结构特征。
实际应用:真实世界SAR研究验证
通过在四个关键ADMET性质上进行全面的结构-活性关系(SAR)研究,验证了OmniMol在分子优化中的实际效用。研究选取了已发表SAR研究中的多个化合物(除11a和12b外,均未包含在训练数据集中)。有趣的是,在所有四个端点上,OmniMol的注意力分布与SAR研究结果高度吻合,即使对于细微的结构变化也是如此。OmniMol在优化前的分子中会对端点相关的关键基团赋予高注意力值,而在相应的优化后分子中,对这些修饰位点的注意力则减弱或完全消失。例如,在hERG抑制案例中,OmniMol准确检测到涉及碱性中心的关键位点,优化后分子对应位点的注意力显著降低或消失,这与已知的减轻hERG抑制策略一致。相比之下,BayeshERG等注意力模型的注意力分布在优化前后几乎完全相同,显得较为僵化。OmniMol同样能检测到影响MDCK-MDR1外排比(ER)的细微原子水平变化。
本研究提出的OmniMol是一个实用的分子表示学习框架,它利用超图视角来捕捉不完美标注数据集中分子间、分子-性质间及性质间复杂的多重关系。研究使用ADMET-P预测任务证明了OmniMol在应对稀疏、部分和不平衡标注挑战方面的有效性。大量实验证实了OmniMol在ADMET-P预测、手性敏感性和所有三类关系的可解释性方面均表现出色。
OmniMol的意义远不止于药物开发的ADMET-P评估。其整合可用分子-性质对并利用端到端架构的能力,能够以更大的数据规模带来更通用的见解。这为应用广义分子表示学习来捕获基础物理机制奠定了基础。任务嵌入的UMAP可视化表明,OmniMol学习了有意义的任务表示,其捕获了显式的类别关系(ADMET-P分组)和隐式的生物学联系。高度相关的端点(如H-HT与DILI)分布在邻近空间,同时保持了反映预测任务基本性质(回归 vs. 分类)的结构化组织。这强有力地证明了元嵌入过程有效地发现并编码了相关的任务关系,增强了模型在相关任务间迁移知识的能力。
与现有专业模型的比较研究表明,OmniMol在八项ADMET-P预测任务中达到了具有竞争力或更优的性能。与大多数依赖预定义物理化学描述符和子结构指纹来捕获已知药物模式的专用模型不同,OmniMol的输入源于SMILES字符串并涉及3D构象信息,超图拓扑连接了不同数据集,使其能够理解药物模式和知识。这种方法增强了对影响相应性质的化学基团和子结构的识别能力。
对多个ADMET-P任务的SAR优化案例的详细分析突显了OmniMol的能力:它对优化前分子中的次优基团分配高注意力值,而在优化后分子中则减少或消除对这些相应位点的注意力。这一结果尤为显著,因为这些示例几乎完全不同于OmniMol训练所见。即使分子在优化前后的变化很小,OmniMol也表现出强大的适应性、实用性和泛化能力。这些优势使OmniMol超越了固定基团识别的限制,使其成为一个高度灵活且有效的分子性质预测与优化工具。其潜力可延伸至更广泛、更实际的应用,例如临床前研究中极具挑战性且资源密集的SAR优化阶段。
尽管优势突出,OmniMol仍存在一些局限性,特别是在支持的数据领域方面。鉴于分类任务的训练数据由二值组成,OmniMol无法准确预测这些任务的实际实验值。值得注意的是,本研究是回顾性的,尽管严格的验证已证明其效用,但未来的研究应侧重于纳入前瞻性实验场景以进一步确立其实际价值。此外,当前框架设计用于处理由小类药分子组成的数据集。未来的工作可扩展OmniMol的适用性至更多样和复杂的数据集,例如预测小分子的HOMO-LUMO能隙、催化系统中的吸附能以及生物分子的力场预测。框架还可能扩展至宏观系统,包括工业模拟如汽车或翼型设计。通过利用这些额外的物理性质,OmniMol可能演变成一个全面的“世界模型”,既支持模拟驱动的ADMET-P评估,又可作为其他AI驱动生成技术的物理信息基础。此类进步将显著促进开发更全面、物理上可行且有效的药物候选物。
总之,OmniMol代表了分子性质预测领域的重大进步,其具有强大的适应性、可解释性和泛化能力。它不仅在传统ADMET-P预测任务中展现出可靠的准确性,还为分子与材料科学中更广泛的应用提供了一个框架。OmniMol的未来扩展可进一步增强其影响力,将其转变为药物发现及其他领域研究和实际应用中的多功能工具。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号