基于分子图神经网络的天然产物分类方法研究

【字体: 时间:2025年09月06日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  为解决天然产物(NPs)结构复杂性和传统分类方法局限性问题,研究人员开展基于图神经网络(GNNs)的自动分类研究。通过GCN、GAT和GIN三种架构对比,证明GIN在通路(Pathway)、超类(Superclass)和类(Class)三级分类中均表现最优(F1=0.8034),显著优于传统指纹方法(MLP)。该研究为天然产物的拓扑结构建模提供了可扩展的数据驱动方案。

  

在药物研发和传统医学领域,天然产物(Natural Products, NPs)因其结构多样性和丰富生物活性备受关注。超过50%的已批准药物源自或受NPs启发,但传统分类方法面临严峻挑战:基于规则的方法难以捕捉NPs复杂的生物合成路径,而手工制作的分子指纹(如cMF)无法表征全局拓扑特征。更棘手的是,现有数据库如ChemSpider、PubChem等缺乏标准化的层级分类体系,导致大量NPs的药用潜力尚未被充分挖掘。

这项发表于《Computational Biology and Chemistry》的研究开创性地将图神经网络(Graph Neural Networks, GNNs)引入NPs分类领域。来自意大利锡耶纳大学的Alessia Lucia Prete团队构建了包含77,705个NPs的数据集,采用GCN、GAT和GIN三种架构学习神经指纹(neural fingerprints),在Pathway(7类)、Superclass(70类)和Class(653类)三级分类任务中系统评估性能。研究特别关注了模型深度、节点特征和传统指纹融合对分类效果的影响。

关键技术方法包括:1) 通过RDKit将SMILES字符串转化为分子图(节点=原子,边=化学键);2) 设计包含原子符号、杂化状态等23维节点特征;3) 采用GNNExplainer进行模型可解释性分析;4) 五折交叉验证比较GCN/GAT/GIN与MLP基线。

模型性能比较

在三级分类任务中,GIN始终表现最优:Class级F1达0.8034±0.0053,较MLP提升16.7%。值得注意的是,GIN对节点特征的依赖性较低,仅用原子符号时精度已达0.73,表明其更擅长从拓扑结构中学习。

深度影响分析

5层GIN在Class任务中表现最佳,而GAT在4层后出现性能饱和。这表明GIN的求和聚合能有效缓解过平滑问题,而GAT的注意力机制在深层网络中可能遭遇信息瓶颈。

特征融合策略

将cMF与GNN嵌入拼接后,GCN的Class级精度提升3.95%,证明传统指纹可弥补其全局信息获取的不足。但GIN未见显著提升,反映其已能自主学习等效特征。

可解释性发现

通过GNNExplainer可视化发现,模型能准确识别类黄酮(flavonoids)的芳香环等关键 motif,但对β-内酰胺(β-lactams)四元环的识别不足,揭示出现有架构对环张力和键角等立体化学特征的表征局限。

这项研究的重要意义在于:首先,证实GNNs尤其GIN架构能有效学习NPs的层级特征,为构建标准化分类体系提供新范式;其次,揭示拓扑特征与手工描述符的互补关系,GCN+cMF组合为资源受限场景提供高效方案;最后,通过可解释分析明确了模型在甾体(steroids)等复杂环系分类中的局限性,为后续改进指明方向。该工作的代码已开源,将推动拓扑感知算法在天然产物研究中的广泛应用。

未来研究可探索层级多标签联合建模,或引入自监督预训练以提升小样本类别表现。随着GNN在化学信息学领域的深入应用,这类数据驱动方法有望加速从天然宝库中发现新一代药物先导化合物。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号