基于图神经网络的代谢物结构-功能关系预测研究

【字体: 时间:2025年07月22日 来源:Bioinformatics Advances 2.4

编辑推荐:

  本研究针对代谢物功能预测的难题,开发了结合图神经网络(GNN)与ChemBERTa嵌入的多标签分类模型。研究人员利用人类代谢组数据库(HMDB)构建了包含3,278个代谢物的数据集,通过Graph Attention Network(GAT)架构实现了对代谢物定位(Disposition)、功能角色(Role)、生化过程(Process)和生理效应(Physiological effect)四类功能的同步预测,其中"Process"类别的预测达到0.903的F1-score。该研究为系统生物学和药物发现提供了新型计算工具。

  

在生命科学领域,代谢物作为生物体代谢过程中产生的小分子,其功能解析一直是理解生化通路的关键环节。然而,与蛋白质功能预测领域取得的显著进展相比,代谢物功能预测长期面临两大瓶颈:缺乏类似基因本体论(GO)的标准注释体系,以及现有预测模型多局限于单一功能标签的预测。这种局限性严重制约了环境监测、药物研发等应用场景中对新型代谢物的功能解读效率。

针对这一挑战,瑞士洛桑联邦理工学院(école Polytechnique Fédérale de Lausanne, EPFL)联合苏黎世大学等机构的研究团队创新性地将图神经网络技术应用于代谢物功能预测领域。研究人员从人类代谢组数据库(HMDB)中筛选出3,278个经实验验证("Detected and quantified")的代谢物,构建了包含72个功能节点的多标签预测体系。通过比较Graph Convolutional Network(GCN)、Graph Isomorphism Network(GIN)和Graph Attention Network(GAT)三种架构,并结合化学领域预训练模型ChemBERTa的分子嵌入特征,最终开发出能同步预测代谢物定位、功能角色、生化过程和生理效应的多功能预测模型。相关成果发表在《Bioinformatics Advances》期刊。

研究采用的关键技术包括:(1)基于中位数绝对偏差(MAD)的标签筛选策略,从2,009个原始节点中筛选出信息量丰富的72个终端节点;(2)分子图表示方法,将原子编码为节点、化学键编码为边,并整合二维坐标信息;(3)五折交叉验证评估框架,采用宏F1-score和AUPRC等指标解决数据不平衡问题;(4)注意力机制可视化技术,解析功能相关分子亚结构。

模型比较

在四类功能预测任务中,整合ChemBERTa嵌入的GAT模型(GATC)表现最优,其中"Process"预测的宏F1-score达0.903,AUPRC为0.926。相比基于圆形指纹的基线模型,GATC在"Physiological effect"预测上将性能提升0.363。值得注意的是,仅使用ChemBERTa嵌入的多层感知机(MLP)模型性能已接近未整合嵌入的图神经网络,凸显预训练模型的重要性。

消融实验

坐标信息对GCN性能提升最显著(平均F1-score增加0.06),而对GAT影响较小。ChemBERTa嵌入则对所有架构均有显著增益,特别是在"Physiological effect"预测中,验证了多源特征融合的价值。

可解释性分析

通过注意力权重可视化,研究发现:

  • 对于细胞膜定位的甘油三酯,模型重点关注甘油骨架区域(图5a)

  • 胆汁酸的细胞信号功能预测中,注意力集中在类固醇骨架的侧链区域(图5b)

讨论与展望

该研究首次实现了基于结构的代谢物多功能同步预测,其创新性体现在:(1)建立HMDB功能注释与分子图的映射关系;(2)证明图神经网络与预训练模型的协同效应;(3)提供功能相关亚结构的解释方法。尽管在"Physiological effect"预测上表现相对较弱(可能受浓度依赖性等因素影响),但研究为代谢组学数据分析提供了新范式。未来可通过整合三维构象信息、优化标签体系等方式进一步提升模型性能,最终实现"代谢物功能预测即服务"的计算生物学基础设施。

研究团队已公开所有代码和数据,这种开源策略将加速代谢物功能预测领域的算法迭代。随着HMDB等数据库的持续扩充,该技术路线有望成为解析未知代谢物功能的标准化工具,为精准医学和环境毒理学研究提供关键支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号