一种新型的变压器-MLP融合网络,用于从质谱数据中识别代谢物

《Talanta》:A Novel Transformer-MLP Fusion Network for Metabolite Identification from Mass Spectra

【字体: 时间:2025年11月20日 来源:Talanta 6.1

编辑推荐:

  准确代谢物鉴定在无目标代谢组学中面临挑战,尤其在新型化合物缺乏现有光谱库的情况下。本研究提出Feature Fusion Network(FFNet),采用Transformer和MLP双路径架构,前者捕捉光谱全局上下文,后者提取局部特征,通过注意力机制融合实现分子指纹预测。在GMIS(17,267谱)、自定义测试集和MoNA(1,243谱)数据集上验证,FFNet在指纹预测和代谢物鉴定任务中均显著优于基线模型,包括XGBoost、随机森林和单模型神经网络。结构解析实验(CASMI 2022)显示,FFNet能有效检索与未知化合物结构相似的高匹配度候选分子,即使无精确光谱匹配。该模型通过混合余弦相似度和均方误差损失函数优化,解决了现有方法依赖固定嵌入、正向预测扩展性差及逆向模型数据噪声敏感等难题,为复杂生物样本代谢组学分析提供可靠解决方案。

  在现代生物医学研究中,代谢物的鉴定对于理解生物化学通路、识别生物标志物以及探索疾病机制具有重要意义。然而,这一过程仍然面临诸多挑战,尤其是在非靶向代谢组学领域,准确识别代谢物依然是一个复杂且困难的任务。特别是在处理新型化合物或罕见代谢物时,由于这些物质尚未被收录在现有的光谱数据库中,传统的基于光谱匹配的方法往往难以提供可靠的结果。因此,开发一种能够有效从质谱数据中提取分子特征并实现精准识别的模型,成为当前研究的热点之一。

为了应对这一问题,研究团队提出了一种创新的特征融合网络(Feature Fusion Network, FFNet),该模型结合了Transformer和多层感知机(Multilayer Perceptron, MLP)两种结构,构建了一个双流架构。这一架构的设计灵感来源于对质谱数据特性的深入分析:一方面,质谱数据通常具有全局性的模式,如分子离子峰的分布、碎片离子的关联等;另一方面,局部特征,如特定质量峰的强度、化学键断裂后的产物分布等,同样对分子结构的推断至关重要。因此,FFNet通过引入一个基于Transformer的路径来捕捉全局特征,同时利用一个基于MLP的路径提取局部模式,最终通过注意力机制(attention mechanism)将这两种互补的表示进行融合,从而生成更全面的分子指纹。

分子指纹是描述分子结构特征的一组数值化表示,广泛应用于化合物识别和分类任务中。在本研究中,为了全面捕捉分子结构信息,模型将三种不同类型的分子指纹——Morgan指纹、拓扑扭转指纹以及MACCS键指纹——作为预测目标进行联合建模。Morgan指纹基于分子图的邻接矩阵,通过计算分子中各原子的指纹特征来表征分子结构;拓扑扭转指纹则通过分析分子中各原子之间的拓扑关系,捕捉更丰富的结构信息;MACCS键指纹则是一种基于化学键类型的二进制指纹,能够有效区分不同类型的化学结构。通过将这三种指纹进行拼接,模型能够更全面地表征分子结构,从而提升识别的准确性。

为了提高模型的预测性能,研究团队设计了一种混合损失函数——CosineMSE融合损失。该损失函数结合了余弦相似度和均方误差(Mean Squared Error, MSE)两种不同的评估标准。余弦相似度用于衡量分子指纹之间的结构相似性,而MSE则用于评估预测值与真实值之间的数值差异。通过将这两种损失函数进行融合,模型能够在保持结构相似性的同时,提高数值预测的准确性,从而实现更精确的分子指纹预测。

在数据准备方面,研究团队采用了三个权威的质谱数据集进行模型训练和评估。这些数据集包括MoNA(MassBank of North America)数据集、CASMI 2022数据集以及General Metabolite Identification Set(GMIS)数据集。MoNA数据集包含1,243条光谱数据,涵盖了多种代谢物的质谱信息;CASMI 2022数据集则由127条光谱数据组成,主要用于评估模型在未知化合物识别方面的性能;GMIS数据集则包含了17,267条光谱数据,是目前规模最大的用于代谢物识别的基准数据集之一。所有数据均经过统一的预处理流程,以确保不同数据集之间的可比性。

在模型训练和评估过程中,研究团队采用了一种严格的数据划分策略,包括基于光谱和基于化合物的划分方法。这种策略能够有效评估模型在不同数据分布下的泛化能力,同时避免数据泄露的问题。此外,研究团队还进行了消融实验,以验证模型中各个组件的有效性。实验结果表明,Transformer和MLP路径的融合显著提升了模型在光谱数据与分子指纹之间的映射能力,尤其是在处理复杂或低质量的光谱数据时,模型表现出更强的鲁棒性和准确性。

在指纹预测性能的评估方面,研究团队使用了三种结构相似性指标:Tanimoto系数、现有子结构准确率(Present Substructure Accuracy, PSA)以及余弦相似度。Tanimoto系数用于衡量两个分子指纹之间的重叠程度,PSA则评估模型在预测过程中是否能够准确识别出分子中已知的子结构,而余弦相似度则用于衡量分子指纹之间的整体相似性。通过对这些指标的综合分析,研究团队能够全面评估模型在不同任务上的表现,包括分子指纹预测和代谢物识别。

实验结果表明,FFNet在多个数据集上的表现均优于传统的机器学习模型和现有的神经网络模型。在GMIS数据集上的测试中,FFNet在指纹预测任务中达到了更高的准确率,并且在代谢物识别任务中表现出更强的泛化能力,尤其是在面对新型化合物时,能够有效识别其结构特征,即使这些化合物未被收录在现有的光谱数据库中。此外,在CASMI 2022数据集上的结构解析实验中,FFNet能够成功检索出与未知化合物具有高度结构相似性的候选分子,从而为后续的实验验证提供了可靠的基础。

这些研究成果表明,基于深度学习的特征融合方法在质谱分析和代谢物识别方面具有显著优势。传统的光谱匹配方法依赖于预定义的数据库,而FFNet通过直接从光谱数据中提取分子特征,避免了对数据库的依赖,从而能够更广泛地应用于未知化合物的识别。此外,模型的双流架构和注意力融合机制使得其能够同时捕捉全局和局部的光谱特征,从而提高预测的准确性和鲁棒性。

在实际应用中,FFNet的性能优势体现在多个方面。首先,该模型能够在低质量的质谱数据中提取有效的分子特征,这对于临床诊断、药物开发和环境分析等领域具有重要意义。例如,在临床诊断中,许多疾病相关的代谢物可能尚未被充分研究,因此能够准确识别这些未知代谢物的模型对于疾病的早期检测和机制研究具有重要价值。其次,FFNet在处理复杂样本时表现出更强的泛化能力,这使得其能够应用于更广泛的生物样本类型,如血液、尿液、组织等,从而推动代谢组学研究的深入发展。

此外,FFNet的可解释性也是其重要优势之一。虽然深度学习模型通常被视为“黑箱”,但通过注意力机制的设计,研究团队能够分析模型在预测过程中对不同光谱特征的关注程度。这种可解释性不仅有助于理解模型的工作原理,还能够为研究人员提供有价值的线索,帮助他们进一步探索未知代谢物的结构和功能。例如,在某些情况下,模型可能对特定质量峰或碎片离子表现出更高的关注,这可能暗示这些特征在分子结构识别中的重要性。

值得注意的是,FFNet的成功也得益于其对现有技术的改进和创新。传统的分子指纹预测模型通常采用单一的特征提取方法,而FFNet通过引入双流架构,结合了Transformer和MLP的优势,从而在结构解析和代谢物识别任务中实现了更高的性能。同时,研究团队还对模型进行了优化,引入了混合损失函数以平衡结构相似性和数值准确性,这使得模型在面对复杂和多变的质谱数据时能够保持较高的稳定性。

在实际应用中,FFNet不仅能够用于代谢物的识别,还可能为其他领域的研究提供新的思路。例如,在药物开发过程中,研究人员经常需要分析化合物的代谢产物,以评估其在体内的行为和毒性。FFNet能够快速而准确地识别这些代谢产物,从而加速药物研发的进程。在环境分析领域,该模型同样具有广泛的应用前景,可以用于识别环境样本中的未知有机污染物,为环境监测和治理提供科学依据。

此外,FFNet的开源实现也为其他研究者提供了便利。研究团队将完整的模型实现、训练脚本和评估流程发布在GitHub平台上,使得其他科学家可以轻松复现实验结果并在此基础上进行进一步的改进和优化。这种开放性和可复现性不仅促进了学术交流,还推动了深度学习技术在代谢组学领域的广泛应用。

总体而言,FFNet的提出为解决非靶向代谢组学中的代谢物识别问题提供了新的方法。通过结合Transformer和MLP的双流架构,以及引入注意力机制和混合损失函数,该模型在指纹预测和代谢物识别任务中均表现出卓越的性能。特别是在处理未知化合物时,FFNet能够有效提升识别的准确性和可靠性,从而为相关领域的研究提供了强有力的技术支持。未来,随着更多高质量的质谱数据的积累和模型的持续优化,FFNet有望在更广泛的生物医学研究中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号