
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ROASMI模型:通过保留数据重利用加速小分子鉴定——基于深度学习和保留顺序预测的创新方法
【字体: 大 中 小 】 时间:2025年02月16日 来源:Journal of Cheminformatics 7.1
编辑推荐:
本研究针对非靶向代谢组学中小分子鉴定存在的保留数据可重复性差、异构体区分困难等问题,开发了基于保留顺序预测的ROASMI模型。研究人员通过整合71个独立RPLC(反相液相色谱)数据集,结合D-MPNN(定向消息传递神经网络)和RankNet(排序神经网络)算法,实现了跨色谱条件的保留顺序精准预测。该模型在区分MS/MS(串联质谱)谱图相似的异构体和无信息谱图的检测峰注释方面展现出显著优势,为代谢组学研究提供了新的计算工具。
在代谢组学研究领域,小分子鉴定一直面临着重大挑战。虽然液相色谱-质谱联用(LC-MS)技术能够一次性检测数千个化合物峰,但约三分之二的检测峰因缺乏有效的MS/MS谱图而难以准确注释。更棘手的是,色谱保留时间(RT)在不同实验条件下表现出极差的可重复性,这使得保留数据的应用受到严重限制。面对这一困境,中国的研究团队开发了名为ROASMI的创新模型,其研究成果发表在《Journal of Cheminformatics》上。
传统方法主要依赖回归模型预测绝对保留时间,但这种方法受限于色谱条件的巨大差异。ROASMI另辟蹊径,转而预测化合物对的相对保留顺序,这种方法展现出更强的跨数据集泛化能力。研究的关键突破在于发现缓冲液pH值是影响保留顺序可重复性的决定性因素——当ΔpH≤1时,不同数据集间的保留顺序相关性系数(CCRS)平均值高达0.95。
研究人员采用了多阶段建模策略:首先使用包含50,447个保留时间记录的dataset_87作为初始训练集,通过D-MPNN学习分子结构特征;然后利用RankNet学习pH依赖的洗脱顺序。模型采用集成学习方法,通过五个独立模型的预测方差来量化不确定性。在71个独立RPLC数据集上的验证表明,ROASMI的平均排序得分达到0.696,接近初始训练集的0.795。
在技术方法上,研究主要运用了:1)从RepoRT等数据库收集87个保留时间数据集并进行系统分类;2)开发结合D-MPNN和RankNet的混合架构进行保留顺序预测;3)采用贝叶斯优化进行超参数调优;4)通过CASMI2022挑战赛数据集评估模型性能。
研究结果部分揭示了多项重要发现:
保留可重复性分析:通过59对数据集的meta分析证实,缓冲液pH是保留顺序可重复性的关键决定因素(r=-0.931至-0.809)。当ΔpH>5时,保留顺序几乎完全不可重复;而ΔpH≤1时,平均CCRS高达0.95。相比之下,色谱柱化学性质(ΔF)与CCRS无显著相关性(r=-0.134至0.465)。
模型性能验证:在区分人类代谢物数据集(dataset_71)中的13个异构体对和三联体时,ROASMI准确率显著优于原研究的定制模型。在包含更复杂异构体组的肠道微生物数据集(dataset_79)中,模型成功区分了3-氨基-4-羟基苯甲酸、3-羟基邻氨基苯甲酸和4-氨基水杨酸等难以通过MS/MS区分的异构体。
实际应用评估:在CASMI2022挑战赛的106个优先化合物鉴定中,ROASMI与SIRIUS联用使top-1和top-5准确率分别提高1和3个单位。对于植物来源的dataset_38中23个缺乏MS/MS谱图的峰,模型将候选化合物数量平均减少87.3%。
讨论部分强调了该研究的双重意义:方法学上,首次系统证明了pH在保留顺序可重复性中的核心作用,为后续研究提供了理论基础;应用价值上,ROASMI填补了现有MS/MS工具无法覆盖的鉴定空白,特别是对缺乏特征谱图的化合物和难区分异构体。研究还开创性地提出了"保留区间"概念,通过控制化合物对的洗脱时间差来平衡信息量和噪声影响。
值得注意的是,当前ROASMI仍存在一定局限:仅适用于C、H、N、O、P、S元素的常规化合物,且限于RPLC系统。未来扩展至亲水相互作用色谱(HILIC)等更复杂分离机制将是重要发展方向。研究团队已公开所有代码和数据,鼓励学界共同完善这一工具,推动代谢组学注释标准的革新。
生物通微信公众号
知名企业招聘