
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习驱动的串联质谱相似性预测评估新方法:解决代谢组学数据解析的关键瓶颈
【字体: 大 中 小 】 时间:2025年07月12日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对代谢组学中串联质谱(MS/MS)数据解析的关键瓶颈——结构相似性预测问题,开发了创新的机器学习评估框架。研究人员通过构建标准化的训练/测试集划分方法,解决了数据泄露问题,并引入基于领域知识的评价指标。研究特别关注碰撞能量对预测误差的影响,建立了可更新的开源数据集。该成果发表于《BMC Bioinformatics》,为MS/MS相似性预测模型的开发与比较提供了重要基准。
在代谢组学和天然产物研究领域,串联质谱(MS/MS)技术已成为小分子分析的重要工具。随着高通量质谱技术的发展,科学家们能够快速获取海量MS/MS数据,但如何有效解析这些数据却成为新的挑战。目前,分子网络(molecular networking)等计算方法被广泛用于组织相似分子,但其核心瓶颈在于MS/MS谱图比较的准确性。传统算法如余弦相似度(cosine similarity)和修正余弦相似度(modified cosine similarity)虽有一定效果,但在预测结构相似性方面仍有局限。近年来,机器学习(ML)方法展现出超越传统算法的潜力,但缺乏标准化评估框架,难以比较不同模型的性能,且模型对新分子的泛化能力研究不足。
针对这些问题,来自美国加州大学河滨分校(University of California Riverside)等机构的研究团队在《BMC Bioinformatics》发表重要研究成果。研究人员开发了一套创新的评估方法,通过精心设计的训练/测试集划分策略,首次实现了在不同结构相似度水平下系统评估机器学习模型性能的目标。这项研究不仅解决了领域内长期存在的数据泄露(data leakage)问题,还建立了反映实际应用需求的评价指标体系。
研究采用了多项关键技术方法:从GNPS和MassBank EU数据库收集并标准化788,951张质谱谱图;开发元数据协调管道处理仪器参数和碰撞能量(collision energy)信息;提出基于Tanimoto相似度的低训练-测试相似度采样算法;构建包含1,059,860,580对谱图的测试集;引入Top Candidate Similarity和Top-Rank等新型评价指标;采用MS2DeepScore作为基准模型进行系统评估。
在训练/测试数据准备方面,研究团队从GNPS和MassBank EU收集了39,274个结构和788,951张谱图,经过严格清洗和标准化后,最终获得28,132个结构和189,467张高质量谱图。创新性地,研究人员开发了能同时优化两个维度的采样方法:一是谱图对的结构相似性多样性,二是训练集与测试集间的结构相似性差异。这种方法显著提高了对关键区域的采样覆盖率,特别是对分子网络应用至关重要的高结构相似性区域。
在MS2DeepScore模型评估中,研究发现当考虑实验条件一致性时(如相同离子化方法、质量分析器和加合物),高结构相似性分子对的预测误差显著降低。特别值得注意的是,在Tanimoto相似度0.9-1.0区间,误差从0.3038降至0.1962。研究还发现,严格要求碰撞能量差异小于5 eV可进一步将平均误差从0.2278降至0.1777。
研究团队提出了两种创新的训练策略:过滤训练和偏差训练。过滤训练要求训练数据中的谱图对具有相同的实验条件,虽然降低了总体均方根误差(RMSE),但意外地增加了高相似性分子对的误差。而偏差训练通过增加高相似性分子对的采样比例,成功将高相似性区间的RMSE从0.2630降至0.1823,显著提升了模型在关键区域的预测精度。
在模型泛化能力研究方面,通过系统分析不同训练-测试相似度区间的表现,发现模型对接近训练集的分子表现最佳。例如,在训练-测试相似度0.95-1.0区间,Top-Rank指标在k=10时平均排名为7.60,而在0.55-0.60区间则降至113.62。这表明模型对新结构分子的预测能力仍有提升空间。
这项研究的重要意义在于建立了首个标准化、可扩展的MS/MS相似性机器学习评估框架。研究提出的方法解决了领域内长期存在的数据泄露问题,创新的评价指标更贴近实际应用需求。特别是发现并量化了碰撞能量对预测误差的影响,为未来研究指明了方向。开放的、持续更新的数据集和评估流程将为社区提供宝贵资源,加速机器学习在代谢组学中的应用。研究还证明,针对特定应用场景(如高相似性分子检索)优化训练策略,可以显著提升模型性能,这对分子网络和类似物搜索等实际应用具有重要指导价值。
生物通微信公众号
知名企业招聘