
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MSnLib:开放多级质谱碎片谱库的高效构建及其在代谢组学中的应用突破
【字体: 大 中 小 】 时间:2025年09月16日 来源:Nature Methods 32.1
编辑推荐:
本研究针对非靶向高分辨质谱中化合物鉴定的瓶颈问题,开发了MSnLib——首个包含>2.3百万张MSn谱图的开放多级碎片谱库,覆盖30,008种小分子。通过自动化流程整合七大类化合物资源,显著拓展了公共质谱数据,为代谢物结构解析和机器学习模型训练提供关键资源。该成果发表于《Nature Methods》,将推动临床代谢组学、天然产物发现等领域的发展。
在临床代谢组学和天然产物研究中,化合物鉴定始终是制约研究效率的关键瓶颈。传统方法依赖二级质谱(MS2)数据库匹配,但现有开放数据库仅覆盖不足5%的已知化学空间。更致命的是,能提供更深层次结构信息的多级质谱(MSn)数据严重匮乏——开放数据库中MSn(n>2)谱图不足2,000张,而商业数据库如mzCloud的1,600万张谱图却被封闭锁定。这种数据鸿沟使得研究者难以验证碎片路径、区分异构体,也阻碍了基于机器学习的结构预测算法发展。
为解决这一挑战,由Corinna Brungs和Robin Schmid领衔的国际团队在《Nature Methods》发表了开创性研究。他们通过整合七大类37,829种化合物资源(包括NIH天然产物库、FDA批准药物库等),建立自动化流水线,最终构建出包含2.3百万张MSn谱图的开放数据库MSnLib,将公共MSn数据量提升千倍。该研究创新性地采用机器人液体处理系统实现高通量样本制备,通过优化Orbitrap质谱参数(分辨率60,000,碰撞能量20/40/60 eV梯度)获取深度碎片信息,并利用开源软件mzmine实现从原始数据到谱树构建的全流程自动化处理。
研究结果主要体现在三个方面:
化学空间覆盖:MSnLib包含30,008种独特化合物,其中22,700种为现有公开数据库未覆盖的新结构。通过TMAP可视化分析显示,该库显著拓展了天然产物、药物分子等关键领域的质谱覆盖度。

技术优化:通过对比三种Orbitrap方法(分辨率15k/60k,AGC目标60%/100%),确定高分辨率(60k)结合长注入时间(500 ms)可显著提升信噪比,使单张MSn谱图的平均信号数从15提升至26个。

应用验证:在药物代谢实验数据集(MSV000096589)测试中,MSnLib贡献了21个独特注释,将总注释率提升16%。特别值得注意的是,该库成功检测到药物代谢产物如奥美拉唑转化生成的ufiprazole等微生物代谢物。
这项研究的突破性在于:首次建立可扩展的开放MSn数据生态系统,其采用的"化合物共享网络+自动化处理"模式为后续数据库扩展提供范本。研究者特别强调,所有数据以CC BY 4.0许可开放,支持.mgf/.json等机器可读格式,这将极大促进质谱算法的开发。正如通讯作者Tomá? Pluskal指出:"MSnLib填补了从已知化合物到可检测质谱信号之间的关键空白,就像为代谢组学研究提供了'罗塞塔石碑'"。该资源已整合至GNPS平台,预计将推动从暴露组学到合成生物学等多个领域的创新研究。
生物通微信公众号
知名企业招聘