《Metabolites》:Librarian: An Open-Access Web Application for High-Resolution Mass Spectral Library Assembly
编辑推荐:
背景:在非靶向小分子质谱分析中,特征的确证性化学注释高度依赖于高质量串联质谱(MS2)参考谱库的可获得性。尽管开放获取数据库不断扩充,但在组装标准化、富含元数据(metadata)的记录方面仍存在技术障碍,限制了更广泛的社区参与,凸显出需要改进计算工具来辅助贡
背景:在非靶向小分子质谱分析中,特征的确证性化学注释高度依赖于高质量串联质谱(MS2)参考谱库的可获得性。尽管开放获取数据库不断扩充,但在组装标准化、富含元数据(metadata)的记录方面仍存在技术障碍,限制了更广泛的社区参与,凸显出需要改进计算工具来辅助贡献者。方法:为促进标准化参考MS2谱库记录的创建与共享,研究人员开发了Librarian——一款免费、开源访问的Web应用程序,专用于快速、可扩展地组装高分辨MS2谱库。Librarian集成了从PubChem自动检索与统一化学物质标识符及元数据、设计用于高分辨质谱(HRMS)采集的化合物混合方案,以及将整理好的MS2谱图组装为兼容公共谱库存储格式的就绪记录。结果:通过简洁的浏览器内界面,Librarian提供灵活的端到端工作流,兼容主流开源预处理软件,降低技术门槛并促进社区更广泛参与谱库开发。作为演示,研究人员使用Librarian创建了包含1500余条新MS2记录的谱库并存入MassBank,进而应用于环境数据集的回顾性分析。结论:Librarian简化了标准化、富含元数据且符合存储要求的MS2参考记录的创建过程,解决了社区谱库开发与共享的关键瓶颈,支持代谢组学、暴露组学及环境质谱领域开放获取资源的持续壮大。Librarian可通过SciLifeLab Serve平台公开访问。
论文解读:Librarian——用于高分辨质谱谱库构建的开源Web应用
《Librarian: An Open-Access Web Application for High-Resolution Mass Spectral Library Assembly》一文发表于《Metabolites》,针对当前非靶向分析(Nontarget Analysis, NTA)中使用高分辨质谱(High-Resolution Mass Spectrometry, HRMS)进行小分子注释时,公共二级质谱(MS2,即Tandem Mass Spectrum)参考谱库覆盖率不足、且高质量谱库记录(特别是符合MassBank严格格式要求者)手工组装繁琐的问题,研究人员开发了名为Librarian的开源Web应用程序。现有工具如RMassBank局限于R语言环境,MZmine虽新版引入MSnLib项目模块但尚不支持导出MassBank格式,而另一Web工具Curatr暂不可用。为此,研究人员旨在提供一款平台无关、操作简便、兼容常用预处理软件输出的浏览器端工作流工具,以自动化元数据检索、混合池设计和MassBank标准记录组装,从而降低科研人员参与公共谱库贡献的技术壁垒。研究人员通过使用Librarian成功构建了1200种FDA批准药物的MS2谱库(最终提交1507条记录至MassBank)并在环境废水数据集回顾性NTA中验证其实用性,证实该工具能有效支持开放科学及FAIR(Findable, Accessible, Interoperable, Reusable)原则下的谱库共享。
主要关键技术方法:研究人员采用Python(3.12.3)基于Streamlit(1.45.1)框架开发Web应用,调用RDKit、PubChemPy、pysplash及IsoSpecPy包。工作流分三核心模块:(1)PubChem查询(pcq)模块:通过PubChem REST API批量检索化合物分子式、单同位素质量、Isomeric SMILES等MassBank所需元数据,并自动识别盐形式并重查母体中性分子;(2)混合设计(mix)模块:依据计算m/z(正负模式常见加合离子)与xlogP(RDKit Crippen法)用贪心算法分配化合物入混合池,满足用户设定最小m/z差与池数,减少反相液相色谱(Reversed-Phase Liquid Chromatography, RPLC)中共洗脱与离子竞争;(3)谱库组装(lib)模块:合并pcq输出、仪器参数模板(.tsv)及第三方软件(MS-DIAL/MZmine/OpenMS导出的.mgf或.mat格式)预处理后MS2数据,执行峰注释(候选碎片分子式生成与评分含双键当量DBE过滤、同位素包络余弦相似度)、离子加合校验与质控,最终输出MassBank格式(.txt)及通用.msp格式谱库。提供.mgf转.mat实用工具、保留时间指数(Retention Time Indexing, RTI)批处理文件生成器及XCalibur兼容的DDA Inclusion List生成器。
研究结果
3.1. Front-End (User Interface) and Application Example
研究人员以Prestwick化学库1200种药物为例演示工作流:输入化合物名称/CAS/SMILES经pcq模块获元数据,查重已有谱库优先安排无HR-MS2记录者(388种)入小混合池(17—18个/池),其余入大池(47—48个/池);经mix模块设计后使用Orbitrap 480 Exploris采集RPLC-HRMS(ESI+与ESI-),MS-DIAL预处理导出.mat文件,lib模块整合RTI值及ClassyFire化学本体论信息,最终1020种化合物(85%)生成至少一条MS2记录,合计1507条(ESI+ 961条,ESI- 546条;463种双模式均有),提交MassBank并获收录。表明Librarian可高效完成千级以上化合物谱库标准化组装。
3.2. Environmental Monitoring Application by Retrospective NTA of Public Datasets
研究人员先用自建药物库重新分析已发表孟加拉河水样数据,成功复现原研究22个Level 2a(Schymanski标准)药物注释,验证谱库质量。继而分析中国城市污水处理厂出水(MassIVE公开数据集),检出113个Level 2光谱匹配(含原报道12种抗菌/抗真菌药),新发现此前未报道的心血管药、非甾体抗炎药(NSAIDs)、抗抑郁药及环境中少有记载的吡啶斯的明(pyridostigmine)、阿替卡因(articaine)、苯海索(trihexyphenidyl)及福莫特罗(formoterol)等,证明扩充谱库可直接赋能回顾性NTA中新污染物挖掘。
3.3. Limitations
研究人员指出Librarian不包含原始数据峰提取与预处理功能,依赖外部软件;当前要求特定输入格式,未来拟扩展格式兼容性并简化导入流程。
讨论与结论翻译总结
研究人员指出Librarian原为大规模MS2谱库项目内部需求开发,后开源为Web应用以降低门槛。其解耦预处理步骤、兼容主流软件、提供批量元数据管理与MassBank格式输出,使谱库组装仅需数分钟(对比前处理耗时数周)。Librarian为代谢组学、暴露组学及环境质谱领域提供了实用可扩展方案,促进高质量参考谱库共建。结论重申:Librarian是开源Web应用,通过集成PubChem元数据统一化、混合池设计与记录组装,简化标准化MS2参考谱库创建与共享,推动公共谱库资源成长。网址:https://librarian.serve.scilifelab.se,源码:https://github.com/jahlwe/streamlit-librarian。