mFam合作计划对MassBank质谱数据库的高分辨MS/MS谱图贡献

《Metabolomics》：The MassBank contributions of the mFam collaboration

【字体：大中小】 时间：2026年07月03日 来源：Metabolomics 3.5

编辑推荐：

　　摘要：利用高分辨质谱（High Resolution Mass Spectrometry，HR-MS）分析代谢物谱可为生物过程提供深入见解。代谢组学中MS分析产生大量代表代谢物的特征峰（features），但从这些特征中鉴定具体代谢物仍具挑战性，MS特征鉴定的

摘要：利用高分辨质谱（High Resolution Mass Spectrometry，HR-MS）分析代谢物谱可为生物过程提供深入见解。代谢组学中MS分析产生大量代表代谢物的特征峰（features），但从这些特征中鉴定具体代谢物仍具挑战性，MS特征鉴定的瓶颈地位制约了后续的生化阐释。通过在代谢物家族（metabolite family，mFam）内识别异同并以家族水平评估MS特征，可帮助为单个MS特征赋予功能角色，进而辅助解析生物系统中的代谢通路与过程。为将代谢物家族指派至MS特征，拥有高质量、可靠且全面的碎片谱图库（spectral library）至关重要。研究人员发起了一项全球协作，从不同领域（动物、微生物及植物代谢组学）实验室收集代谢物高分辨串联质谱（MS/MS）谱图。mFam-MS/MS集合为未知代谢物提供了具机器可读分类信息的宝贵训练数据。mFam合作采用标准化元数据模板，建立了经全球审校的MS/MS谱图库，含7,872张谱图，对应2,126种独特代谢物；数据源自25个实验室的47个数据集，涵盖12类仪器（包括QTOF、Orbitrap及离子淌度-QTOF系统），其中正离子模式4,646张，负离子模式3,226张。该标准化资源显著增强了代谢物鉴定能力，支持基于机器学习（Machine Learning，ML）的注释工具开发，并加速新代谢物的发现。所有谱图以集体贡献者标签"mFam"收录于MassBank系统，可通过Web界面访问，亦可从GitHub及Zenodo获取2025.10版本数据释放。

论文解读——《The MassBank contributions of the mFam collaboration》发表于《Metabolomics》

一、研究背景与立项依据

在非靶向代谢组学（Untargeted Metabolomics）中，液相色谱-高分辨质谱（LC-HR-MS）虽能检测成百上千个离子特征（features），但代谢物的结构注释与鉴定仍是主要瓶颈。除保留时间（Retention Time，RT）与精确质量（Accurate Mass）外，串联质谱（Tandem Mass Spectrometry，MS/MS或MS²）提供的碎片模式蕴含结构信息，可与标准品建立的碎片谱图库（Spectral Library）进行比对来实现鉴定。现有开放获取FAIR（Findable, Accessible, Interoperable, Reusable）谱图库如MassBank、MoNA、HMDB及GNPS虽广泛应用，但已知代谢通路数据库中仅不足5%的代谢物拥有实验MS/MS谱图，尤其对特定代谢物家族（metabolite family，mFam）覆盖不足。基于代谢物家族水平的注释工具（如MS-Finder、MetFamily、SIRIUS）依赖家族代表性参考谱图进行机器学习训练。为此，研究人员发起mFam国际合作，汇聚多实验室、多仪器类型的高分辨MS/MS数据，扩充MassBank中植物、微生物及动物代谢物的谱图覆盖，填补化学空间空白。

二、主要关键技术方法

研究人员征集25个实验室的47个数据集（含各厂商原始文件或mzML/mzXML及已处理MGF/MSP格式谱库）。要求贡献者填写标准化元数据电子表格，提供化合物化学标识符（SMILES、InChI或PubChem CID其一即可，其余通过PubChem REST API或R语言webchem包自动转换并交叉校验），及仪器参数、色谱条件和采集模式（DDA/DIA/FIA）。原始LC-MS/MS数据用MS-DIAL进行峰检测与前体离子分配并导出MSP格式；已处理谱库直接解析。依元数据中的预期加合离子（adduct）、RT容差（±0.2 min）及前体m/z容差（±25 ppm，FIA为±10 ppm）提取目标化合物MS/MS谱，多候选时以加权得分（结合目标RT匹配度及谱图丰度/碎片离子数）优选最佳谱图。最终用扩展版RMassBank包整合元数据、ChemOnt分类注释及谱图信息，生成MassBank记录格式，返回各贡献者人工审校。化学空间分析采用RDKit计算ECFP4指纹，UMAP降维，以Tanimoto相似度评估与MassBank 2025.05.01版的重叠与新颖性。

三、研究结果

3 Results（结果）

研究人员统计了47个数据集的进样策略：27个为单标品LC-MS/MS进样，20个为多标品混合进样（需注意避免共洗脱），9个为流动注射分析（Flow Injection Analysis，FIA）无色谱分离。数据采集以数据依赖采集（Data-Dependent Acquisition，DDA，38例）为主，10例采用数据无关采集（Data-Independent Acquisition，DIA，如Waters MS^E、Agilent All Ion Fragmentation，AIF），1例兼用DDA与DIA。仪器类型以电喷雾电离-四极杆飞行时间（ESI-QTOF，29台）及大气压化学电离/电喷雾电离-轨道阱（APCI/ESI-Orbitrap，18台）为主，涵盖Bruker、Sciex、Agilent、Waters及Thermo机型。经预处理与质控，mFam贡献最终含7,872张MS/MS谱图，来自2,126种具唯一结构的代谢物（正离子模式59%，ESI电离98%，最常观测加合离子为[M+H]⁺、[M-H]^?、[M+NH₄]⁺；93%使用Acquity CSH C₁₈柱，82%化合物RT＜15 min）。1,601种化合物仅由单一实验室测量，525种被≥2个实验室重复测量。化合物类别（ChemOnt分类）以苯丙素与聚酮类（phenylpropanoids and polyketides）为主，其次为脂质与萜类（lipids and terpenoids），反映贡献实验室的植物代谢组学侧重；最常见5种化合物为绿原酸（Caffeoyl quinic acid）、槲皮素-3-芸香糖苷（Quercetin 3-rutinoside）、柚皮素（Naringenin）、芥子酸（Sinapic acid）及木犀草素（Luteolin）。以ECFP4指纹比对MassBank基线库（排除相似度≥0.99者），1,879个mFam条目为MassBank新增结构，中位最近邻Tanimoto相似度为0.667，证实mFam显著拓展原有化学空间，尤以为菊科（Asteraceae）植物特征性倍半萜内酯（sesquiterpene lactones，如eudesmanolides、xanthanolides）等结构新颖化合物为代表。

四、讨论与结论

讨论部分指出，mFam协作最大挑战系化合物数据管理——手动转录元数据易引入错误，经自动化管线（缺失值检查、文件名一致性、RT信息核验、结构标识符交叉验证）大幅降低人工校订量并提高FAIR性。异源供应商格式与预处理差异系持续障碍，个别原始数据所报中心化（centroid）属性与谱图实际形态不符，未来需提升MS处理平台互操作性并建立标准质量指标。未限定提交化合物使88% mFam代谢物为MassBank全新录入，且约25%获多仪器复现测量，既拓宽ML训练数据化学多样性，又提高不同实验室谱图可比对性。结构比对显示mFam贡献（单萜、萜内酯、二萜、唑/唑烷、甾体二萜、香豆冉、酚及醌类等）填补了广泛代谢空间的结构缺口。

结论：mFam-MS/MS集合是代谢组学界可免费使用的有价值资源，可用于植物、动物及微生物多类生物样本代谢物鉴定及药物与天然产物代谢研究。该资源目前植物来源谱图占比较高，水生生物谱图偏少。mFam合作汇聚各实验室内部孤立谱库，较单一课题组更高效弥补化学覆盖空缺；阐明DDA/DIA/FIA策略分布、TOF与Orbitrap仪器跨平台比较及元数据管理要点（唯一标识符、加合离子可用性、碎片峰数等）。最终向MassBank新增来自2,126种独特化合物的7,872张碎片谱图，其中1,879种结构为首次收入MassBank，使mFam成为MassBank第5大贡献者，所建多样化可靠谱图库对MS特征鉴定及机器学习注释工具开发具有重要意义。

热点排行