编辑推荐:
摘要:利用高分辨质谱(High Resolution Mass Spectrometry,HR-MS)分析代谢物谱可为生物过程提供深入见解。代谢组学中MS分析产生大量代表代谢物的特征峰(features),但从这些特征中鉴定具体代谢物仍具挑战性,MS特征鉴定的
摘要:利用高分辨质谱(High Resolution Mass Spectrometry,HR-MS)分析代谢物谱可为生物过程提供深入见解。代谢组学中MS分析产生大量代表代谢物的特征峰(features),但从这些特征中鉴定具体代谢物仍具挑战性,MS特征鉴定的瓶颈地位制约了后续的生化阐释。通过在代谢物家族(metabolite family,mFam)内识别异同并以家族水平评估MS特征,可帮助为单个MS特征赋予功能角色,进而辅助解析生物系统中的代谢通路与过程。为将代谢物家族指派至MS特征,拥有高质量、可靠且全面的碎片谱图库(spectral library)至关重要。研究人员发起了一项全球协作,从不同领域(动物、微生物及植物代谢组学)实验室收集代谢物高分辨串联质谱(MS/MS)谱图。mFam-MS/MS集合为未知代谢物提供了具机器可读分类信息的宝贵训练数据。mFam合作采用标准化元数据模板,建立了经全球审校的MS/MS谱图库,含7,872张谱图,对应2,126种独特代谢物;数据源自25个实验室的47个数据集,涵盖12类仪器(包括QTOF、Orbitrap及离子淌度-QTOF系统),其中正离子模式4,646张,负离子模式3,226张。该标准化资源显著增强了代谢物鉴定能力,支持基于机器学习(Machine Learning,ML)的注释工具开发,并加速新代谢物的发现。所有谱图以集体贡献者标签"mFam"收录于MassBank系统,可通过Web界面访问,亦可从GitHub及Zenodo获取2025.10版本数据释放。
论文解读——《The MassBank contributions of the mFam collaboration》发表于《Metabolomics》
一、研究背景与立项依据
在非靶向代谢组学(Untargeted Metabolomics)中,液相色谱-高分辨质谱(LC-HR-MS)虽能检测成百上千个离子特征(features),但代谢物的结构注释与鉴定仍是主要瓶颈。除保留时间(Retention Time,RT)与精确质量(Accurate Mass)外,串联质谱(Tandem Mass Spectrometry,MS/MS或MS2)提供的碎片模式蕴含结构信息,可与标准品建立的碎片谱图库(Spectral Library)进行比对来实现鉴定。现有开放获取FAIR(Findable, Accessible, Interoperable, Reusable)谱图库如MassBank、MoNA、HMDB及GNPS虽广泛应用,但已知代谢通路数据库中仅不足5%的代谢物拥有实验MS/MS谱图,尤其对特定代谢物家族(metabolite family,mFam)覆盖不足。基于代谢物家族水平的注释工具(如MS-Finder、MetFamily、SIRIUS)依赖家族代表性参考谱图进行机器学习训练。为此,研究人员发起mFam国际合作,汇聚多实验室、多仪器类型的高分辨MS/MS数据,扩充MassBank中植物、微生物及动物代谢物的谱图覆盖,填补化学空间空白。
二、主要关键技术方法
研究人员征集25个实验室的47个数据集(含各厂商原始文件或mzML/mzXML及已处理MGF/MSP格式谱库)。要求贡献者填写标准化元数据电子表格,提供化合物化学标识符(SMILES、InChI或PubChem CID其一即可,其余通过PubChem REST API或R语言webchem包自动转换并交叉校验),及仪器参数、色谱条件和采集模式(DDA/DIA/FIA)。原始LC-MS/MS数据用MS-DIAL进行峰检测与前体离子分配并导出MSP格式;已处理谱库直接解析。依元数据中的预期加合离子(adduct)、RT容差(±0.2 min)及前体m/z容差(±25 ppm,FIA为±10 ppm)提取目标化合物MS/MS谱,多候选时以加权得分(结合目标RT匹配度及谱图丰度/碎片离子数)优选最佳谱图。最终用扩展版RMassBank包整合元数据、ChemOnt分类注释及谱图信息,生成MassBank记录格式,返回各贡献者人工审校。化学空间分析采用RDKit计算ECFP4指纹,UMAP降维,以Tanimoto相似度评估与MassBank 2025.05.01版的重叠与新颖性。
三、研究结果
3 Results(结果)
研究人员统计了47个数据集的进样策略:27个为单标品LC-MS/MS进样,20个为多标品混合进样(需注意避免共洗脱),9个为流动注射分析(Flow Injection Analysis,FIA)无色谱分离。数据采集以数据依赖采集(Data-Dependent Acquisition,DDA,38例)为主,10例采用数据无关采集(Data-Independent Acquisition,DIA,如Waters MSE、Agilent All Ion Fragmentation,AIF),1例兼用DDA与DIA。仪器类型以电喷雾电离-四极杆飞行时间(ESI-QTOF,29台)及大气压化学电离/电喷雾电离-轨道阱(APCI/ESI-Orbitrap,18台)为主,涵盖Bruker、Sciex、Agilent、Waters及Thermo机型。经预处理与质控,mFam贡献最终含7,872张MS/MS谱图,来自2,126种具唯一结构的代谢物(正离子模式59%,ESI电离98%,最常观测加合离子为[M+H]+、[M-H]?、[M+NH4]+;93%使用Acquity CSH C18柱,82%化合物RT<15 min)。1,601种化合物仅由单一实验室测量,525种被≥2个实验室重复测量。化合物类别(ChemOnt分类)以苯丙素与聚酮类(phenylpropanoids and polyketides)为主,其次为脂质与萜类(lipids and terpenoids),反映贡献实验室的植物代谢组学侧重;最常见5种化合物为绿原酸(Caffeoyl quinic acid)、槲皮素-3-芸香糖苷(Quercetin 3-rutinoside)、柚皮素(Naringenin)、芥子酸(Sinapic acid)及木犀草素(Luteolin)。以ECFP4指纹比对MassBank基线库(排除相似度≥0.99者),1,879个mFam条目为MassBank新增结构,中位最近邻Tanimoto相似度为0.667,证实mFam显著拓展原有化学空间,尤以为菊科(Asteraceae)植物特征性倍半萜内酯(sesquiterpene lactones,如eudesmanolides、xanthanolides)等结构新颖化合物为代表。
四、讨论与结论
讨论部分指出,mFam协作最大挑战系化合物数据管理——手动转录元数据易引入错误,经自动化管线(缺失值检查、文件名一致性、RT信息核验、结构标识符交叉验证)大幅降低人工校订量并提高FAIR性。异源供应商格式与预处理差异系持续障碍,个别原始数据所报中心化(centroid)属性与谱图实际形态不符,未来需提升MS处理平台互操作性并建立标准质量指标。未限定提交化合物使88% mFam代谢物为MassBank全新录入,且约25%获多仪器复现测量,既拓宽ML训练数据化学多样性,又提高不同实验室谱图可比对性。结构比对显示mFam贡献(单萜、萜内酯、二萜、唑/唑烷、甾体二萜、香豆冉、酚及醌类等)填补了广泛代谢空间的结构缺口。
结论:mFam-MS/MS集合是代谢组学界可免费使用的有价值资源,可用于植物、动物及微生物多类生物样本代谢物鉴定及药物与天然产物代谢研究。该资源目前植物来源谱图占比较高,水生生物谱图偏少。mFam合作汇聚各实验室内部孤立谱库,较单一课题组更高效弥补化学覆盖空缺;阐明DDA/DIA/FIA策略分布、TOF与Orbitrap仪器跨平台比较及元数据管理要点(唯一标识符、加合离子可用性、碎片峰数等)。最终向MassBank新增来自2,126种独特化合物的7,872张碎片谱图,其中1,879种结构为首次收入MassBank,使mFam成为MassBank第5大贡献者,所建多样化可靠谱图库对MS特征鉴定及机器学习注释工具开发具有重要意义。