JESTR:基于联合嵌入空间技术的非靶向代谢组学数据注释新方法

【字体: 时间:2025年06月18日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对代谢组学中分子结构注释率低的难题,开发了JESTR(Joint Embedding Space Technique for Ranking)技术。通过将分子与质谱作为同一对象的多视图嵌入联合空间,避免了传统显式生成指纹或谱图的中间步骤,在NPLIB1等四个数据集上实现rank@1性能提升55.5%-302.6%。该技术首次引入候选分子正则化策略,使模型能更好区分目标分子与候选集,为解锁代谢组学深层生物学意义提供了新范式。

  

代谢组学的"身份识别"困境
在生命科学研究中,代谢组学如同化学世界的"指纹鉴定",但现有技术面临巨大挑战:通过LC-MS/MS获得的质谱数据与分子结构的对应关系如同"密码本"残缺不全。当前主流方法如spec-to-spec库搜索在MassIVE数据库中的识别率仅2.3%,而显式预测分子指纹(FP)或谱图的mol-to-spec/spec-to-FP方法存在重建误差累积问题。这种低注释率严重阻碍了从代谢数据中挖掘生物学意义的进程。

Tufts大学与Google Research的研究团队在《Bioinformatics》发表的研究提出革命性解决方案JESTR。该技术突破性地将分子结构与质谱视为同一化学实体的两种视图,通过对比学习构建联合嵌入空间,直接计算查询谱图与候选分子的余弦相似度进行排序。在NPLIB1、NIST2020等数据集上的实验表明,其rank@1性能超越ESP、MIST等工具最高达302.6%,对SIRIUS和CFM-ID的改进分别达31%和238%。

关键技术方法
研究采用图神经网络(GNN)编码分子结构(含原子类型、键特征等),MLP处理离散化质谱数据(1000维binned向量)。通过对比多视图编码(CMC)框架,使用温度调节的InfoNCE损失函数优化嵌入空间。创新性地在训练后期引入候选分子正则化(3% epoch时α=0.9,β=0.1),利用PubChem中1520万候选分子增强模型区分能力。测试时基于cosine_sim(zspec
, zmol
)进行排序。

研究结果
3.1 Datasets
使用NPLIB1(7,131分子)、NIST2020(22,001分子)、MoNA(6,767分子)和MassSpecGym(32,010分子)四个数据集,其中MassSpecGym采用最大公共边子图(MCES)距离>10的严格划分。候选分子通过PubChem化学式匹配获取,平均每个目标分子对应1,322-2,494个候选。

3.3 JESTR vs explicit-construction models
在NPLIB1数据集上,JESTR的rank@1达45.76%,显著高于ESP-MLP-PD(23.69%)和MIST(27.96%)。对NIST2020数据集,其rank@1(38.62%)比MIST提高83.8%。即使在与SIRIUS比较时,在排除训练集分子的严格条件下仍保持31%优势。

3.4 JESTR vs implicit models
相比同样采用联合嵌入的CMSSP,JESTR的架构设计(InfoNCE损失+余弦相似度)使NPLIB1的rank@5从32.97%提升至81.53%。温度调节的余弦相似度h(zspec
n
, zmol
m
)=exp(cos(·)/τ)有效区分正负样本对。

3.6 Ablation study
正则化策略使NPLIB1的rank@1提升11.4%,MoNA提升37.1%。分析显示,该策略成功降低目标分子与候选集的平均余弦相似度(图5C),尤其对Tanimoto相似度>0.4的"困难候选"区分效果显著。

结论与展望
JESTR通过"分子-谱图即视图"的范式转变,开创了代谢组学注释的隐式方法新纪元。其核心突破在于:①规避显式重建带来的误差累积;②通过候选正则化增强模型辨别力;③验证对比学习在跨模态化学数据中的普适性。尽管在MoNA等数据异质性较强的数据集上仍有提升空间,但该方法为破解"代谢组学注释率天花板"提供了新思路。未来整合亚化学式标注等先验知识,有望进一步释放该技术在精准医学和环境毒理学等领域的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号