
-
生物通官微
陪你抓住生命科技
跳动的脉搏
跨代谢组学数据库的通用标识与元数据整合系统Pan-ReDU:开启公共代谢组学大数据研究新纪元
【字体: 大 中 小 】 时间:2025年05月25日 来源:Nature Communications 14.7
编辑推荐:
研究人员针对公共代谢组学数据跨库访问难题,开发了Pan-ReDU生态系统,通过统一标识符(MRI)和标准化元数据整合MetaboLights(MTBLS)、Metabolomics Workbench(NMDR)和GNPS/MassIVE三大数据库,实现15倍数据量增长(644,008份文件),显著提升胆汁酸等代谢物发现效率(平均246%组织覆盖率增长)。该系统为多库联合分析提供FAIR化解决方案,推动代谢组学进入大数据科学时代。
代谢组学正迎来数据爆炸的时代,但海量的公共数据却困在"信息孤岛"中。MetaboLights(MTBLS)、Metabolomics Workbench(NMDR)和GNPS/MassIVE三大数据库各自为政,元数据标准不一,就像说着不同语言的三个国家,让研究者难以开展跨库大数据挖掘。当科学家试图追踪胆汁酸在人体组织的分布时,不得不手动下载数十个数据集,处理五花八门的文件格式——这种低效模式严重阻碍了代谢组学从单研究分析向大数据科学的跨越。
由加州大学圣迭戈分校Pieter C. Dorrestein团队与犹他大学Mingxun Wang团队领衔的国际合作,在《Nature Communications》发表了突破性解决方案Pan-ReDU。这个升级版的ReDU生态系统如同建造了连接三大数据库的"高速铁路网":通过MS Run Identifiers(MRI)实现文件精准定位,将异构元数据转化为统一受控词汇表,使跨库数据获取效率提升15倍。当研究者查询"人类尿液样本"时,系统能瞬间返回三大库的匹配结果,就像在单一数据库中搜索般流畅。
关键技术包括:1)基于Python的元数据自动化转换流程,整合ISA模型(MTBLS)、mwTab格式(NMDR)和ReDU框架(GNPS);2)MRI解析器实现多库文件一键下载,支持mzML等6种质谱格式;3)Dash构建的交互式仪表盘,支持按生物样本类型(如Homo sapiens血液)、实验条件等多维筛选;4)NextFlow工作流将Pan-ReDU直接嵌入GNPS分子网络分析流程。
研究结果揭示三大数据库的互补价值:NMDR贡献73%人类血液数据(主攻临床研究),GNPS囊括最丰富的微生物代谢数据(占其总数据19%),而MTBLS作为综合库覆盖95%可用数据。通过Pan-ReDU重新分析胆汁酸组织分布,新增6个生物流体类型(如脑脊液),羟基化胆汁酸检出量提升2-3倍。系统还成功应用于炎症性肠病(IBD)等疾病的跨研究分析,证明其解决生物学问题的能力。
这项研究标志着代谢组学数据复用进入新阶段。Pan-ReDU不仅实现Wilkinson等人提出的FAIR原则(可发现、可访问、可互操作、可复用),更创造出"1+1+1>3"的协同效应。当全球518TB代谢组学数据能被无缝挖掘,我们将加速发现微生物-宿主共代谢网络、疾病生物标志物和天然产物。正如作者强调,这不仅是技术突破,更是对科学共同体数据共享文化的重塑——毕竟,共享数据的真正价值,只有在被他人重用时才能完全释放。
生物通微信公众号
知名企业招聘