综述:mzPeak:设计一种可扩展、可互操作且面向未来的质谱数据格式

《Journal of Proteomics》:mzPeak: Designing a Scalable, Interoperable, and Future-Ready Mass Spectrometry Data Format

【字体: 时间:2025年10月26日 来源:Journal of Proteomics 2.8

编辑推荐:

  本文综述了当前质谱(MS)数据格式(如mzML和imzML)在应对高通量、多维数据(如离子淌度、成像质谱(MSI))时面临的挑战,并提出了下一代开放格式mzPeak的设计愿景。mzPeak采用混合模型(高效二进制存储与可读元数据结合),旨在显著减小文件大小、加速数据访问、增强元数据支持(如整合SDRF-Proteomics和PSI-MS词汇),并确保跨平台互操作性和长期归档稳定性,为蛋白质组学、代谢组学、脂质组学等领域的可持续发展提供未来适应性解决方案。

  
1. 引言
质谱(MS)领域在过去十年中经历了重大变革。现代质谱仪能够在更短时间内生成非常庞大的数据集,这为基于MS的组学学科带来了新机遇,但也对数据存储和访问方式提出了严峻挑战。目前,缺乏能够有效管理这些先进仪器产生的海量复杂数据的通用格式。现有主要选项——开放格式mzML和厂商特定格式——均存在明显局限性。mzML作为由人类蛋白质组组织(HUPO)的蛋白质组学标准倡议(PSI)定义的社区驱动标准,其基于XML的文本结构导致文件庞大、数据访问缓慢,难以适应高通量工作流程。而厂商二进制格式虽然针对其仪器性能进行了优化,但通常需要专有软件访问,缺乏互操作性,且长期数据保存存在风险。此外,精准医学(如个性化分子表型分析)和化学安全(如环境和人类监测计划)等领域日益严格的监管要求,也推动了对强大、长期数据和元数据存储解决方案的需求,这是现有格式未能充分支持的。本文介绍的mzPeak,正是一种旨在应对这些挑战的下一代数据格式。
2. 当前格式面临的挑战
2.1. XML 格式的局限性
mzML的开发是MS数据标准化的一个重要里程碑,它在推出时极大地改善了数据交换和互操作性。然而,其文本型XML结构如今已成为瓶颈,导致文件大小远超必要,给每月产生TB级数据的实验室带来了巨大的存储负担。解析大型XML文件计算成本高,在处理大规模复杂数据集时成为限制处理速度的因素。一些计算小组开发了非标准的二进制格式作为中间数据结构,但这些格式缺乏互操作性。质谱成像(MSI,也称为成像质谱)的发展凸显了对统一格式的需求,该格式需要满足大文件大小、空间坐标跟踪、对光谱和离子图像的高效访问、离子淌度支持以及可能包含MS/MS或三重四极杆数据等独特要求。研究人员在使用高分辨率仪器、多维离子淌度工作流程或MSI数据时常常受到阻碍,因为现有软件可能无法完全支持其质谱仪的全部功能,或者因XML格式使用的遗留数据结构而导致数据访问效率低下。此外,用户难以找到mzML和/或imzML格式的完善、有文档记录的实现,这也影响了其使用并给软件开发人员带来了问题。
2.2. 厂商特定格式的局限性
与mzML相比,厂商特定格式针对其各自仪器的性能进行了优化。然而,这些专有格式通常缺乏长期归档考虑并限制了互操作性。访问厂商格式通常需要具有限制性许可的软件库。即使厂商软件开发工具包(SDK)是免费提供的,它们也常常依赖于特定的平台、操作系统或编程语言,使得长期数据访问存在不确定性。厂商SDK虽然改善了对专有数据的访问,但并未完全满足开放、长期归档、监管合规和跨不同软件生态系统实现可重复科学的需求。对于学术软件开发者而言,支持多个厂商的软件格式增加了额外负担,并且厂商的许可限制(例如,再分发限制)阻碍了软件分发。相比之下,统一的社区支持格式有助于抽象这种复杂性,而开放格式通过确保长期、免许可、单一入口点且系统无关的数据访问来促进可重复科学,这对于科学再现性是不可或缺的。
2.3. 从 mzMLb 和其他二进制格式中汲取的经验
mzMLb的开发试图解决mzML的一些局限性,特别是数据压缩和访问速度方面。通过使用HDF5二进制存储格式,mzMLb减小了文件大小并改善了数据检索时间。然而,尽管有这些技术改进,mzMLb并未获得广泛采用。一个关键问题是mzML规范中未解决的元数据可用性有限,这阻碍了其在依赖详细实验信息的工作流程(如多维和监管驱动的研究)中的可用性。由于转换过程完全依赖于厂商库暴露的有限元数据,并且实现修改复杂,在MS数据生态系统内解决这一限制是不切实际的。此外,社区认为mzMLb相对于mzML提供的附加价值有限,因为它没有解决更广泛的需求,如厂商互操作性或监管合规性,同时大大增加了支持它的技术负担。这些经验教训强调,mzPeak需要同时提供改进的数据处理效率和强大的元数据支持,以确保在MS社区中的广泛效用和采用。
3. mzPeak 的愿景
3.1. 可扩展的开放解决方案
mzPeak旨在通过采用混合模型来克服上述格式的局限性,该模型将用于数值数据的高效二进制存储与人类可读的元数据存储相结合。这种混合方法确保了高效的存储和更快的读写时间,使其非常适合由高分辨率、多维工作流程(如离子淌度谱法和MSI)生成的复杂数据集。在初始实现研究中,将使用Parquet,这是一种为高效存储和检索而设计的开源数据文件格式。该格式将使用HUPO-PSI质谱控制词汇(PSI-MS),确保mzPeak与广泛接受的术语和定义保持一致。mzPeak采用原生二进制格式,将支持对光谱、色谱图、离子图像和淌度图的随机访问,确保快速高效的数据检索。此外,它将允许与基于厂商的格式进行无损相互转换,在保持数据完整性的同时确保跨平台的兼容性。mzPeak将在开放许可下发布,并无专利限制,旨在支持MS社区当前和未来的需求,为管理日益复杂的MS数据提供坚实的基础。
3.2. 全面的元数据
较旧格式的一个关键缺陷是它们存储和注释全面元数据的能力有限,尤其是在样品和MS运行级别。mzPeak将通过支持对样品特征和质谱仪配置的详细注释来解决这一局限性,同时整合社区支持的元数据标准SDRF-Proteomics。这包括实验条件、运行特定参数和样品描述等关键信息,确保数据可以在来自不同厂商的各种MS平台上得到充分利用和解释。通过将样品级元数据与操作细节(例如整个LC梯度过程中的泵压,即使无法直接从厂商MS文件中检索)相结合,mzPeak将支持无缝的元数据注释和导出。这些功能对于确保公共存储库中的数据可比性以及满足监管要求至关重要,在这些情况下,完整准确的元数据对于长期可用性和完整性至关重要。厂商原始文件通常包含嵌入的仪器特定元数据,这可能涉及隐私和/或知识产权问题。在临床环境中,可能存在存储临床样品个人身份信息的需求。为满足这些需求,mzPeak将支持存储二进制对象和加密元数字段,这建立在Parquet可用的列级加密和页级校验和等机制之上。
3.3. 灵活且面向未来的设计
mzPeak不仅是为了解决当前的挑战,其设计还将适应MS方法的未来发展。它应具有灵活且机器可读的结构,能够纳入新的数据类型和工作流程,确保即使技术不断进步,该格式仍能保持相关性。它应能支持最近出现且仍在发展的数据采集模式,如MSI和单细胞质谱分析,这些模式的实验设置和数据结构可能与用于批量蛋白质组学、代谢组学或脂质组学的更传统的色谱法质谱有显著不同。因此,该格式可以与MS领域同步发展,支持新的分析技术、仪器和数据分析工作流程。mzPeak委员会内部的广泛讨论确立了需要认识到新格式必须在最小化文件大小和最小化访问时间之间取得平衡。考虑到社区不同成员的不同需求,技术开发将探索这些权衡,并向委员会反馈可能的折衷方案。为确保长期可持续性,mzPeak建立在具有已证实的社区支持和机构稳定性的技术和框架之上。由蛋白质组学标准倡议(HUPO-PSI)维护的控制词汇和PSI-MS本体论为元数据标准化提供了成熟、社区治理的基础。对于序列化,mzPeak将在Apache Parquet中进行原型设计,这是一个Apache软件基金会的顶级项目,被各行各业广泛采用,并提供持续维护和互操作性的强大保证。这些选择共同支持mzPeak的目标,即提供一种随着质谱技术持续发展而保持耐用、可扩展和可访问的格式。
4. mzPeak 的优势
4.1. 对研究人员而言
mzPeak旨在解决现有社区标准和专有厂商格式的关键局限性。与mzML相比,mzPeak通过使用高效的二进制存储数值数据,旨在提供更快的数据访问和更小的文件大小,从而实现更快速、更可扩展的分析工作流程。与厂商特定格式相比,mzPeak通过采用开放、标准化的结构,旨在改善跨平台和软件生态系统的互操作性,促进无缝数据共享,并减少对专有工具的依赖。互操作性是另一个主要优势。mzPeak将促进软件平台之间的无缝数据共享,打破兼容性障碍,实现更灵活的数据分析。在数据层面,蛋白质组学、代谢组学和脂质组学具有很大的相似性,主要区别在于分析技术和样品制备技术等方面。这种共性确保mzPeak可以有效地服务于这些领域,同时适应新兴的组学领域。此外,其互操作性对于多组学研究尤其有益,其中整合来自蛋白质组学、代谢组学和脂质组学的数据对于提供生物系统的全面视图至关重要。长期数据保存对于精准医学、监管监测计划和MS库构建等领域至关重要。保存原始原始数据使未来的研究人员能够在仪器和算法发展后重新处理和验证光谱。mzPeak在设计时考虑了归档耐久性,提供了一种稳定、安全的格式,符合数据保留和可访问性的监管要求。通过支持强大的元数据和标准化数据结构,mzPeak将确保关键信息保持完整和可访问,即使技术和分析平台不断演变。这保证了今天生成的数据在未来仍可解释,从而能够进行纵向研究和监管审查,而无需担心数据退化或不兼容。此外,mzPeak能够呈现所有可用的厂商原始数据(不像当前标准经常省略或未能存储某些仪器特定细节),使其成为一个更完整、更高效的解决方案。这一点,加上其开放设计,减轻了机构或公共数据存储库(如EMBL-EBI的PRIDE、MassIVE、Metabolomics Workbench和MetaboLights)的负担,有助于实现更可持续的长期存储和归档实践。以mzPeak格式提交数据的一个附带效果是,网络服务可以更轻松地访问档案中的大多数MS数据,而不仅仅是那些同时存放开放格式和厂商原始文件的项目。
4.2. 对厂商而言
对于MS厂商,mzPeak提供了超越技术性能的战略优势。监管合规性日益受到关注,特别是在精准医学(例如个性化分子表型分析)等领域,需要可审计的数据格式,能够长期归档并保持可访问和可用,且具有完整性保证。mzPeak通过提供一种确保长期数据保存和快速访问的格式来满足这一需求。通过采用开放标准,厂商还可以降低维护专有数据格式相关的成本。向mzPeak的过渡使厂商能够专注于其核心创新,同时利用社区驱动的标准来处理常规数据管理任务。软件厂商有强大的动力采用mzPeak。使用开放格式可以节省时间,因为只需要单一实现就能读取任何可输出mzPeak数据的仪器数据。与mzML相比,mzPeak允许以更高效的存储和访问模式处理更广泛实验类型生成的数据,包括成像MS和复杂的离子淌度实验。此外,使用Parquet使mzPeak能够在云环境中无缝存储MS数据。
4.3. 对监管机构而言
mzPeak的设计将满足负责数据完整性、可审计性和长期可访问性的监管机构的需求。通过开发一种具有版本控制、开放文档、结构化元数据以及对敏感信息加密支持的格式,mzPeak有潜力适用于临床试验等监管框架。使用开放、社区驱动的数据格式将有助于实现可重复的分析和可靠的数据解释,而不依赖于专有软件。因此,这将帮助监管机构自信地评估数据提交。
5. mzPeak 的发展路线图
5.1. 社区驱动的协作
mzPeak的开发和采用将依赖于MS社区与关键利益相关者之间的积极合作。为应对对新开放文件格式的需求而成立的mzPeak委员会,一直专注于大规模组学研究的归档和再分析需求。该委员会已在重要会议上举办了圆桌讨论,并进行了社区调查以收集意见。未来,委员会将继续与研究人员、仪器厂商和软件开发人员合作,以确保mzPeak与MS生态系统的多样化需求保持一致。HUPO-PSI在培育社区标准方面有着悠久历史,将在指导这一发展中发挥关键作用,并纳入代表代谢组学、脂质组学、MSI和单细胞MS的其他社区。当前的mzPeak提案已获得研究人员、关键软件包的领导层和开发人员的早期兴趣和建设性反馈,反映了对改进开放格式需求的共同认识以及帮助塑造其发展的意愿。为了进一步扩大这一努力,mzPeak委员会向新的贡献者、研究人员、开发人员或利益相关者开放,鼓励他们联系并加入该倡议。
5.2. 技术实现
mzPeak将随附一个用低级编程语言(例如C++)编写的参考实现,并提供多种编程语言(例如Python)的绑定,以确保研究人员和厂商的广泛可访问性。为防止出现早期格式遇到的问题,开发过程将明确包括一个路线图,从一开始就提供一个宣传良好、功能齐全的参考实现。该实现将包括一个验证器,以确保与mzPeak标准的兼容性,并通过跨平台互操作性促进在不同操作系统上的无缝集成。数据存储模型将是原生二进制的,允许随机访问光谱、色谱图、离子图像和淌度图,确保处理大型复杂数据集的效率。厂商也将能够存储基本的技术元数据,包括但不限于MS和LC设置以及运行特定参数。每次运行将存储为一个单一的自包含文件,提供所有数据和元数据的全面存档。此外,参考实现将设计为与现有工具集成,通过提供转换器、后端或包装器,最大限度地减少对已建立工作流程的干扰。这种方法通过优先考虑兼容性并提供对开发人员友好的工具和清晰的文档来解决先前标准的缺点,从而鼓励采用。序列化技术的选择明确考虑了长期稳定性,包括多个独立实现的可用性以及库维护随时间的可持续性。为确保长期生存能力,mzPeak将采用清晰的版本控制实践,并为每个格式版本维护可公开访问的文档。将特别关注核心数据结构(如索引方案和元数据组织)在未来版本中的稳定性。随着技术的持续发展,我们旨在通过维护开放的文档实践、公开归档格式规范以及促进持续的社区参与来降低风险。这些努力旨在帮助确保今天生成的数据在未来仍能为研究、临床和监管需求所访问和使用。
5.3. 采用策略
mzPeak的采用将由其技术优势和与关键利益相关者的战略合作共同推动。为确保广泛接受,不仅将与主要MS厂商建立战略伙伴关系,还将与现有"基石"软件(例如OpenMS、ProteoWizard、METASPACE)、公共数据存储库、知名学术机构以及能够倡导该格式采用的具有影响力的用户建立战略伙伴关系。监管机构也将通过鼓励或要求以标准化格式(如用于合规目的的mzPeak)提交数据来发挥关键作用。采用的另一个推动因素是直观的基于GUI的数据检查和探索工具的可用性。虽然存在通用的Parquet查看器,但它们并非为质谱量身定制,无法支持基于光谱、色谱或成像的可视化。为确保非编程人员和湿实验室科学家的可访问性,mzPeak的采用将受益于类似于mzmine或厂商特定查看器的用户友好软件。这些工具将允许研究人员执行质量控制、检查元数据和探索文件内容。从早期格式(如mzML)吸取的经验教训也让我们认识到,mzPeak的成功推广取决于协调良好的发布。为此,mzPeak将随清晰的文档、示例文件和语言绑定一起发布。将高度重视信息传递和可见性,包括教程、社区外展以及与广泛使用工具的开发人员的密切协调。这些努力旨在降低采用门槛,为新老用户支持平稳过渡。这种多方面的方法将mzPeak定位为数据存储和分析的默认选项。目标是创建一种在技术上优越、与监管和社区需求保持一致并在MS社区内得到广泛支持的格式。
6. 结论
随着质谱技术的不断发展,我们用来管理其产生数据的工具也必须与时俱进。mzPeak旨在应对当今高通量数据环境的挑战,同时为该领域未来的进步做好准备。通过借鉴mzML、mzMLb、imzML等的经验教训,mzPeak致力于提供一种可扩展、面向未来的解决方案,使研究人员、厂商和监管机构受益。我们邀请研究人员、开发人员、仪器厂商和质谱社区的其他成员贡献他们的专业知识和观点,共同完成初始规范的制定,并开始原型参考实现的开发,目标是使mzPeak与当前和未来MS工作流程的实际需求保持一致。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号