MaxQuant中元数据整合促进蛋白质组学数据分析与共享的新策略

【字体：大中小】 时间：2025年09月26日 来源：Nature Communications 15.7

编辑推荐：

　　本刊推荐：为解决蛋白质组学研究中元数据格式不统一、整合耗时且标准化不足的问题，研究人员开发了MaxQuant中的元数据整合功能，实现了SDRF格式元数据的便捷导出与输出表格的自动注释。该研究显著提升了数据分析效率及公共数据集的可重复性与复用性，对推动蛋白质组学数据标准化具有重要意义。

随着质谱技术的飞速发展，基于质谱的蛋白质组学已成为研究生物体内蛋白质表达、相互作用和修饰的强大工具。仪器设备和数据获取方法的进步极大地提高了测量的分辨率、灵敏度、可重复性和通量，使得科学家能够更深入地探究动态生物过程。然而，在海量数据产生的背后，一个长期存在的挑战是如何高效、标准化地管理和利用与样本相关的元数据。元数据在蛋白质组学数据的分析和传播中扮演着至关重要的角色：它不仅为库搜索输出的结果表格提供样本信息注释，也是公共数据库中数据文件样本信息展示的依据。

遗憾的是，将元数据整合到数据分析中往往是一个耗时且缺乏良好标准化的过程。公共存储库中元数据格式的不一致严重阻碍了其他研究人员对这些公共数据集的复现和再利用。例如，对于大队列或复杂实验设计的研究，输出表格的注释工作可能极其繁琐。而在涉及多重标记（multiplexed）或分级分离（fractionated）的实验设计中，由于样本与数据文件之间不存在直接对应关系，注释工作变得更加复杂。此外，当在同一研究中重新分析多个公共数据集时，手动注释输出表格需要研究人员付出额外的巨大努力。

为了应对蛋白质组学研究中元数据不一致和不完整的问题，样本与数据关系格式（Sample and Data Relationship Format, SDRF）被引入作为一种标准化格式来存储蛋白质组学样本元数据。SDRF是一种制表符分隔的文本格式，用于描述蛋白质组学研究中样本与数据文件之间的关系。它包含样本相关元数据、数据文件相关元数据以及所研究的变量。将SDRF文件与原始文件一起提交到如ProteomeXchange等公共存储库，有助于增强公共数据集的可重复使用性和可重复性。虽然已有一些工具被开发用于导出或读取SDRF以推广这一标准元数据格式，但目前只有极少数蛋白质组学数据集包含SDRF文件。

造成这一现状的主要原因有两个：一是创建SDRF文件的过程本身较为繁琐。用户需要逐行填写，每一行对应一个样本与数据文件的关系。对于一些实验设置，许多行需要输入重复的信息。例如，多重标记实验具有重复的数据文件属性，而分级分离的实验则具有重复的样本属性。二是用户为自身项目创建SDRF文件的动力不足，因为它对数据分析的直接影响并不显著。创建SDRF文件需要记录大量必需的数据文件和样本属性，但其中大部分数据文件属性在数据分析中并不会被考虑。更重要的是，SDRF文件中的样本属性目前无法直接用于注释输出表格。

针对上述挑战，研究人员在MaxQuant中实现了元数据整合功能。MaxQuant是一个广泛使用的软件，支持来自不同仪器、定量技术和数据采集模式的蛋白质组学数据分析。这项新功能简化了创建SDRF文件的过程，并实现了利用SDRF文件对输出表格进行自动元数据注释，进一步辅助用户进行数据分析。

本研究的主要技术方法包括：在MaxQuant工作流中集成元数据管理模块，自动从输入文件和用户定义参数中提取数据文件属性并转换为本体论术语和 accession 号；开发图形用户界面（GUI）和模板导出功能，支持用户高效填写样本属性；利用Python和R编写脚本，实现SDRF文件与MaxQuant输出表格的自动对接，支持下游分析工具（如Perseus、DESeq2、limma、edgeR）的直接使用；使用来自CPTAC数据门户（ accession number S060）的24级分TMT10数据集进行功能验证与示例展示。

Overview of metadata integration in MaxQuant

元数据整合被作为MaxQuant工作流中的一个新环节实施。除了原始文件和FASTA文件外，用户可在“元数据”选项卡中操作。在此过程中创建的SDRF文件包含所有必需的样本属性（主要由用户填写）以及所有必需的数据文件属性（由MaxQuant自动从输入文件和用户定义的参数中提取）。SDRF文件在数据传播和分析中均可发挥关键作用：既可随原始文件上传至公共存储库以提高数据集的可重复性和可复用性，也可用于自动注释MaxQuant的输出表格，供Perseus或其他工具使用。

Export metadata as an SDRF file in MaxQuant

自MaxQuant v2.7.0起，“元数据”选项卡中实现了将元数据导出为SDRF文件的功能。MaxQuant会自动提取SDRF规定的所有必需数据文件属性，并在写入SDRF文件时将其转换为本体论术语和 accession 号。设置库搜索参数后，点击“元数据”选项卡下的“刷新”按钮，相应的元数据表格便会出现。为减少过多列造成的困惑，该表仅显示基本数据文件信息和需要用户填写的必需样本属性。MaxQuant中元数据表的布局与SDRF不同：其每一行代表一个样本，而非一个样本与数据文件的关系。这种布局根据实验设置自动生成，从而无需填写重复信息。对于多重标记数据集，每个原始文件会扩展为对应不同标签的行，所有这些标签被分配相同的数据文件属性。对于分级分离数据集，对应同一样本的不同原始文件会被合并为一行，这些原始文件被分配相同的样本属性。用户可直接在MaxQuant GUI中填写元数据表，也可在导出的模板中填写后重新导入。对于SDRF中必需但用户项目中可能不可用的样本属性（如人类样本的祖先类别），用户可留空这些列，MaxQuant可选择自动填充“不可用”。这样导出的SDRF文件将没有缺失值，可直接提交至公共存储库而无需进一步编辑。

Annotate the MaxQuant output tables with the SDRF file for downstream data analysis

在MaxQuant中，“Experiment”是每个样本的唯一标识符（多重标记数据集除外，其中每个样本由“Experiment”和标签组合表示）。在SDRF中，源名称（source name）具有相同的定义。因此，在MaxQuant导出的SDRF文件中，源名称与“Experiment”相同（如果数据集是多重标记的，则与标签组合）。这使得它可以用于注释MaxQuant输出表格。Perseus是一个广泛使用的用于组学数据下游分析（如预处理、统计分析和数据可视化）的软件。由于其与MaxQuant协同开发，它与MaxQuant输出表格尤其兼容。自Perseus v2.1.5起，实现了使用SDRF文件注释MaxQuant输出表格的功能。点击“Annot. rows”下的“Read SDRF”会自动将SDRF文件中的所有信息添加为相应强度列的注释行。默认选择“Skip redundant properties”仅添加样本间非相同的属性作为注释行。借助从SDRF文件添加的注释行，用户可以直接使用注释后的输出表格继续进行数据过滤、标准化和统计分析。研究还提供了用Python和R编写的脚本，用于将MaxQuant输出表格和SDRF文件转换为表达矩阵和样本注释表。这两个文件是其他下游数据分析工具（如DESeq2、limma和edgeR）所必需的。只要源名称与MaxQuant中的“Experiment”相同，其他工具创建的SDRF文件也可用于通过Perseus注释输出表格或通过提供的脚本进行转换。

本研究成功地在MaxQuant中集成了元数据管理功能，极大地简化了标准化SDRF文件的创建过程。通过自动提取数据文件属性、智能调整元数据表布局以消除重复输入、并提供灵活的GUI和模板编辑方式，该功能显著降低了用户的负担。更重要的是，它将SDRF文件的应用从数据传播的最终步骤扩展至数据分析的关键环节——输出表格的自动注释。这不仅通过与Perseus的无缝集成以及提供的转换脚本实现了下游分析的便捷化，也为用户创建SDRF文件提供了直接动力，因为它切实地帮助了其自身的数据分析工作。鉴于SDRF源自微阵列基因表达表格（MAGE-TAB）格式（用于RNA-Seq数据的元数据注释），SDRF文件未来也有望成为多组学数据整合的桥梁。这项由马克斯·普朗克生物化学研究所Jurgen Cox和Jinqiu Xiao团队完成的研究，为促进蛋白质组学数据的标准化、可重复性和可复用性提供了简单而强大的解决方案，其成果已发表在《Nature Communications》上。

热点排行

新闻专题