糖组学与糖蛋白组学方法语义注释:基于多本体整合的标准化路径探索

《Glycobiology》:Semantic Annotation of Glycomics and Glycoproteomics Methods

【字体: 时间:2025年11月01日 来源:Glycobiology 3.3

编辑推荐:

  本研究针对糖组学/糖蛋白组学(Glycomics/Glycoproteomics)领域实验方法报告缺乏标准化、影响数据FAIR化的问题,通过图语义注释技术系统评估了22种生物医学本体对20篇文献工作流的覆盖度。结果表明,整合CHMO、OBI、EDAM等多本体可实现更精准的方法表征,但亦揭示出特定糖科学术语(如O-糖释放)的缺失。该研究为构建领域专用本体、推进糖科学数据标准化提供了关键实践基础。

  
在生命科学领域,糖组学(Glycomics)和糖蛋白组学(Glycoproteomics)作为系统研究糖链结构和糖蛋白组成的交叉学科,正日益凸显其重要性。糖蛋白几乎参与所有生物过程,从细胞信号传导到免疫应答,其复杂的糖基化修饰在癌症、炎症和传染性疾病等病理过程中扮演关键角色。然而,糖链的结构多样性及其在生物样本中的动态范围之广,给研究带来了独特挑战。要深入理解这些分子,需要综合运用生物化学、分析化学乃至新兴的人工智能与机器学习等多学科方法。
尽管已有诸多开放资源致力于提供标准实验方案,如《Nature Protocols》糖科学专题、《糖生物学要点》以及GlycoPODv2等,但实验步骤的细微差异——从酶切消化、分离技术到电离方式——都可能显著影响最终数据。样品回收率、糖链稳定性或化学衍生化效应等方面的变异,使得不同研究或实验室间的数据比较变得复杂。这凸显了对捕获这些实验细节的高质量元数据的迫切需求,它们为数据的准确解读提供了必不可少的背景信息。
推动糖蛋白组学领域发展的关键,在于遵循FAIR(可发现、可访问、可互操作、可重用)原则。这不仅要求产生高质量数据集,更需确保数据易于获取和比较。目前,已有一些核心数据库成为糖蛋白组学数据的存储中心,如质谱数据的PRIDE和GlycoPOST,糖链结构数据库UniCarb-DR和UniCarb-DB,以及糖结构库GlyTouCan。符号命名法SNFG则为谱图注释和糖链鉴定提供了标准。然而,要实现数据的真正互操作,必须辅以全面的元数据,包括详细的实验方案描述。这些通过受控词汇表和本体进行形式化描述的元数据,能确保数据可被机器读取、有效整合和重用。
本体论在这一过程中起着核心作用,它提供了标准化的框架,使得不同研究间的实验方法得以一致地表征。生命科学领域存在数百种本体,许多收录于OBO Foundry,各自覆盖特定知识领域。虽然现有的成熟本体,如生物医学调查本体(OBI)、化学方法本体(CHMO)和生物科学数据分析与数据管理本体(EDAM)等提供了坚实基础,但在应对糖蛋白组学领域的独特方法和分析时,仍存在空白。
此前由Palmblad等人开展的EACH100研究,使用语义图对《Analytical Chemistry》期刊中100篇涉及质谱(MS)的论文进行了注释,探索了本体在表征实验方法方面的适用性,并评估了自然语言处理(NLP)方法(包括大语言模型)从科学论文中提取有意义元数据的潜力。虽然NLP在通用文本理解方面取得了巨大进步,但科技文献,尤其是像糖蛋白组学这样的专业领域,其语言具有独特性,难以完美契合现有模型。STEM(科学、技术、工程和数学)文献,特别是小众领域,其训练数据池不足,且文本常省略领域专家认为琐碎但对模型理解至关重要的部分。此外,此类文本中的标记化处理和技术指令具有顺序性/方向性,词汇也差异显著。将NLP tailored 为技术语言处理(TLP),例如整合NLP和专家库以组装因果图的INDRA assembler,依赖于结构化的、经过专家注释的领域知识库和具有代表性的领域特定示例。本研究正是旨在为此类工作提供支持。
与之前专注于单一期刊(为NLP评估提供一致结构)的研究不同,本研究扩大了范围,涵盖了更多样化的论文报告风格和实验描述。通过精选20篇来自不同期刊、不同研究团队的近期论文,旨在减少因期刊特定编辑政策或开放获取协议带来的偏差,从而增强语义注释和NLP评估的稳健性。这些论文涵盖了从酶学工作流、毛细管电泳(CE)、液相色谱(LC)到质谱(MS)和核磁共振(NMR)等多种实验技术,研究主题跨越癌症、神经退行性疾病、寄生虫学和食品科学等生物领域。
本研究与糖组学领域的现有标准化努力相辅相成,特别是MIRAGE(糖组学实验所需最低信息)指南及相关倡议。MIRAGE采用规范性框架,定义必须报告的元素,而本研究则采取描述性方法,探索如何利用本体库服务(OLS)中的本体来语义表征糖蛋白组学实验的不同阶段。通过注释20篇来自不同期刊和研究团队的近期文献,不仅旨在改进数据标准化,还力图阐明实验技术如何协同或顺序使用。例如,结合PNGase F酶切和LC-MS分析的工作流揭示了可通过语义注释捕获的特征性方法序列。这有助于阐明分析步骤在糖蛋白组学工作流中的相互联系和演变。最终,通过将实验方法与结构化本体框架整合,朝着更普适地理解如何设计、报告和解读糖蛋白组学实验迈进一步。改进的标准化和元数据丰富性将为更好的数据整合、跨研究比较以及复杂糖分析工作流的可重复性铺平道路。这些进展将促进对糖链和糖蛋白如何驱动生物过程并参与疾病的更深入理解,从而加强生物医学研究和治疗创新的基础。
为开展研究,研究人员主要应用了以下关键技术方法:首先,从Europe PMC检索2020-2024年间发表的开放获取糖组学/糖蛋白组学文献,构建包含2756篇论文的初始语料库,并基于期刊和研究团队的多样性筛选出20篇代表性文献进行深入分析。其次,采用基于图的语义注释方法,利用图形建模语言(GML)将每篇论文的实验方法部分构建为有向无环图(DAG),其中节点代表实验步骤,边代表输入输出关系。注释过程严格参照本体库服务(OLS)中的22种生物医学本体(如CHMO, OBI, EDAM, NCIT等)进行术语标注,力求精确表征每一步骤。最后,使用Cytoscape软件对生成的GML文件进行可视化、检查和合并,并利用R语言及相关包(如europepmc, igraph, RCy3)进行元数据提取、数据分析和流程控制,确保注释结果的一致性和可重复性。
结果
语义注释示例
图1展示了对Davide Ret等人论文方法部分的语义注释实例,该论文涉及一种用于生物体液中N-糖链MALDI-MS分析的DMTMM介导的甲基酰胺化方法。该注释使用了多种本体,包括BAO、CHMO、EDAM、NCIT和OBI。其中,CHMO在捕获工作流的化学和程序方面作用尤为突出。注释方法从化学物质[CHEBI:59999]和血清样本[OBI:0100017]开始,描述了所有主要的转化或生成步骤,最终以糖链谱[NCIT:C128469]和一维质子NMR谱[CHMO:0002419]结束,证明了合成试剂的质量。节点大致对应文章方法部分的段落。
注释复杂性及语料库比较
所有20个注释均以GML格式公开于GitHub。最常用本体的分布情况(图2A)表明,CHMO本体很好地覆盖了分析化学方法,这些方法通常是糖组学和糖蛋白组学工作流的核心。像OBI这样的生物学本体则适用于描述方法开头定义的生物系统及其采样,而专用的生物信息学本体EDAM在数据分析和可视化的注释中更受青睐。本语料库中20个方法部分的平均长度为1548个单词,比之前注释的《Analytical Chemistry》方法部分平均长度(1078单词)多出44%。GLYCO20注释平均包含23个节点(不包括起始和结束节点)和29条边(补充表S2),而EACH100注释平均为12个节点和15条边。节点数量通常与方法部分的长度相关(图2B)。与之前的观察一致,写作风格也存在很大差异。此外,GLYCO20数据集中几乎所有被注释的论文都表现出复杂的、分支化的工作流,仅有一篇论文遵循线性实验结构(图2C)。这与EACH100数据集形成鲜明对比,后者中更大比例的工作流是线性的,并且有几篇出版物呈现并行结构。
语料库多样性与注释精确性
与之前仅关注ACS期刊《Analytical Chemistry》的研究相比,本研究的论文选自更广泛、地理代表性更强的语料库。在2020-01-01至2024-12-31期间发表的2756篇开放获取文章中,580篇通讯作者所属机构位于美国,419篇在中国,240篇在澳大利亚,152篇在加拿大,142篇在荷兰。虽然NCIT本体(或辞典)原则上覆盖了注释实验的所有方面(从样本到统计分析),但如果必须使用通用术语(例如常用于分离释放糖链的毛细管电泳[NCIT:C17637])而非特定类型的CE,则会损失精确性。在CHMO中,毛细管电泳[CHMO:0001024]有四个子类(毛细管亲和电泳、毛细管等电聚焦、毛细管等速电泳和毛细管筛分电泳)和一个子子类(毛细管凝胶电泳,毛细管筛分电泳的子类)。在我们的注释中,我们力求使用最精确的术语来描述实验方法。另一个可以在未来注释工作中协调的选择是,当存在多个基本术语或一个组合术语时,优先使用哪个。这些组合术语在CHMO中尤其丰富,它包含许多连字符连接的技术,例如液相色谱-串联质谱[CHMO:0000701],这也可以使用液相色谱[CHMO:0001004]和质谱[CHMO:0000470]这些更基本的术语来注释,而不会丢失信息。在某些情况下,新的或不常见的连字符组合,如亲水相互作用色谱[CHMO:0002262]或石墨化碳液相色谱[CHMO:0002924]与串联质谱[CHMO:0000575]的结合,需要使用单个技术来描述。为了一致性,注释者可能倾向于以这种方式注释所有方法,即使该方法已作为连字符组合包含在内。这也可以通过本体中现有的附加关系来辅助,例如从液相色谱-质谱到液相色谱的"has proper occurrent part"关系。
讨论
本体覆盖与术语选择的挑战
注释者在糖蛋白组学领域的经验背景通过理解该领域常见的实验类型以及认识细微但重要的程序细节,为注释过程提供了帮助。值得注意的是,一些实验概念和术语出现在多个本体中,这可能导致注释的冗余或歧义。例如,固相萃取(SPE)是糖组学中广泛用于分析物富集或纯化的技术,在多个本体中都有定义。CHMO[CHMO:0001583]条目被导入到其他四个本体(CAO、MICRO、PRIDE和PROCO)中,这些本体都通过本体映射可互操作。然而,相同的概念在OMIT[OMIT:0025161]中独立定义,尽管OMIT最初是为microRNA领域的数据交换而开发的。这种重叠凸显了谨慎选择术语和进行本体对齐的重要性,以确保糖蛋白组学工作流的一致且明确的语义表征。虽然大多数人工注释者可能会为SPE等概念选择CHMO术语,但使用其他本体的等效术语并非 inherently 错误。本体的选择不仅取决于技术准确性,还取决于社区标准和互操作性目标。在此背景下,像MIRAGE这样的倡议通过推荐糖组学数据报告的首选本体,发挥着关键作用,同时在推荐本体中没有合适概念时,仍允许使用其他本体或受控词汇表的替代术语。一个更雄心勃勃的长期解决方案是开发一个复合或领域特定的本体,通过系统性地导入和协调现有本体框架中的术语来构建。这种方法可以提供语义精确性和灵活性,确保糖蛋白组学中的领域特定工作流得到准确一致的表征。
一些基本概念,如N-糖释放、O-糖释放或糖纯化,尚未在任何本体中找到。有时可以通过现有术语来规避,例如,在适用的情况下可以使用更具体的术语PNGase F消化[CHMO:0002921],但更常见的是使用广义术语,例如用于O-糖释放的还原性消除[REX:0000436]或用于描述糖纯化的纯化[NCIT:C68780]。这些挑战部分源于我们选择的相对较新的文章,有些在注释时仅发表一年。自然,任何大约在此期间引入的新概念或技术,其术语可能尚未被本体收录。此外,与N-糖相比,O-糖分析的方法标准化程度较低,部分原因是缺乏通用酶。然而,随着对O-糖的关注日益增加以及新分析技术的出现,例如通过O-糖蛋白酶进行O-糖释放,迫切需要扩展现有本体以包含能准确反映这些 evolving 工作流的专用术语。
当前糖科学本体的局限性
虽然存在更针对糖科学的特定本体,如GLYCO和GLYCORDF,但这些要么已过时(GLYCO),要么在本研究中发现覆盖范围过于有限(GLYCORDF)而无法使用。每个单词对应的节点和边数量更多,表明糖蛋白组学中方法的描述相对《Analytical Chemistry》中的方法更为凝练,分别为70单词/节点和57单词/边,而EACH100中为90单词/节点和72单词/边。推测原因是糖蛋白组学中许多方法是常见且重叠的,而许多EACH100论文引入了新颖方法。诚然,比仅关注单一期刊时要轻,但在允许文本挖掘的论文选择中仍然存在地理偏差,这可能转化为研究主题和方法的偏差。例如,澳大利亚、荷兰和加拿大等国强烈鼓励开放获取出版,文章处理费由国家协议覆盖。主题偏差是由国家间疾病流行率和医疗政策的差异引入的,而方法偏差可能是生产特定类型技术的公司相对市场份额的函数。例如,质谱供应商通常在其本土市场拥有显著更高的市场份额。在从全文文本挖掘中得出普遍结论时,意识到这种偏差非常重要。
改进注释和元数据标准的途径
为了进一步改进注释,必须解决现有本体中关键糖科学相关术语缺失的问题。然而,分析化学领域发展迅速,几乎每天都有新的样品处理程序和分析平台被开发和发表。因此,需要一个实用的策略来支持将新术语系统性地添加到相关本体中,同时最小化冗余并确保与现有条目的一致性。一种直接的扩展本体覆盖范围的方法是与开发新技术的作者合作。虽然前景广阔,但此策略可能耗时且作者可能认为将其新创新贡献给本体没有立竿见影的好处。为了鼓励参与,期刊可以推荐甚至要求以计算机可解释的语义格式(如样本和数据关系格式SDRF)提交实验元数据。此类政策将直接支持MIRAGE委员会的目标,该委员会倡导糖组学中的标准化和全面报告。这些最低信息指南确保出版物中详细报告必要的实验细节,包括样品制备、LC、CE和MS分析。值得注意的是,MIRAGE倡议内的一个专门工作组目前正致力于扩展糖生物学的本体支持,其积极开发托管于特定网站。除了MIRAGE,更广泛的糖信息学倡议,如GlyGen和GlySpace联盟,可以在构建和维护关键本体基础设施方面发挥重要作用。虽然这些倡议本身并非专注于方法学,但它们汇集了不同的利益相关者,包括那些可以为专用糖方法学本体做出贡献的人。通过支持社区内的标准化数据实践,最终将提高糖组学数据的一致性、可比性和可用性。在此背景下,本研究的结果,特别是我们对注释空白、术语冗余和工作流复杂性的识别,可以为此类努力奠定基础。为了以一种符合社区需求的方式优先发展本体,一种选择是考虑引用次数或关注度指标来指导术语添加。然而,我们也认识到这种方法可能引入偏差,必须与专家策展相平衡。
迈向FAIR与可扩展的糖信息学
未来的努力包括组织一个更庞大的注释活动,邀请更多样化的糖蛋白组学专家参与。这些努力将极大地受益于能够生成和提取初步注释的自然语言处理工具和本体映射软件。通过允许用户在PDF或XML版本的文章中标记文本,将这些标记映射到图中使用任何本体术语的节点和边,并指定步骤顺序(这些信息并非总是能从文本顺序中明显看出)的工具,可以进一步促进人工策展。然而,据我们所知,目前还没有单一工具在一个集成平台中提供此功能。这凸显了实验学家、本体学家和工具开发者之间更广泛合作的需求。本研究通过识别糖蛋白组学工作流中的语义空白、冗余和复杂性模式,为领域特定本体和元数据标准的开发奠定了基础。这些改进不仅将使计算工作受益,也将通过实现更一致、可解释和可重用的数据集来服务实验糖生物学家。通过这种方式,我们的工作支持了构建一个更具互操作性和FAIR的糖科学生态系统的总体目标,符合实验台和数据库双方的需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号