利用异构语义挖掘和层次图表示进行蛋白质相互作用模式识别

《Pattern Recognition》:Protein Interaction Pattern Recognition Using Heterogeneous Semantics Mining and Hierarchical Graph Representation

【字体: 时间:2025年10月10日 来源:Pattern Recognition 7.6

编辑推荐:

  蛋白质互作模式识别需解决类别、关系异构性和注释稀缺三大问题,本文提出Sem anGraphPPI框架,通过分层图表示整合异构语义,设计子图表示、异构语义提取和层次知识增强模块,有效提升低注释蛋白的功能表征,并在大规模数据集上验证其优越性和泛化能力。

  蛋白质-蛋白质相互作用(PPI)是理解微观生命系统的重要桥梁,其研究不仅有助于揭示复杂的生物路径,也为疾病治疗和药物开发提供了理论依据。当前,PPI数据的获取面临诸多挑战,主要体现在三个方面:类别异质性、关系异质性和注释稀缺性。为了解决这些问题,研究者们提出了多种方法,但现有的解决方案仍然存在局限。本文介绍了一种新的框架——SemanGraphPPI,旨在通过异质语义挖掘和层次图表示技术,实现对蛋白质相互作用模式的高效识别。

蛋白质-蛋白质相互作用在生物系统中具有重要作用,它不仅是细胞活动的基础,也决定了蛋白质的功能。然而,尽管现有的PPI数据库中包含大量已知相互作用,但它们仍然无法完全覆盖所有可能的相互作用对。例如,Swiss-Prot数据库中记录了20,420种人类蛋白质,并通过人工注释形成了一个潜在的PPI空间,其中包含约4.17亿对可能的相互作用。相比之下,BioGRID数据库中仅记录了104万对经过实验验证的相互作用,占潜在空间的不到0.25%。这种巨大的差距表明,即使对于已经详细注释的蛋白质,其潜在的相互作用关系仍然存在很多未知,难以通过传统的实验手段进行全面探索。

因此,开发更加高效和可靠的计算方法,以弥补这一差距并加速对未知PPI的发现,成为当前研究的重点。近年来,深度学习(Deep Learning, DL)在识别生物实体之间的关联模式方面取得了显著进展,例如药物-靶点相互作用、RNA-蛋白质相互作用、RNA-疾病关联以及PPI等。基于深度学习的PPI方法通常根据所使用的蛋白质模态分为三类:序列模态、结构模态和注释知识模态。

序列模态的方法依赖于蛋白质的氨基酸序列,这是目前最容易获取的蛋白质信息之一。这些方法通常将蛋白质序列视为由20种氨基酸组成的句子,并利用自然语言处理(NLP)模型提取其语义信息以预测PPI。例如,Li等人利用卷积神经网络(CNN)和长短时记忆网络(LSTM)来学习蛋白质序列的表示,并在随机编码的序列上取得了优于传统方法的成果。随后,DPPI通过引入多序列比对(MSA)预处理,进一步整合了进化信息,并利用简单的堆叠CNN来预测未知的PPI。最近,PIP-R提出了一种基于Siamese残差循环卷积神经网络(RCNN)的方法,并采用预训练的词嵌入模型来替代传统的生化序列编码方法,以捕捉蛋白质序列中嵌入的丰富语义信息。

尽管序列模态的方法在PPI预测中取得了一定成果,但它们在建模蛋白质结构差异方面存在局限。蛋白质的功能主要由其三维结构决定,而不仅仅是序列。因此,仅依赖序列信息的方法难以准确捕捉蛋白质的结构特性,从而影响PPI预测的准确性。结构模态的方法则通过解析蛋白质的三维结构来预测相互作用。然而,由于蛋白质晶体结构的实验测定过程复杂且耗时,可用于探索PPI模式的结构数据非常有限。近年来,AlphaFold系列模型的出现极大地弥补了这一不足,同时推动了多种先进的基于结构的深度学习方法的发展。例如,SpatialPPI提出了一种新颖的三维结构方法,将不规则的蛋白质结构映射到空间张量中,并利用ResNet和DenseNet块结合3D-CNN核来识别潜在的PPI。虽然三维结构方法能够充分提取蛋白质的结构语义,但它们通常需要较高的计算资源,因此在广泛应用方面存在挑战。为了降低对三维结构的依赖,将空间结构信息转化为拓扑图已成为一种流行的编码方式。例如,PPI-GNN通过生成残基间的距离图来构建蛋白质结构图,不仅取得了令人满意的预测性能,还显著提高了计算效率。TAGPPI则结合了序列和结构模态,旨在利用不同模态的互补性来丰富蛋白质的表示。

然而,尽管结构模态的方法在PPI预测中表现出色,但它们仍然无法覆盖所有类型的PPI。此外,虽然已有诸多优化模型效率的研究,但这些方法在大规模PPI预测任务中的可扩展性仍然有限。因此,研究者们开始关注注释知识模态的方法,即通过分析蛋白质的注释信息来预测其相互作用。基因本体(Gene Ontology, GO)是用于注释蛋白质功能的标准体系,它通过统一的描述符(如GO:0019901)来涵盖多种生物功能知识,如蛋白质功能、代谢通路、亚细胞定位等。分析蛋白质GO注释中的语义相似性,有助于更全面地理解PPI,并受到越来越多的关注。

例如,Zhao等人将蛋白质的GO注释视为文本,并采用生物医学文本语言模型NCBI-blueBERT将其转换为初始的语义编码。随后,利用卷积神经网络(CNN)和双向门控循环单元(Bi-GRU)进一步提取蛋白质注释的时序和空间嵌入,以预测PPI。TransformerGO则进一步考虑了GO注释之间的层次关系,并通过整合这些关系来获得具有注释结构意识的GO嵌入。在蛋白质表示阶段,蛋白质注释被视为一个无序集合,并采用不带位置编码的Transformer架构来挖掘注释的全局上下文。

与依赖序列或结构信息的方法相比,基于功能注释的方法在确定未知PPI方面表现出更高的效率和有效性,显示出在直接从功能知识中揭示蛋白质相互作用隐含模式的潜力。然而,由于获得高质量蛋白质功能注释的过程繁琐且耗时,这些注释知识方法仍处于初步发展阶段。特别是在以下几个方面仍需进一步研究:1)类别异质性。GO项目根据基因或蛋白质在生物系统中的不同作用,将本体划分为三个主要类别:分子功能(MF)、细胞成分(CC)和生物过程(BP)。每个类别代表不同的功能知识,即异质知识。然而,现有方法通常将不同类别的功能注释视为同质,从而忽略了它们的多样性。2)关系异质性。与传统的本体结构类似,GO注释也具有层次结构。不同层级之间的注释通过一系列关系类型(如is_a、part_of和regulate)相互连接,这些关系反映了丰富的语义关联。然而,目前尚无方法利用这些异质语义关系来增强功能注释的语义丰富性。3)注释稀缺性。尽管在蛋白质功能注释方面取得了显著进展,但仍有许多蛋白质缺乏充分的注释,甚至完全没有注释(称为“欠注释”蛋白质)。这些欠注释蛋白质的存在可能会在模型训练过程中引入偏差,从而影响最终的预测性能。因此,注释稀缺性是当前注释知识方法中的一个关键瓶颈,需要深入研究。

为了解决上述问题,本文提出了一种新的方法——SemanGraphPPI。该方法旨在通过异质语义挖掘和层次图表示技术,实现对蛋白质-蛋白质相互作用模式的高效识别。SemanGraphPPI受到揭示巨大PPI空间的现实挑战的启发,旨在提供一种轻量、高精度的工具,用于识别已知蛋白质之间的潜在相互作用,从而在进一步实验研究之前提供快速的初步评估。在方法上,首先,为了建模我们的方法中的类别异质性,我们设计了一个无监督的子图表示模块,该模块根据注释的类别将注释知识图分解为MF子图、BP子图和CC子图。这三个子图随后被独立编码,以学习不同类别下隐藏的异质知识。其次,为了考虑关系异质性,我们设计了一个异质语义提取模块,该模块能够自适应地整合多样化的语义关系,并生成语义丰富的注释嵌入。最后,为了应对注释稀缺性的问题,我们引入了一个层次知识增强模块,该模块通过跨蛋白质的知识流动,进一步丰富欠注释蛋白质的功能语义表示。

本文的主要贡献包括以下三个方面:1)我们收集了42,256个基因注释条目,并将它们复杂的结构关联建模为一个异质注释知识图。此外,我们还建立了两个大规模的PPI数据集(191,046和97,626个样本),这些数据集包含高质量的功能注释。2)我们提出了一种新的基于层次知识图增强的异质蛋白质功能语义挖掘框架——SemanGraphPPI,该框架能够解决之前方法忽略的三个关键问题:类别异质性、关系异质性和注释稀缺性。3)我们在三个基准PPI数据集上进行了广泛的实验,以验证SemanGraphPPI的有效性。实验结果表明,SemanGraphPPI在多个基线模型中表现优异,并展示了良好的泛化能力和高效率。

在实验设置方面,我们对三个不同规模的PPI数据集进行了评估,以验证SemanGraphPPI的性能。这些数据集的统计信息如表2所示。其中,DIP S. cerevisiae数据集是一个广泛认可且常用的基准PPI数据集,包含2497个非冗余蛋白质(同源相似度不超过40%)和11,188个PPI样本。该数据集中的正样本是……

在方法上,SemanGraphPPI通过三个核心组件实现对PPI的高效预测:无监督的子图表示模块、异质语义提取模块和层次知识增强模块。无监督的子图表示模块用于建模类别异质性,将不同类别的注释嵌入映射到不同的语义空间中。异质语义提取模块则负责整合多样化的语义关系,生成语义丰富的注释嵌入。层次知识增强模块通过跨蛋白质的知识流动,进一步丰富欠注释蛋白质的功能语义表示。

此外,SemanGraphPPI在构建蛋白质功能表示时,不仅考虑了注释知识图的结构,还结合了层次图表示技术,使得模型能够更全面地捕捉蛋白质之间的相互作用模式。通过这种方式,SemanGraphPPI能够在不依赖复杂实验数据的情况下,对蛋白质相互作用进行高效预测,从而为大规模PPI预测任务提供了一种可行的解决方案。

在实验评估中,我们对三个基准PPI数据集进行了测试,以验证SemanGraphPPI的性能。测试结果表明,SemanGraphPPI在多个基线模型中表现优异,并且在大规模数据集上的泛化能力和计算效率也得到了显著提升。这表明,SemanGraphPPI不仅能够有效解决当前PPI预测中的关键问题,还具备在实际应用中广泛推广的潜力。

从研究意义来看,SemanGraphPPI的提出为PPI预测提供了一种新的视角。传统的PPI预测方法往往依赖单一的模态信息,如序列、结构或注释,而SemanGraphPPI则通过整合多种模态信息,特别是注释知识图和层次图表示技术,实现了对蛋白质相互作用模式的更全面理解。这种多模态的整合方式不仅提高了模型的预测能力,还增强了其在不同应用场景下的适应性。

在实际应用中,SemanGraphPPI可以用于快速筛选潜在的PPI对,为后续实验研究提供指导。对于研究人员而言,这一框架能够有效减少对实验数据的依赖,从而加快对未知PPI的发现过程。此外,SemanGraphPPI的高效性也使其适用于大规模的PPI预测任务,这在当前生物医学研究中具有重要意义。

在技术实现上,SemanGraphPPI的三个核心组件各具特色。无监督的子图表示模块能够自动分解注释知识图,并为不同类别生成独立的语义表示。这一模块的优势在于,它能够有效捕捉不同类别之间的异质性,从而提高模型的预测准确性。异质语义提取模块则通过整合多样化的语义关系,生成更加丰富的注释嵌入。这一模块能够增强模型对复杂语义关联的理解,从而提升其对PPI模式的识别能力。层次知识增强模块则通过跨蛋白质的知识流动,进一步丰富欠注释蛋白质的功能语义表示。这一模块的引入不仅解决了注释稀缺性的问题,还提高了模型的泛化能力。

在实验结果方面,SemanGraphPPI在三个基准数据集上的表现优于其他最先进的基线方法。这表明,SemanGraphPPI不仅在理论上有创新,在实际应用中也具有较高的可行性。此外,实验结果还显示,SemanGraphPPI在大规模数据集上的计算效率较高,能够快速完成对PPI的预测任务。这一优势使得SemanGraphPPI在处理高通量数据时具有显著的应用价值。

从未来研究方向来看,SemanGraphPPI的提出为PPI预测研究提供了新的思路。虽然当前的方法已经取得了显著进展,但仍然存在一些挑战,例如如何进一步提高模型的泛化能力,如何在更广泛的生物系统中应用该框架,以及如何优化模型的计算效率以适应更大的数据集。此外,如何将SemanGraphPPI与其他PPI预测方法进行融合,以形成更加全面的预测体系,也是未来研究的一个重要方向。

在实际应用中,SemanGraphPPI可以用于药物开发、疾病机制研究等多个领域。例如,在药物开发过程中,准确预测蛋白质之间的相互作用可以帮助研究人员识别潜在的药物靶点,从而加速新药的研发进程。在疾病机制研究中,理解蛋白质之间的相互作用有助于揭示疾病的分子机制,为精准医学提供理论支持。因此,SemanGraphPPI的提出不仅具有重要的理论价值,还具有广泛的实际应用前景。

综上所述,SemanGraphPPI的提出为PPI预测提供了一种新的方法,能够有效解决类别异质性、关系异质性和注释稀缺性这三个关键问题。通过整合多种模态信息,特别是注释知识图和层次图表示技术,SemanGraphPPI在预测PPI时表现出较高的准确性和效率。这一框架的提出不仅为PPI预测研究提供了新的思路,还为实际应用提供了可行的解决方案。未来,随着生物医学数据的不断增长,SemanGraphPPI有望在更广泛的领域中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号