蛋白质集合Transformer:基于蛋白质的基因组语言模型推动高多样性病毒组学研究
《Nature Communications》:Protein Set Transformer: a protein-based genome language model to power high-diversity viromics
【字体:
大
中
小
】
时间:2025年11月24日
来源:Nature Communications 15.7
编辑推荐:
本文推荐介绍研究人员为应对病毒基因组数据激增但传统同源性分析方法受限的挑战,开发了名为蛋白质集合Transformer(PST)的蛋白质基基因组语言模型。该研究通过将基因组建模为蛋白质集合,利用自监督学习捕捉病毒间的进化关系。结果表明,PST在识别病毒基因组关系、聚类功能相关蛋白及预测病毒宿主方面优于现有方法,为病毒生态学、进化和病毒组学分析提供了强大的基础模型。
在微生物学的广阔天地中,病毒是数量最庞大的生物实体,栖息于地球的每一个角落,从深海热泉到人体肠道。然而,全面理解病毒的巨大遗传多样性一直是个严峻挑战。传统的分析方法严重依赖于序列同源性比较,但病毒基因组,尤其是其编码的蛋白质,进化速度极快,导致大量数据因序列相似性过低而无法被有效利用。这就好比试图用一本残缺不全的字典去解读一种不断演变的语言,其困难可想而知。随着微生物和病毒基因组数据呈指数级增长,开发能够规模化、泛化性强的解读框架已成为当务之急。
为了突破这一瓶颈,由威斯康星大学麦迪逊分校的Cody Martin、Anthony Gitter和Karthik Anantharaman领导的研究团队在《Nature Communications》上发表了他们的最新成果。他们提出了一种名为蛋白质集合Transformer(Protein Set Transformer, PST)的创新性深度学习框架。PST的核心思想是将一个完整的基因组视为一组蛋白质的集合,巧妙地避开了直接处理易变的核苷酸序列的难题。研究人员利用先进的蛋白质语言模型(protein Language Model, pLM)ESM2为每个蛋白质生成高维度的数学表示(嵌入,embedding),然后通过Transformer神经网络架构(一种擅长处理序列和集合关系的深度学习模型)来学习这些蛋白质在基因组上下文中的相互关系。最终,模型不仅能为每个蛋白质生成包含基因组背景信息的嵌入,还能通过加权平均的方式为整个基因组生成一个综合性的表示。最重要的是,PST模型的训练是完全自监督的(self-supervised),意味着它不需要任何外部标注(如蛋白质功能、病毒分类等)来指导学习过程,而是通过设计巧妙的训练目标让模型自己发现数据中内在的规律,这使得模型学到的知识具有高度的通用性。
为开展这项研究,研究人员主要应用了以下几项关键技术:首先,他们从12个公共数据库收集了超过10万个高质量病毒基因组作为训练集,并构建了两个独立的测试集(IMG/VR v4和土壤来源的MGnify病毒集)用于评估。其次,利用ESM2模型生成所有病毒蛋白质的初始嵌入向量。第三,设计了基于三元组损失(Triplet Loss, TL)的自监督学习目标,使模型能学习病毒基因组间的相似性关系,并引入了PointSwap数据增强技术模拟同源重组。第四,开发了基于图神经网络的高效内存处理架构,以应对病毒基因组编码蛋白数量差异巨大的挑战。最后,使用折叠搜索(foldseek)和ProstT5进行蛋白质结构相似性分析,以验证模型捕捉结构信息的能力。
开发蛋白质集合Transformer基因组语言模型
研究人员将PST设计为一个编码器-解码器(encoder-decoder)架构的模型。每个病毒的蛋白质序列首先被ESM2模型转化为固定维度的嵌入向量。随后,模型会为每个蛋白质拼接上可学习的位置编码和链编码信息,以指示其在基因组中的相对位置和编码链。这些增强后的蛋白质嵌入被输入到PST编码器中,该编码器利用多头自注意力机制(multi-head self-attention)使每个蛋白质的表示能够被同一基因组内的其他蛋白质所“上下文化”。最后,解码器通过注意力池化(attention pooling)机制学习每个蛋白质对整体基因组表示的贡献权重,从而生成一个代表整个基因组的单一向量。为了训练这个模型,研究团队没有采用常见的掩码语言建模(Masked Language Modeling, MLM)目标,而是创新性地使用了三元组损失函数。该目标通过构建“锚点”、“正例”(与锚点最相似的基因组)和“负例”(与锚点不够相似的基因组)三元组,驱使模型学习使得相似基因组的嵌入在向量空间中彼此靠近,而不相似基因组的嵌入相互远离。
为了确保模型的鲁棒性和泛化能力,研究团队采用了两种不同的交叉验证(Cross Validation, CV)策略来调整模型超参数。第一种是基于病毒分类领域(Taxonomic realm,如Duplodnaviria, Monodnaviria等)的留一组交叉验证(Leave-One-Group-Out CV),旨在找到对所有类型病毒都表现良好的模型。第二种是基于蛋白质多样性的交叉验证,将训练数据划分为蛋白质内容重叠最小的组,以应对病毒分类与蛋白质多样性可能不完全对应的情况。最终,他们训练了多个不同大小的PST模型(基于ESM2的小型或大型嵌入),并分别评估了基于三元组损失(PST-TL)和掩码语言建模(PST-MLM)目标的模型性能。
为了评估PST学习到的基因组表示是否具有生物学意义,研究人员将其与多种基线方法进行了比较,包括基于蛋白质的方法(如直接平均ESM2嵌入)和基于核苷酸的方法(如四核苷酸频率向量、GenSLM和HyenaDNA模型嵌入)。在包含超过15万个病毒的IMG/VR v4测试集上,他们对每种方法生成的基因组嵌入进行聚类,并计算同一簇内病毒基因组之间的平均氨基酸同一性(Average Amino Acid Identity, AAI)和平均结构同一性(Average Structural Identity, ASI)。结果表明,基于三元组损失训练的全编码器-解码器PST模型(PST-TL)生成的基因组嵌入,其相似性与ASI显示出最强的正相关关系。这意味着PST能够捕捉到基于蛋白质结构的、遥远的基因组进化关系,即使这些关系在序列水平上(AAI)已经难以检测。而仅包含编码器的PST-MLM模型和其他基线方法在此任务上表现较差,凸显了可训练的解码器和三元组损失目标对于学习高质量基因组表示的重要性。
由于PST的基因组嵌入是基于上下文化的蛋白质嵌入生成的,研究人员进一步探究了PST在蛋白质层面的表现。他们分析了PST分配给不同功能蛋白质的注意力权重,发现功能未知的假设蛋白(hypothetical proteins)往往获得了较高的注意力,提示这些蛋白可能包含尚未被识别的重要功能线索。通过将PST生成的蛋白质嵌入进行聚类,并分析这些簇的功能纯度(即一个簇中的蛋白质是否属于相同的功能类别),他们发现PST-TL模型与输入ESM2嵌入相比,并未显著提高功能聚类的纯度。然而,更深层次的分析揭示了PST更强大的能力。
研究人员发现,PST-TL模型能够将功能上相关的蛋白质聚类在一起,形成“功能模块”(functional modules)。例如,在噬菌体Lambda中,编码结构、包装和裂解功能的晚期基因(late genes)在基因组上是相邻的并由单一启动子转录。PST-TL的蛋白质嵌入成功地将这些属于“尾部”、“头部与包装”、“连接器”和“裂解”等PHROG功能类别的蛋白质共同聚类在一起,其富集程度显著高于背景期望。此外,与DNA相互作用相关的蛋白质(如核苷酸代谢、溶原性、基因表达)也形成了另一个功能模块。这种基于基因组上下文的功能模块化聚类是直接使用ESM2嵌入所无法实现的,表明PST通过考虑基因组组织,捕捉到了病毒进化中隐含的功能关联。
鉴于病毒基因组中约有70-90%的蛋白质功能未知,研究人员测试了PST是否能够帮助注释这些假设蛋白。他们首先关注了那些与已知注释的衣壳蛋白(capsid proteins)聚集在一起的未注释蛋白。通过使用foldseek进行结构同源性搜索,他们发现PST-TL模型聚类中的未注释蛋白,有更高比例能够与蛋白质数据库(Protein Data Bank, PDB)中已知的衣壳蛋白结构匹配,这表明PST能够识别出那些序列相似性搜索遗漏的、但具有保守衣壳折叠结构的蛋白质。此外,通过检查未注释蛋白在嵌入空间中的最近邻,他们评估了PST进行注释传递(annotation transfer)的能力,即通过邻近的已注释蛋白来推断未注释蛋白的功能。结果显示,基于蛋白质的嵌入方法(包括PST和ESM2)在此任务上普遍优于基于核苷酸的GenSLM ORF嵌入。
作为一个通用性基础模型的最终测试,研究人员将PST的基因组嵌入应用于一个重要的下游任务——病毒宿主预测。他们构建了一个基于图神经网络(Graph Neural Network, GNN)的预测模型,其框架类似于CHERRY算法,但将病毒和宿主节点的表示替换为PST基因组嵌入、ESM2平均嵌入或四核苷酸频率向量。在使用iPHoP工具的训练数据集进行训练后,这些模型在独立的测试集上进行了评估。结果表明,使用PST-TL-T大型模型基因组嵌入的预测模型,在物种水平上能够正确预测的病毒比例显著高于其他方法,包括iPHoP本身以及其他嵌入方法。这证明了PST学到的基因组表示确实包含了与宿主相互作用相关的生物信息,并且作为基础模型,无需针对宿主预测任务进行专门训练,就能取得优异的表现。
该研究成功开发了PST这一创新的蛋白质基基因组语言模型。通过将基因组建模为蛋白质集合并利用自监督学习,PST能够有效捕捉病毒基因组间深层次的进化关系,特别是在序列相似性极低的远程关系识别上表现出色。在蛋白质层面,PST不仅能识别功能模块,反映病毒的基因组组织原则,还能扩展对未知功能蛋白的注释,提示其潜在的结构或功能。最终,PST作为基础模型的强大泛化能力在病毒宿主预测任务中得到验证,其性能超越了专门工具。重要的是,PST的所有这些能力都是在没有使用任何外部功能或分类标签的情况下,仅通过自监督学习获得的。
研究人员在讨论中强调了PST与类似模型相比的优势,特别是其采用的三元组损失目标相较于掩码语言建模目标更能适应病毒基因组的高多样性特点。他们也评估了其工作的生物安全风险,认为由于训练数据中人类和哺乳动物病毒比例极低,且模型分辨率在蛋白质层面,因此反向工程生成具有功能的新病毒基因组风险较低,并获得了外部专家的认可。
综上所述,这项研究为病毒组学领域提供了一个强大的、可扩展的基础模型框架。PST有望广泛应用于病毒鉴定、分类、宿主预测、蛋白质功能注释、基因组分箱(binning)等多种任务,从而极大地推动我们对病毒多样性、生态和进化的理解。更重要的是,研究人员提出PST的架构具有普适性,未来通过训练微生物基因组数据,完全可以发展为微生物基因组学领域的基础模型,解决微生物研究中同样面临的注释率低和序列发散度高的问题。这项工作标志着计算生物学在利用人工智能解读生命语言方面迈出了重要一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号