编辑推荐:
本文介绍了 NLSExplorer 这一可解释的核定位信号(NLS)预测方法。它利用蛋白质语言模型信息辅助检测 NLS,性能优异,能挖掘潜在 NLS 及相关特征,为研究核转运过程和疾病机制提供有力工具,推动生物医学发展。
研究背景
在细胞的微观世界里,蛋白质的运输如同一场精密的 “旅行”。其中,核定位信号(NLS)是蛋白质进入细胞核的关键 “通行证”,它是蛋白质内的重要肽序列,在调节核质运输中发挥着核心作用,控制着蛋白质和遗传物质的转运。这一过程对于细胞的正常运作至关重要,同时,NLS 也为优化基因表达、开发抗病毒疗法和推进疾病治疗策略提供了重要框架。
然而,目前通过实验识别 NLS 的方法既耗时又费力。现有的计算预测方法虽能加速探索,但存在局限性。它们往往依赖专家整理的知识和小规模实验数据集,导致性能不足。随着大规模语言模型的兴起,为克服这些问题带来了新机遇。这些模型经过大量预训练,能获取进化、功能和结构生物学信息,弥补实验数据的不足。而配备注意力机制的深度神经网络,可从大语言模型的嵌入空间提取有价值信息,更准确地预测 NLS。
NLSExplorer 的诞生
为了解决上述难题,研究团队开发了 NLSExplorer,这是一种创新的可解释的 NLS 预测方法。它的核心探索模块是注意力到关键区域(A2KA)。A2KA 从蛋白质语言模型中获取核运输相关的生物学信息,有效解决了实验 NLS 数据稀缺的问题。这使得 NLSExplorer 在两个基准数据集上的 NLS 预测中实现了出色的泛化能力,F1评分提高超过 10%。
NLSExplorer 的工作原理
预测框架
NLSExplorer 的预测过程如同一场有条不紊的 “搜索行动”。在预测时,A2KA 首先全面扫描语言模型的整个序列嵌入空间,像敏锐的 “探测器” 一样,精准捕捉最可能参与核运输的片段。随后,推荐系统与探索模块协同工作,对这些片段进行更精确的筛选,确定哪些是真正的 NLS。
具体而言,NLSExplorer 的 “探索 + 筛选” 流程涉及两个关键组件:用于潜在片段探索的 A2KA 和用于 NLS 预测的推荐系统。A2KA 基于注意力机制,一方面利用注意力权重增强蛋白质语言模型生成的表示,为核定位预测提供支持;另一方面,通过注意力图揭示蛋白质序列关键区域中可能对预测结果有显著影响的氨基酸片段。推荐系统则根据 A2KA 生成的关键片段集,计算每个片段成为 NLS 的概率,并将高概率片段推荐为潜在 NLS。
探索模块 A2KA
A2KA 的工作流程可以进一步拆解为两个关键步骤:注意力分布生成和关键片段生成。
在注意力分布生成阶段,研究团队选用了 ESM-1b-650M 模型来生成蛋白质表示。该模型具有 33 层基本 Transformer 结构,在 UR50/S 2018_03 数据集上通过自监督学习进行预训练。蛋白质序列经过 ESM-1B-650M 转化为表示矩阵(E),随后被送入由基本注意力单元(BAUs)组成的深度注意力网络(DAN)。DAN 以核亚细胞定位为监督标签进行训练,通过 BAUs 生成的注意力图来聚焦蛋白质序列的特定区域,从而预测亚细胞定位。注意力增强模块得到的注意力分布图会作为输入,被送入关键片段生成(KSG)模块。
在关键片段生成阶段,KSG 模块从 DAN 的各层提取注意力分布图,并将它们聚合为统一的分布。该算法会选择注意力矩阵中排名在前的探索因子比例的氨基酸(例如,探索因子为 0.3 意味着每次预测时,选取 0.3×l 个注意力权重高于其他残基的氨基酸来生成关键片段,l 代表序列长度),并在预定义距离 H 内将它们融合成氨基酸片段。这样,KSG 模块自主生成了候选关键片段,为特定任务提供了初步的关键区域候选集。
NLS 推荐系统
NLSExplorer 的推荐系统紧跟 A2KA 的步伐,对初步候选集进行优化利用。它与 KSG 模块相连,根据注意力分布图生成用于预测的关键片段。这些片段被输入到推荐系统中,以预测它们成为潜在 NLS 的概率,最后根据概率对片段进行排序。
NLSExplorer 的卓越性能
研究团队对 NLSExplorer 在多个数据集上进行了严格评估,结果令人瞩目。在 INSP 训练数据集上,通过 5 折交叉验证优化模型超参数,并基于精度、召回率、F1评分和预测 - aPC 等指标进行评估。最终选定训练 25 轮的模型,并将阈值设为 0.7,此时模型在 5 折交叉验证中达到最佳 F1评分和 0.2 的预测 - aPC。
在 INSP 混合测试集和酵母测试集上,NLSExplorer 表现出色。在混合测试集中,它的召回率达到 0.719,精度为 0.627,F1评分达到 0.670,相比之前最好的方法 INSP,F1评分提高了 9%,预测 - aPC 为 0.22。在酵母测试集中,NLSExplorer 的召回率为 0.705,精度为 0.82,F1评分高达 0.758,相较于之前的最佳方法 cNLS mapper,F1评分提升了 14.1%。
研究还发现,推荐系统的分类阈值对模型性能有影响。当阈值在 0.7 时,NLSExplorer 在两个测试集上都能达到最佳 F1评分。此外,不同的预测方法适用于不同场景,如 Top-1 + Threshold 方法在混合测试集中表现出色,而阈值方法在酵母测试集中更具优势。
A2KA 的深入探索能力
A2KA 不仅在预测 NLS 方面表现出色,还能深入挖掘蛋白质序列中的重要区域。它具有分层检测能力,能够优先关注与核定位最相关的区域,如 NLS,同时也能检测到部分与核定位相关的片段。不过,在扩大探索范围时,也可能引入一些无关区域的干扰。
研究团队通过对不同特征区域的评估,验证了 A2KA 的有效性。他们将蛋白质内的特征区域分为核运输不可或缺、核运输相关和核运输无关三类,并选取了核输出信号(NESs)、DNA 结合、tRNA 相互作用和 RNA 帽结合等特征域进行测试。结果发现,A2KA 对 NLS 和 NES 的召回率较高,而对其他特征区域的召回率相对较低,这表明 A2KA 在当前探索因子范围内,对 NLS 和 NES 具有较高的检测准确性,且在检测过程中对不同区域有明显的偏好。
此外,研究还评估了 A2KA 和推荐系统的计算效率。结果显示,它们的计算时间较短,主要的时间消耗来自 ESM 嵌入生成。
NLS 的序列和结构相似性探索
NLSExplorer 在探索蛋白质序列中的 NLS 时,发现了一些有趣的现象。在对转录调节蛋白 Autographa californica nucleopolyhedrovirus(UniProt:P11138)及其多序列比对(MSA)序列的研究中,发现 P11138 及其 MSA 序列在特定模式周围显示出较高的注意力水平,这些模式被预测为具有高概率的 NLS,表明这些核病毒蛋白可能依赖 NLS 进入细胞核。
在结构相似性方面,研究团队对 Swiss-Prot 数据库中的核蛋白进行分析,提取了具有最大余弦相似性的三个氨基酸片段,并利用 AlphaFold 预测的 3D 结构作为参考。结果发现,尽管这些蛋白质的序列同一性不高,但它们的结构相似性较高,尤其是推荐的 NLS 区域,其结构保守性更为显著。这表明蛋白质可能依赖具有高度保守局部结构的 NLS 片段来实现核定位。
注意力模块分析与优化
A2KA 中的 BAUs 在处理蛋白质嵌入信息时,通过行和列注意力机制来提取有用信息并过滤掉无关元素。不同的 BAUs 在不同任务中表现出不同的能力,有些 BAUs 擅长发现 NLS,而有些在检测 DNA 结合位点等任务中表现出色。
基于此,研究团队提出了一种基于 BAUs 的选择策略。通过选择在 NLS 检测任务中表现较好的 BAUs,可以显著提高模型的性能。实验表明,在不同的探索因子下,选择合适的 BAUs 组合(如 Perc_80 和 Perc_90)能够有效提升模型的 Hit-aPC 和召回率,帮助模型更好地检测潜在的 NLS。
NLS 在 Swiss-Prot 数据库中的发现与分析
研究团队利用 NLSExplorer 对 Swiss-Prot 数据库中所有经过实验验证的核蛋白进行了广泛探索,构建了多个可视化地图,从不同角度深入研究 NLS 的存在、模式特征和跨物种特性。
在 NLS 模式分析方面,研究团队提出了 SCNLS 算法来探索 NLS 的不连续模式。通过该算法,成功验证了经典的不连续二分(BP)模式,并发现了新的潜在 BP 模式,如 KRX9 - 11K。这为开发新的 NLS 模板和发现不连续 NLS 提供了重要方法。
在 NLS 探索方面,将所有潜在 NLS 推荐片段绘制在可视化地图上,发现高概率的 NLS 片段聚集在特定区域,而低概率区域可能代表尚未被发现的新型 NLS。通过对推荐片段的分析,还揭示了不同物种间 NLS 概率密度的差异以及典型 NLS 基序的分布特点。
此外,研究团队还开发了核运输模式图和物种相关性图。核运输模式图通过疏水因子和熵分布展示了不同物种运输片段的特性,发现果蝇(Drosophila melanogaster)在特定疏水因子范围内有较大的点模式簇,且不同物种的熵分布存在差异。物种相关性图则揭示了不同物种间核运输片段的相关性,发现一些物种(如哺乳动物)之间存在相互搜索的趋势,且部分物种在搜索相关性上表现出较高的一致性。
研究的意义与局限
NLSExplorer 为研究 NLS 提供了强大的工具,具有重要的意义。它通过从预训练表示中提取知识,减少了对有限训练数据集的依赖,提升了预测性能和探索能力。同时,其基于注意力机制的设计能够直观地展示模型的推理焦点,为研究核定位的生物学机制提供了有价值的信息。
然而,该研究也存在一定的局限性。例如,在线地图的加载速度较慢,且目前的方法尚未能完全准确地识别完整的 NLS 区域,导致 aPC 评分较低。未来还需要进一步改进,以提高对 NLS 的全面准确检测能力。
总之,NLSExplorer 在核定位信号的研究中取得了重要突破,为生命科学和健康医学领域的相关研究开辟了新的道路,尽管存在不足,但也为后续研究指明了方向,有望推动该领域取得更多进展。