
-
生物通官微
陪你抓住生命科技
跳动的脉搏
《利用蛋白质语言模型解析错义变异的功能影响》
【字体: 大 中 小 】 时间:2025年05月29日 来源:Computational and Structural Biotechnology Journal 4.5
编辑推荐:
推荐 为解决错义变异功能影响解读难题,研究人员开展研究,通过微调蛋白质语言模型 ESM2 和 ProtT5 分类 20 种蛋白特征。结果显示可重新分类意义不明的变异,还能揭示变异对蛋白功能的影响,为遗传病诊断提供新思路。
论文解读
在当今精准医疗蓬勃发展的时代,遗传病的诊断和治疗成为备受关注的焦点。然而,错义变异作为基因编码区域常见的一种变异类型,其对蛋白质功能的影响却犹如一团迷雾,给临床诊断和研究带来了巨大的挑战。错义变异通过替换一个氨基酸来改变蛋白质的功能,但要准确判断这些变异的临床意义和功能影响却困难重重。美国医学遗传学与基因组学学会(ACMG)和美国分子病理学协会(AMP)制定的指南虽提供了一套标准化框架来整合多种证据进行序列变异解读,但对于错义变异位于突变热点或关键功能域等特定区域的识别仍面临诸多难题,而且目前对人体蛋白质组的注释尚不完整,许多蛋白质和功能区域尚未被探索。此外,对于错义变异如何具体影响特定蛋白特征的机制性理解也十分匮乏。
为了解决这些问题,来自国外某研究机构的研究人员开展了深入研究。他们聚焦于蛋白质语言模型(PLMs),包括 ESM2 和 ProtT5,利用这两种模型对 20 种蛋白特征进行分类预测。研究人员首先从 UniProtKB/Swiss - Prot 下载了 20,434 条人类蛋白质序列,并对其进行了详细的注释,涵盖了 20 种不同的蛋白特征,如功能特征(活性位点、结合位点、DNA 结合位点等)、亚细胞定位(拓扑结构域、跨膜结构等)、翻译后修饰(二硫键、修饰残基等)、结构特征(β - 折叠、α - 螺旋等)以及家族和结构域(卷曲螺旋、结构域、基序等)。然后,他们采用了一种创新的微调方法,即 Low - Rank Adaptation(LoRA),对 ESM2 和 ProtT5 进行微调,同时在微调过程中引入了冻结嵌入分类器进行对比评估。通过一系列严谨的实验和分析,研究人员得出了一系列重要结论。
在微调与冻结嵌入分类器的性能比较方面,研究人员发现,对于大多数模型 - 特征组合,微调后的模型性能优于冻结嵌入分类器。例如,在评估模型性能时,以曲线下面积(AUROC)作为指标,微调后的 ESM2 - 3B 模型在大多数特征上展现出了更好的性能。这表明通过微调,模型能够更好地适应特定的分类任务,捕捉到与蛋白特征相关的更细微的信息。
在蛋白注释推断方面,研究人员利用微调后的 ESM2 - 3B 模型对缺乏注释的蛋白质进行特征预测。通过分析预测结果与已标注氨基酸在进化保守分数(GERP)和变异致病性分数(REVEL)分布上的差异,发现大多数特征在预测和标注氨基酸之间没有显著差异,但在 DNA 结合位点和锌指结构等方面存在一些显著差异。这提示模型在某些特征的预测上可能存在一定的局限性,需要进一步优化和改进。
在应用层面,研究人员取得了显著的成果。在变异重新分类方面,他们从 ClinVar 中获取了 46,504 个致病性错义变异和 72,150 个良性错义变异,并结合 gnomAD 中的数据,通过双侧费希尔精确检验识别出与致病或良性变异显著相关的蛋白特征。基于这些特征,研究人员对 gnomAD 中的 1,692,568 个变异进行了重新分类,成功将 6.5% 的意义不明的变异(VUS)重新分类为致病性变异。这一结果为临床诊断提供了更准确的依据,有助于提高遗传病诊断的准确性。
在变异解读方面,研究人员从 ClinGen 中选取了 771 个经过整理的错义变异,这些变异分布在 54 个基因中,每个基因至少包含一个致病性和一个良性变异。通过将参考序列和突变序列输入微调后的 ESM2 - 3B 模型,计算每个氨基酸位置预测特征概率的差异,研究人员发现致病性错义变异常常破坏关键特征,如活性位点、二硫键和功能结构域;而良性变异的影响相对较小,多涉及可容忍特征的微小变化。此外,研究人员还通过具体案例分析,如 DCLRE1C:p.His35Asp 和 RUNX1:p.Ala134Pro 变异,直观地展示了模型如何预测变异对蛋白特征的影响,为理解变异的致病机制提供了有力支持。
研究结论和讨论部分强调了该研究的重要意义。首先,这项研究引入了一种新颖的应用方法,将蛋白质语言模型应用于深入理解错义变异的功能后果。与传统方法相比,微调后的蛋白质语言模型具有诸多优势,它们能够直接从蛋白质的一级序列数据中学习,并在整个蛋白质组范围内进行泛化,无需手工特征或比对,同时还能实现任务特定的适应,为解释机制性变异提供了可能。其次,研究人员通过量化致病性变异在广泛的蛋白特征中的富集情况,并成功重新分类了一定比例的 VUS,为临床诊断提供了更准确的依据。此外,模型对特定错义变异的结构和功能后果的预测,有助于优先考虑变异进行验证或治疗靶向,为遗传病的治疗提供了新的思路。然而,研究也存在一些局限性,如在未注释或注释稀疏的蛋白质区域的预测准确性有待提高,变异数据集存在一定的偏向性等。但总体而言,该研究为蛋白质语言模型在遗传学研究和临床诊断中的应用开辟了新的道路,随着大规模基因组数据的不断扩展,这种具有解释性和可访问性的工具将在将序列级信息转化为功能洞察以及改善遗传病的诊断和管理方面发挥重要作用。该研究论文发表在《Computational and Structural Biotechnology Journal》上,为相关领域的研究提供了重要的参考和借鉴。
生物通微信公众号
知名企业招聘