利用基于蛋白质组学的大型语言模型进行变异分类,可以提高罕见变异关联研究的效力,并增强目标发现的能力

《Genetic Epidemiology》:Variant Classification Using Proteomics-Informed Large Language Models Increases Power of Rare Variant Association Studies and Enhances Target Discovery

【字体: 时间:2025年11月04日 来源:Genetic Epidemiology 3.8

编辑推荐:

  本研究利用英国生物银行46,665名欧洲血统个体的蛋白质组学数据,优化了基于蛋白质序列的大型语言模型(LLMs)以提升致病性密码子变体预测的准确性。通过构建ESM-1b+蛋白质组学模型,并在241个已知致病性基因-性状关联对的测试中,该模型显著优于传统方法(如CADD、AlphaMissense)和标准LLMs,成功复现了36.5%的金标准关联。在10项UKB性状关联分析中,该模型发现的基因-性状关联数量(177个)超过其他方法。研究证实,蛋白质组学数据能有效指导LLMs优化,提升遗传关联分析的诊断能力。

  在人类基因组研究中,罕见变异的关联分析一直是一个重要的领域。这种分析方法能够帮助科学家更全面地理解基因与表型之间的复杂关系,尤其是那些由于基因突变导致蛋白质功能受损的罕见变异。近年来,随着深度学习和大型语言模型(LLMs)的发展,这些技术被广泛应用于预测编码序列中的有害变异。然而,传统的预测方法和新出现的机器学习模型在识别有害变异方面仍然存在一定的局限性。本研究利用了新的大规模人类蛋白质组数据,对LLMs的性能进行了评估和优化,从而提高了罕见变异在遗传学研究中的识别能力。

研究中使用的蛋白质组数据来源于46,665名英国生物银行(UK Biobank)参与者,涵盖了2898种蛋白质。这些数据不仅提供了蛋白质的丰度信息,还揭示了蛋白质结构改变的证据,这对于评估有害变异具有重要意义。通过将这些蛋白质组数据与编码变异进行整合,研究人员构建了一个蛋白质导向的LLM模型,并与多种传统和新兴的变异分类方法进行了比较。结果显示,该模型在多个方面表现优于其他方法,包括在已知的基因-表型对中成功识别了36.5%的关联,以及在10个UK Biobank表型中发现了177个新的基因-表型关联。

蛋白质组数据的使用为评估和改进编码变异分类模型提供了新的视角。传统的变异分类方法,如PolyPhen2、MutationTaster、SIFT和LRT,通常依赖于基因序列信息和已知的蛋白质功能,但它们在处理罕见变异时可能不够准确。而基于深度学习的模型,如CADD、ESM-1v、ESM-1b和AlphaMissense,虽然在某些情况下表现良好,但它们的性能在实际应用中仍存在局限。研究发现,蛋白质组数据能够提供更全面的变异影响信息,从而帮助改进这些模型的性能。

在模型构建过程中,研究人员首先对变异进行了分类,将其分为“类似pLoF(假定功能丧失)”和“类似同义”两类。这些分类基于蛋白质组数据的效应大小、等位基因频率、标准误差和显著性值。然后,利用这些分类结果对LLMs进行微调,以提高其在识别有害变异方面的准确性。具体而言,研究团队使用了ESM-1b模型,并在其中添加了一个卷积神经网络(CNN)头,以捕捉蛋白质序列中隐藏的特征,并据此预测蛋白质组数据的效应大小。

为了验证模型的有效性,研究人员对241个已知的基因-表型对进行了分析,其中包括使用pLoF变异进行负担测试的已知关联。结果显示,蛋白质导向的LLM模型在识别这些关联方面表现优异,超过了传统方法和新兴机器学习模型。此外,在对10个UK Biobank表型进行分析时,该模型不仅识别了更多的基因-表型关联,还显著提高了这些关联的统计显著性。

研究还发现,蛋白质导向的LLM模型在多个方面优于其他方法。首先,它在蛋白质组数据与变异分类之间的相关性方面表现突出,这表明该模型能够更准确地捕捉蛋白质结构和功能变化。其次,该模型在识别ClinVar分类的有害变异方面具有更高的准确率,其在不同方法中的表现优于其他模型,特别是在使用蛋白质组数据进行训练的情况下。此外,该模型在评估蛋白质稳定性方面也表现优异,其预测结果与高通量突变实验的结果高度一致。

研究团队还对蛋白质导向的LLM模型进行了扩展,将其应用于ESM-1v模型的嵌入数据。结果显示,这种模型在预测蛋白质组数据中的效应大小方面也表现良好,能够提高模型在识别有害变异方面的性能。通过使用蛋白质组数据作为监督信号,研究人员能够更准确地评估不同模型在识别有害变异方面的表现,并进一步优化它们的性能。

总的来说,这项研究展示了蛋白质组数据在改进编码变异分类模型中的重要价值。通过结合蛋白质组数据和深度学习模型,研究人员能够更有效地识别有害变异,并提高其在遗传学研究中的应用潜力。这种方法不仅有助于揭示基因与表型之间的关系,还可能为未来的研究提供新的工具和方法,以更好地理解人类生物学的复杂性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号