利用蛋白质语言模型解锁复杂性状中功能罕见变异的新型关联发现
《Cell Genomics》:Leveraging protein language models to identify complex trait associations with previously inaccessible classes of functional rare variants
【字体:
大
中
小
】
时间:2025年11月23日
来源:Cell Genomics 9
编辑推荐:
本研究针对外显子测序中罕见编码变异检测功效有限及功能预测不准确两大挑战,创新性地开发了基于蛋白质语言模型(PLM)的回归测试框架PLM-R。该研究系统评估了多种PLM模型(包括ESM系列、AlphaMissense等)在82种UK Biobank表型中的表现,发现PLM-R比标准负荷检测多发现46%的基因-性状关联。研究还首次实现了亚型水平关联分析,鉴定出26个基因-性状对在非典型转录本中表现出更强关联,并发现进化合理变异(EPV)与低密度脂蛋白(LDL)和骨密度等性状存在新型关联。这项工作为罕见变异功能解读和基因发现提供了新范式,相关方法已开源共享。
在当今基因组学时代,外显子测序技术为解析复杂性状的遗传基础提供了强大工具,但研究人员仍面临两大棘手难题:一是绝大多数编码变异都非常罕见,使得统计检测功效严重不足;二是准确预测这些变异对基因功能和表型的影响异常困难。尽管UK Biobank等大型生物样本库的测序样本量已接近百万级别,一定程度上缓解了第一个问题,但第二个挑战——变异功能预测的准确性,仍然是制约基因发现的关键瓶颈。
近年来,蛋白质语言模型(Protein Language Models, PLMs)的出现为变异效应预测(Variant Effect Prediction, VEP)带来了革命性突破。这些基于深度学习的人工智能模型通过分析蛋白质序列的进化模式,能够高精度区分致病性和良性错义变异。然而,PLMs在复杂性状基因发现中的实际价值仍有待系统评估。发表在《Cell Genomics》的这项研究正是针对这一空白展开,由加州大学洛杉矶分校的Seon-Kyeong Jang等科学家领导完成。
为了充分发挥PLMs在基因发现中的潜力,研究团队开发了一种名为PLM-R的新型回归框架。该方法创新性地将PLM衍生的变异效应预测分数作为效应大小的代理指标,通过回归分析检测基因内罕见错义变异与表型之间的关联。与需要任意设定致病性阈值的传统负荷检测不同,PLM-R利用了所有可用错义变异,并假设变异效应大小与PLM分数相关,特别适合检测存在等位基因系列(allelic series)的基因-性状关联。
研究团队对82种UK Biobank表型(43种定量性状、39种二元性状)进行了系统分析,涵盖了血液指标、代谢特征、行为表型和多种疾病。他们比较了多种PLM模型的表现,包括ESM1b、ESM2、ESM3(含结构信息和不含结构信息版本)、AlphaMissense、PrimateAI-3D等,同时还纳入了基于深度突变扫描数据的CPT-1和包含PLM特征的CADD v.1.7作为对比。
研究发现,PLM-R框架显著提升了基因发现能力。ESM2-650M模型检测到的关联数量最多(n=248),其次是AlphaMissense(n=244)和CPT-1(n=242)。总体而言,整合不同PLM的PLM-R结果共发现296个显著关联,比标准负荷检测(203个关联)增加了47%。即使与放松了效应大小和方向假设的SKAT-O方法(308个关联)相比,PLM-R也发现了大量独特关联(167个关联为PLM-R或SKAT-O独有),表明这两种方法捕捉了不同类型的基因-性状关联。
研究还扩展了PLM-R框架,通过将功能缺失(pLoF)和剪接变异纳入分析(称为PLM-R+),进一步提高了检测能力。与仅使用错义变异的PLM-R相比,PLM-R+分别使ESM1b和AlphaMissense的发现数量从240和244增加至265和279。重要的是,通过PLM-R框架,研究团队发现了多个先前UK Biobank外显子测序分析未报告的基因-性状关联,如PAM与糖尿病、CREB3与黑色素瘤、SAMHD1与乳腺癌等,证明了该方法在发现新关联方面的优势。
关键技术方法包括:基于REGENIE的负荷检测和SKAT-O分析;PLM-R回归框架开发;亚型特异性ESM1b评分系统;进化合理变异(EPV)筛选流程;UK Biobank(n=348,290)和All of Us(n=24,293-104,939)双队列验证策略。
Use of VEPs in burden testing
研究人员首先评估了在负荷检测中使用VEP筛选致病变异的效果。结果显示,与不使用VEP过滤的负荷检测(203个关联)相比,基于VEP的变异过滤并未显著提高发现能力,SIFT(210个关联)和ESM1b(205个关联)的表现最佳,但提升幅度有限(<5%),表明单纯依靠VEP进行二元分类在负荷检测中优势不明显。
PLM-R improves gene discovery
PLM-R框架的表现显著优于传统方法。不同PLM模型在PLM-R中检测到195-248个关联,整合结果后总数达296个,较负荷检测提升47%。与SKAT-O的部分重叠表明PLM-R捕捉了独特的关联模式。PLM-R+进一步整合pLoF和剪接变异后,发现数量继续增加,证实了等位基因系列模型在基因发现中的价值。
Isoform-wide PLM-R to detect complex trait associations and their isoform contexts
研究首次实现了全亚型水平的关联分析。通过整合亚型特异性注释和VEP,在57,368个转录本(17,959个基因)中发现了566个显著的转录本-性状关联(对应256个基因水平关联),高于仅使用典型转录本的分析(240个关联)。其中24个关联仅在非典型转录本中检测到,如SPG11-202与教育程度、CLPTM1-205与C反应蛋白等。
Sources of differential isoform associations
对33个亚型-性状对的深入分析揭示了差异关联的两个主要来源:不同变异集合的纳入和亚型特异性VEP评分。大多数情况下(30/33),重叠区域的变异贡献了主要信号,但某些基因(如CLPTM1、SMIM29)中非典型转录本特有区域驱动了更强关联。
EPV associations with human traits
研究首次系统分析了进化合理变异(EPV)——被PLM预测为比野生型更可能出现的错义变异。在UKB中鉴定出21,764个罕见EPV(占所有错义变异的0.45%),这些变异显示出比非EPV错义变异和同义变异更高的等位基因频率,表明其受到不同的选择压力。基因集富集分析显示EPV相关基因在角蛋白丝、细胞粘附等通路中显著富集。
通过PLM-R和负荷检测的联合分析,发现了9个EPV-表型关联,包括DNM2与较低LDL水平、PRORP与较高骨密度、ZNF99与较晚绝经年龄等新关联。在All of Us队列中,DNM2-LDL和TARS2-身高关联得到成功复制。
本研究系统证明了蛋白质语言模型在复杂性状罕见变异分析中的多重价值。PLM-R框架提供了一种无需任意阈值设定、计算效率高的新方法,特别适合检测等位基因系列关联。亚型水平分析不仅提高了发现能力,还为理解转录本特异性生物学机制提供了新视角。而对进化合理变异的探索则拓展了罕见变异关联分析的范围,揭示了与传统致病变异谱系相反的功能空间。
这项工作存在几方面局限性:PLM评分尚未针对复杂性状关联进行专门优化;大多数基因的亚型功能认知有限;表型选择可能影响不同VEP/方法的比较结果。尽管如此,本研究建立的框架为未来整合更先进PLM模型、探索亚型特异性生物学以及开发多维度整合分析方法奠定了坚实基础。随着蛋白质语言模型的不断进化和更大规模测序数据的产生,这些方法有望进一步推动我们对复杂性状遗传架构的理解,最终促进精准医疗的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号