人类自然可变外显子广泛存在并助力遗传解读
《Nature Communications》:Widespread naturally variable human exons aid genetic interpretation
【字体:
大
中
小
】
时间:2025年12月17日
来源:Nature Communications 15.7
编辑推荐:
本研究针对人类群体水平可变剪接认知不足的问题,系统鉴定了“自然可变外显子”(NVE)。研究人员利用GTEx计划的838人转录组数据,开发新算法识别出57,271个NVEs,发现其影响四分之三蛋白编码基因,富集于功能受限基因,并能提升GWAS变异解读能力。该研究发表于《Nature Communications》,揭示了人类群体内广泛的剪接多样性及其在遗传学和疾病机制中的重要意义。
几乎所有人的基因都会经历选择性剪接,这个过程就像一个精密的导演,能够指导同一个基因剧本产生出功能各异的不同“剪辑版本”——mRNA异构体。这些微小的序列差异可以导致蛋白质功能发生巨大改变,甚至与多种疾病的发生密切相关。然而,长期以来,科学家们对选择性剪接的理解大多停留在“所有个体都共享一套相似的剪接模式”这一层面。一个关键的科学问题悬而未决:在庞大的人类群体中,特定外显子的使用是否存在个体差异?这种差异有多普遍?它们对基因功能以及人类健康又意味着什么?由于缺乏大规模的人群数据和分析方法,人类群体内部的剪接变异一直是一个未被充分探索的领域。
为了回答这些问题,由Hannah N. Jacobs领衔的研究团队利用基因型-组织表达(Genotype-Tissue Expression, GTEx)计划这一宝贵资源,对838名个体、49种组织的转录组数据进行了深入挖掘。他们旨在系统性地描绘人类群体中外显子使用情况的变异图谱。这项研究最终鉴定出超过5.7万个“自然可变外显子”(Naturally Variable Exons, NVEs),并深入探讨了它们的特征、功能影响以及遗传基础。相关研究成果已发表在权威期刊《Nature Communications》上。
为了开展这项研究,研究人员主要应用了几个关键技术。他们利用GTEx v8版本的数据,该数据集包含了838名个体的多组织RNA测序(RNA-seq)数据。研究团队开发了一种基于三组分贝塔混合模型(three-component mixture of betas model)的贝叶斯统计算法,用于从RNA-seq数据中准确估计每个外显子在每个个体中的百分数剪接入(Percent Spliced In, PSI或Ψ)值,并定义了一个新的关键指标——外显子频率(Exon Frequency, EF),用以描述NVEs在人群中的流行程度。此外,他们还整合了来自UK Biobank、FinnGen和Biobank Japan等多个生物样本库的全基因组关联研究(Genome-Wide Association Study, GWAS)精细定位(fine-mapping)数据,以分析NVEs在疾病相关遗传变异解读中的作用。为了评估遗传变异对剪接的影响,研究人员进一步开发了剪接修饰评分(Splice Modifier Score, SMS)这一新的预测工具,并与SpliceAI等现有方法进行了比较。
研究团队首先建立了一套严谨的分析流程来鉴定高质量的NVEs。他们将NVE定义为在特定组织中,其估计Ψ值达到或超过5%的个体比例(即EF)介于1%到99%之间的外显子或可变剪接位点。通过这种方法,他们从GTEx数据中鉴定出57,271个独特的NVEs,共涉及414,141个NVE-组织对。这些NVEs广泛存在于75%的蛋白质编码基因中,平均每个基因约有3个NVEs。研究人员估计,平均每个个体在任何一种充分测序的组织中会表达数百个NVEs。EF值的分布呈U型,意味着NVEs在人群中要么很罕见,要么很常见。值得注意的是,61%的NVEs在现有的综合参考注释(如GENCODE v45)中是缺失的,尤其是低EF的NVEs,有73%是未注释的。
大多数低EF NVE发生在编码区,许多高EF NVE发生在5'UTR
分析NVEs在基因中的位置分布发现,大多数NVEs位于基因的编码区(Coding Sequence, CDS),这部分NVEs倾向于具有较低的EF值。而相当一部分NVEs发生在5'非翻译区(5' Untranslated Region, 5' UTR),且这部分NVEs往往具有较高的EF值。这一观察结果与先前的研究一致,即进化上较新的可变外显子更常出现在5' UTR区域。NVEs很少出现在3' UTR,这可能与该区域内涵子稀少有关(可能是为了避免触发无义介导的mRNA降解)。
为了探究NVE的进化属性,研究人员分析了基因对生殖系功能缺失(Loss-of-Function, LoF)突变的耐受性,该指标由gnomAD数据库提供的LOEUF(LoF observed/expected upper bound fraction)分数量化,分数越低表示基因承受的选择压力越大(即越不能耐受LoF突变)。令人惊讶的是,与不含NVEs的基因相比,含有NVEs的基因其LOEUF分数分布显著偏低,表明NVEs更倾向于出现在功能上更重要、更受进化约束的基因中。此外,在受约束程度更高的基因中,NVEs的EF值分布向更低值偏移。这种模式可能源于自然选择在重要基因中更严格地限制了那些可能干扰基因功能的NVEs达到较高的使用水平和频率。
研究评估了NVEs在解读复杂疾病遗传基础方面的潜力。他们分析了三大生物样本库(UK Biobank, FinnGen, Biobank Japan)约1300种性状的GWAS精细定位结果。发现位于未注释NVE剪接位点 motif 内的因果遗传变异(由后验包含概率 Posterior Inclusion Probability, PIP 衡量)存在显著富集,其富集程度高于同义变异,但低于错义变异。这表明NVEs能够为解读非编码GWAS信号提供新的功能线索。研究还举例说明了ASGR1基因中的一个同义变异如何通过调控一个未注释的、具有NMD潜力的NVE的剪接,来影响胆固醇和心脏功能等表型,为该变异的作用机制提供了分子层面的解释。
许多位于编码区的NVE(cdsNVE)的剪接会引入提前终止密码子或导致阅读框移位,从而可能触发无义介导的mRNA降解(Nonsense-Mediated mRNA Decay, NMD),这类NVE被称为nmdNVE。研究发现,55%的所有NVEs和68%的cdsNVEs是nmdNVE。理论推导表明,即使观察到的细胞质Ψ值(反映成熟mRNA水平)相对较低,nmdNVE的剪接也可能通过NMD途径显著降低基因的总体表达水平。为了验证这一点,研究人员聚焦于那些剪接受遗传变异调控(即作为剪接数量性状位点sQTL)且同时影响基因表达(即作为表达数量性状位点eQTL)的NVE。分析发现,对于nmdNVE,sQTL效应大小(表示等位基因对NVE剪接的影响程度)与eQTL效应大小(表示等位基因对基因表达的影响方向和程度)之间存在显著的负相关关系:即促进nmdNVE剪接的等位基因往往与更低的基因表达水平相关。相反,对于不触发NMD的cdsNVE,则未观察到这种关系。这支持了nmdNVE即使在被低水平剪接时,也能通过NMD通路负向调控基因表达的观点。此外,研究还发现,在功能受限的基因中,nmdNVE的Ψ值倾向于更低,这可能是自然选择限制其对重要基因表达造成过大干扰的表现。值得注意的是,位于5' UTR的NVEs,其较高的Ψ值则与基因表达增加相关,这可能通过外显子介导的转录起始激活(Exon-Mediated Activation of Transcription Starts, EMATS)机制实现。
研究表明,60%的NVEs与至少一个顺式作用剪接数量性状位点(sQTL)相关,说明遗传变异是驱动NVE剪接个体差异的重要因素。这一比例在不同EF的NVE中变化不大。高置信度(PIP ≥ 90%)的sQTLs通常非常靠近剪接位点,50%的此类变异位于剪接位点50个碱基对以内。
使用样本内RNA测序可改善对常见变异的剪接影响解读
现有的基于序列预测剪接影响的方法(如SpliceAI)在预测效应量较小的常见变异方面表现不佳。为此,研究人员开发了新的预测工具——剪接修饰评分(Splice Modifier Score, SMS)。该模型整合了变异到最近剪接位点的距离(使用GTEx数据,包括未注释的NVE剪接位点)、剪接位点强度、序列保守性、组蛋白修饰、RNA结合蛋白结合 motif 等多种特征。结果表明,在只能使用参考基因组注释(如GENCODE)的情况下,SMS-GENCODE模型性能略优于SpliceAI。而当模型能够利用样本特异的RNA测序数据(即包含GTEx中发现的所有剪接位点,包括NVEs的位点)时,SMS-full模型的性能(AUPRC = 0.52)显著优于SpliceAI和SMS-GENCODE。这凸显了利用群体转录组数据(如GTEx)来识别未注释的剪接位点对于提高常见遗传变异剪接效应预测精度的重要性。
综上所述,这项研究首次在人类群体水平上大规模地鉴定和表征了“自然可变外显子”,揭示了其在人类基因组中的广泛存在和重要功能意义。研究发现,NVE是人类转录组多样性的一个重要来源,影响着绝大多数蛋白质编码基因,尤其富集于功能关键的受限基因中。它们不仅受遗传变异调控,其本身的剪接活动也能通过诸如NMD等机制显著影响基因表达,从而为解读非编码区GWAS信号提供了宝贵的功能线索。此外,研究开发的SMS模型证明,整合来自群体转录组数据的剪接位点信息能显著提升对常见遗传变异剪接效应的预测能力。这项研究极大地拓展了我们对人类基因组功能复杂性和群体多样性的认识,为未来精准医学研究,特别是在理解疾病相关遗传变异的功能机制和开发以剪接为靶点的治疗策略(如反义寡核苷酸)方面,提供了重要的数据资源和分析工具。随着更多人群转录组数据的产生,对NVE的深入研究将继续为人类遗传学和疾病生物学带来新的启示。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号