基于数据驱动的启发式方法解读人类剪接改变变异

【字体: 时间:2025年03月10日 来源:AJHG 9.8

编辑推荐:

  推荐阅读:本文介绍数据驱动的启发式方法解读剪接改变变异(SAVs),助力精准评估其影响。

  ### 剪接改变变异研究背景
遗传变异常影响基因剪接,约 10%-30% 的致病变异会影响剪接过程。这些剪接改变变异(SAVs)可导致外显子跳跃、内含子保留或产生新的剪接位点,最终影响编码蛋白的结构、功能或表达。准确预测 SAVs 的分子后果及致病性,对临床变异解读至关重要,但 mRNA 剪接的多因素复杂性带来了巨大挑战。
剪接过程由剪接体(spliceosome)精心调控,剪接体由小核 RNA(snRNAs)和 100 多种蛋白质组成。它通过识别各种剪接基序(splicing motifs),包括受体剪接位点(3′SS)、供体剪接位点(5′SS)、分支点序列(BPS)和多聚嘧啶序列(PPT)等,来实现对前体 mRNA 的剪接。这些基序与相邻元件协同作用,其组织、强度和间距的精确性对剪接体的成功组装和发挥作用至关重要。SAVs 破坏这种平衡时,可能导致内含子序列的错误包含或外显子序列的错误排除,进而引发疾病。

为了更好地解读 SAVs,美国医学遗传学与基因组学学院(ACMG)和分子病理学会(AMP)等机构不断完善临床变异解读指南,包括 ClinGen 序列变异解读(SVI)剪接小组的更新。然而,这些研究在解读 SAVs 的结果方面仍存在不足,且在缺乏实验验证时,过于依赖计算机预测工具。目前最精确的计算机预测算法,如 Pangolin 和 SpliceAI,虽然在一定程度上能预测剪接效应,但它们是黑箱人工智能模型,存在生物学推理难以解释、未充分考虑实验验证变异、无法涵盖所有剪接规则等问题,导致预测准确性受限。

材料和方法


  1. 伦理审批:本研究获得了澳大利亚新南威尔士州亨特新英格兰地方卫生区亨特新英格兰人类研究伦理委员会的批准(参考编号:HC190484)。
  2. 确定最小剪接要求:研究人员利用 GENCODE v.44 数据库,筛选出标记为 “Ensembl 规范” 的蛋白质编码基因的外显子(n = 202,146),包括 5′和 3′非翻译区(UTRs),以此来确定剪接所需的基序、内含子 / 外显子大小和位置要求。通过 bedtools closest 获取上下游外显子的坐标,用 samtools faidx 从 UCSC hg38 参考基因组中提取序列,并使用 maxentpy 生成 MaxEntScan 分数,以衡量剪接位点的强度。同时,研究人员还从大规模实验分支点研究中收集分支点位置和序列,经过筛选和处理后,最终确定了 19,034 个高质量分支点用于分析。此外,研究采用了类似人类基因组变异协会(HGVS)的剪接变异命名法,以方便报告变异位置。
  3. 开发数据驱动的剪接启发式方法:从 SpliceVarDB 数据库获取实验验证的变异数据,筛选出单核苷酸变异(SNVs),分为高置信度的 SAVs(标记为 “剪接改变”,n = 8,920)和无剪接改变行为的变异(标记为 “正常”,n = 2,948)。根据变异在基因中的位置,将影响分支点或 PPT 基序的变异与 3′SS 变异归为一组,并定义了 “标准”“上下文修饰符”“辅助” 三个亚组来指导变异解读。每个启发式子组至少由 10 个功能验证的变异支持,以确保可靠性。同时,定义了剪接 ogenicity,即每个启发式子组中被证实为剪接改变的变异比例,并给出了相应的 95% 置信区间。
  4. 确定剪接结果:研究采用标准的剪接定义,如外显子跳跃、内含子保留、假外显子包含,以及 “外显子延伸”“外显子截断” 等术语来描述剪接结果。对于每个启发式方法,基于 SpliceVarDB 中的所有 SAVs 报告剪接结果,仅当有超过 20 个 SAVs 报告了对转录本的影响时,才提供特定的剪接结果。由于部分 SAVs 会导致多种功能后果,因此结果比例总和可能超过 100%。
  5. 确定假外显子要求:利用 SpliceVarDB 中标记为产生假外显子的变异,依据先前定义的最小剪接要求,确定假外显子包含的机制。研究明确将假外显子产生变异定义为促进内含子区域包含在转录本中,且该区域不与任何规范外显子相邻或重叠,通常也不在成熟转录本中检测到。对于理论上确定了假外显子产生机制的变异,再次利用最小剪接要求识别潜在的伙伴剪接位点,并根据 MaxEntScan 分数等标准进行筛选。

研究结果


  1. 剪接要求:研究聚焦于主要剪接体(U2)剪切的内含子,发现 95.9% 的 U2 内含子满足定义的所有剪接要求。5′SS 的共识序列为 AG|GTRAG,3′SS 的共识序列为 YnNYAG|G,分支点的共识序列为 TNA。剪接具有高度的上下文依赖性,各剪接基序有特定的位置约束,例如 PPT 位于分支点和 3′SS 之间,在 - 24 到 - 5 的窗口内,最少需要 9 个嘧啶。3′SS 对 AG 二核苷酸敏感,在分支点和 3′SS 之间存在 AG 排除区(AGEZ),但 AG 二核苷酸在某些位置的存在情况和影响较为复杂。此外,研究还确定了最小内含子和外显子长度,不同位置的外显子最小长度差异显著。为了便于评估,研究创建了剪接检查表,包括手动和计算机版本,可用于判断外显子是否可能被纳入转录本,但该检查表未明确要求识别分支点。
  2. 剪接位点破坏启发式方法:基于 11,860 个高置信度、实验验证的变异,研究开发了评估 SAVs 的启发式方法。这些方法根据变异对 5′SS、3′SS 的破坏以及新剪接位点的创建等不同后果进行分类,并通过添加分类步骤,创建了具有相似剪接 ogenicity 的变异亚组。研究提供了图表和流程图,以指导根据变异位置应用相应的启发式方法,这些方法也可应用于插入或缺失(indels)变异,但过程更为复杂。
  3. 5′SS 的破坏:在 5′SS 区域,绝大多数变异(93.8%)会影响剪接。例如,破坏 5′SS 的规范 GT 供体序列(在 + 1 或 + 2 位置)的变异,归类为 “DD2 标准”,剪接 ogenicity 高达 99.9%。非规范 GC 供体基序的变异大多激活 “DD1 标准”,剪接 ogenicity 为 100%。而在 + 5 位置的变异,其剪接 ogenicity 取决于参考核苷酸和 E - 1 位置的核苷酸。E - 1 位置的变异也对剪接有重要影响,95% 的该位置变异会影响剪接,且存在核苷酸偏好顺序。 + 3 位置的变异同样有特定的规律,创建特定二核苷酸组合或具有不同偏好核苷酸的变异,分别归类到不同的启发式子组,具有不同的剪接 ogenicity。
  4. 3′SS 的破坏:在 3′SS 区域,61.1% 的实验验证变异为 SAVs。影响 3′SS 不变的 AG 二核苷酸的变异,归类为 “DA2 标准”,剪接 ogenicity 为 99.7%。E + 1 位置的变异对 3′SS 选择有一定作用,其剪接 ogenicity 与参考核苷酸和 - 3 位置的核苷酸有关。PPT 区域的变异评估较为困难,不同类型的变异分别归类到 “DA9 标准”“DA9 上下文”“DA9 辅助” 等亚组,剪接 ogenicity 有所不同。在 3′SS 上游创建额外 AG 二核苷酸的变异,根据位置不同归类到不同亚组,剪接 ogenicity 也有所差异。
  5. 深内含子变异和假外显子的创建:识别产生新剪接位点的变异比评估注释剪接位点的损伤更具挑战性。在 SpliceVarDB 中,167 个深内含子变异被报道产生假外显子,主要通过创建规范的 5′SS GT 或 3′SS AG 二核苷酸、强化预先存在但未被利用的剪接位点等机制。研究通过应用剪接标准,为每个能产生假外显子的变异平均定位到三个合适的隐蔽剪接位点,涵盖了 82% 的实验验证证据。
  6. 剪接调控元件(SREs):SREs 可影响外显子的包含,但目前对其作用机制了解有限,且缺乏足够的实例用于准确预测和解释变异对其的影响。研究发现一些未被启发式方法定义为剪接改变的 SAVs,可能破坏或创建潜在的 SRE 基序。当前的计算机剪接预测工具难以准确识别影响 SREs 的 SAVs,相关数据库和在线工具也无法完全捕捉 SREs 之间的复杂相互作用。
  7. 量化不同的剪接结果:研究观察到 19.1% 的变异有多种剪接结果,主要是外显子跳跃(71.3%)或内含子保留(44.2%)与其他结果同时出现。外显子跳跃是最常见的剪接结果,占所有变异的 51.3%。不同位置的变异倾向于导致不同的剪接结果,例如影响 3′SS 上游的变异更易导致外显子延伸,而影响 3′SS 或外显子第一碱基的变异更易导致外显子截断。5′SS 区域的变异比 3′SS 区域的变异更易导致内含子保留。

研究讨论


本研究提出的数据驱动的剪接启发式方法,基于生物学原理,有助于解读 SAVs。通过分析注释外显子和实验验证的 SAVs,对 SAVs 的影响进行了定量评估,为计算机预测和临床变异分类之间搭建了桥梁。然而,这些启发式方法存在一定的局限性。首先,其有效性依赖于所考虑的遗传变异范围,受当前认知和可用数据的限制。其次,实验数据的质量至关重要,体外实验可能无法检测到所有的剪接变化,且验证结果可能因实验系统或组织的不同而有所差异。此外,剪接结果存在显著的异质性,遗传背景对 SAVs 的功能结果影响很大。

尽管本研究旨在改进对 SAVs 相关转录本改变的预测,但目前的启发式方法无法涵盖复杂剪接景观中的边缘情况,尤其是影响 SREs 的遗传变异。研究未充分考虑一些复杂的剪接机制,如内含子与外显子定义、RNA 二级结构、甲基化和剪接顺序等,这是因为相关变异的实例有限。未来,开发实现这些启发式方法的生物信息学工具,将有助于提高其应用范围和支持高通量 SAVs 的管理,并可对这些启发式方法进行系统的基准测试,以确定其预测价值。通过整合经验证据,有望增强计算机预测工具的预测能力,使其更准确地反映 SAVs 的功能影响,推动个性化医学的发展,加深对与 SAVs 相关的遗传疾病机制的理解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号