
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SpliPath:整合罕见剪接变异与RNA-seq数据的新方法增强疾病基因发现
【字体: 大 中 小 】 时间:2025年09月20日 来源:Cell Reports Methods 4.5
编辑推荐:
本研究针对罕见剪接变异在疾病关联分析中的挑战,开发了SpliPath工具,整合罕见变异负荷检测、RNA-seq分析和AI预测模型(SpliceAI/Pangolin),发现了肌萎缩侧索硬化症(ALS)中传统方法遗漏的致病基因(如KIF5A分支点变异),为复杂疾病遗传架构解析提供了新范式。
在复杂疾病遗传学研究领域,罕见剪接变异的重要性日益凸显,但如何准确识别其致病性仍是重大挑战。传统负荷检验(Burden Testing, BT)方法面临核心困境:若将良性变异误判为致病变异会稀释真实信号,而过度严格筛选又会漏掉真实致病变异。尤其对于肌萎缩侧索硬化症(ALS)这类遗传率高达60%却缺乏明确孟德尔遗传模式的疾病,仅有10%患者具有家族史,全基因组关联研究(GWAS)的发现效率远低于其他中枢神经系统疾病。
更复杂的是,某些基因中只有特定类型的剪接异常才导致疾病。例如在KIF5A基因中,仅外显子27跳跃与ALS相关,其他剪接变异可能无害。这种特异性使得单纯依赖SpliceAI等序列功能预测模型进行变异筛选的方法效力受限——模型难以区分病理性与非病理性剪接变异。
为解决这一难题,Kevin Kenna团队开发了SpliPath这一创新计算框架。该方法核心思路是通过独立转录组数据集提供的实验证据,将罕见变异按剪接表型进行功能聚类,形成"折叠罕见变异剪接数量性状位点"(collapsed rare variant splicing QTL, crsQTL)。其技术路线整合三大要素:负荷检验的统计框架、传统sQTL分析思路,以及SpliceAI/Pangolin等AI预测模型。通过将WGS(全基因组测序)中发现的罕见变异与RNA-seq(RNA测序)观测到的异常剪接事件精准匹配,实现对致病变异的高特异性聚类。
研究人员在ALS研究中验证了SpliPath的效能。利用纽约基因组中心(NYGC)的294例ALS患者和76例对照的配对WGS-RNA-seq数据,他们首先构建了包含755个异常剪接事件的参考数据库。其中在TBK1和KIF5A基因中发现了已知致病剪接事件:TBK1的共识剪接位点变异(g.64496407G>C)导致外显子16跳跃;KIF5A基因深处内含子区的分支点变异(c.2993-58A>C)引起外显子27跳跃。值得注意的是,KIF5A的分支点变异超出了常规SpliceAI的50bp检测窗口,只有将窗口扩展至500bp才能发现。
随后团队将SpliPath应用于规模更大的Project MinE WGS数据集(6,625例ALS患者 vs 2,472例对照),仅筛选出479个与参考剪接事件匹配的罕见变异。与传统SpliceAI筛选的142,058个变异相比,crsQTL分析方法显著提升了特异性。在KIF5A基因中,crsQTL成功聚合了6个独立变异(8例患者携带,0例对照),而传统BT方法完全遗漏这一信号(OR=0.94, p=0.91)。在12,905例ALS患者和69,718例对照的WXS(全外显子组测序)数据验证中,crsQTL方法检测到9个变异(10例患者 vs 2例对照,OR=20.66, p=8.18×10-7),显著优于所有对比方法。
研究还发现7个新型候选基因,其中EPG5基因的纯合变异(g.45903935T>TTCAC)导致外显子25延长,在患者组织中显示剂量效应关系。此外,团队尝试将人工细胞模型(TDP-43功能缺失的i3Neurons)中发现的隐匿外显子(Cryptic Exons)作为参考数据集,成功鉴定出CEP290基因的crsQTL(g.88086638A>T),证明了跨模型数据整合的可行性。
关键技术方法包括:1)使用LeafCutterMD从NYGC联盟的多组织RNA-seq数据(额叶皮质、运动皮质、颈髓、腰髓)中识别异常剪接事件;2)采用RegTools进行剪接位点注释;3)应用SpliceAI(窗口扩展至500bp)和Pangolin预测变异剪接效应;4)通过最小基因报告实验验证KIF5A分支点变异功能;5)基于Firth逻辑回归进行病例对照关联分析。
研究结果表明:SpliPath有效解决了"致病/良性剪接变异混合"场景下的基因发现难题,特别适用于仅部分剪接变异致病的基因。与传统BT方法形成互补:当大多数剪接变异均致病时(如NEK1基因),BT方法更有效;而当致病变异占比较低时(如KIF5A),SpliPath显示出独特优势。
讨论部分强调:该方法突破了传统sQTL分析依赖常见变异的限制,首次实现罕见变异的功能聚类。其框架可扩展至其他调控过程,如利用Sei模型预测启动子功能变异(cpQTL),或通过APARENT模型分析多聚腺苷化变异(apQTL)。局限性在于参考转录组数据集的质量和规模直接影响发现效能,且当前剪接预测模型对TDP-43依赖性剪接事件(如UNC13A隐匿外显子)的预测能力仍不足。
这项发表于《Cell Reports Methods》的研究为罕见变异疾病遗传学研究提供了新范式,通过巧妙整合多组学数据和AI预测工具,解决了复杂疾病遗传解析中的关键痛点,为ALS等疾病的精准基因发现和后续靶向治疗开发奠定了方法论基础。
生物通微信公众号
知名企业招聘