外显子组测序中剪接单核苷酸变异致病性预测的实用新框架
《NAR Genomics and Bioinformatics》:A practical framework for predicting splicing single nucleotide variants in exome sequencing
【字体:
大
中
小
】
时间:2025年12月20日
来源:NAR Genomics and Bioinformatics 2.8
编辑推荐:
本研究针对孟德尔疾病中占比高达15-30%的剪接变异致病性预测难题,开发了一个遵循ACMG/AMP指南和2023年ClinGen建议的简化评估框架。该框架通过整合ClinVar知识库、SpliceAI预测工具、基因功能缺失耐受性(eLoF)评估和受限编码区域(CCR)分析,为开放阅读框区域的SNVs分配优先级评分(PS)。验证显示其鉴别性能显著优于单独使用SpliceAI(AUROC 0.991 vs 0.983)。在1257例未确诊患者的外显子组数据重分析中,成功鉴定出COL2A1、PDHA1等基因的致病性剪接变异,并发现UBN1和NFE2L1两个新的候选致病基因,显著提升了外显子组测序的诊断率。
在基因组学飞速发展的今天,外显子组测序(ES)已成为诊断孟德尔遗传病的重要工具。然而有一个令人困扰的难题始终存在:占孟德尔疾病致病变异15-30%的剪接变异,其致病性预测依然充满挑战。虽然美国医学遗传学与基因组学学院(ACMG)和分子病理学协会(AMP)在2015年提出了变异分类指南,临床基因组资源(ClinGen)也在2023年发布了针对剪接变异的细化建议,但严格按照这些标准对每个变异进行逐一手工评估,不仅耗时耗力,在临床实践中也几乎不可行。
面对这一困境,横滨市大学医学研究科人类遗传学部门的Yasuhiro Utsuno等研究人员开展了一项创新性研究,开发了一个能够简化致病性剪接单核苷酸变异(SNVs)评估的实用框架。他们巧妙地将复杂的临床指南转化为可操作的算法流程,让临床医生和研究人员能够更高效地从海量测序数据中筛选出潜在的致病剪接变异。这项研究成果已发表在《NAR Genomics and Bioinformatics》期刊上。
研究人员采用了几项关键技术方法构建这一预测框架。他们首先利用Python的ortools工具优化评分权重分配,开发了包含知识库筛选、计算机预测筛选和SpliceAI再校准三部分的评估流程。通过从HGMD专业版2023.1获取17258个致病剪接SNVs作为阳性集,从gnomAD v2.1.1筛选72199个良性SNVs作为阴性集,进行系统性能验证。他们还整合了来自ClinGen建议、Gene2Phenotype项目、剂量敏感性工作组和gnomAD约束指标的多个数据源,构建了包含4225个功能缺失耐受性(eLoF)基因的集合。研究团队重新分析了1257个未确诊的三人家系外显子组测序数据,重点关注新生变异,并通过全基因组测序和RNA测序对关键发现进行实验验证。
研究团队开发的框架通过流程图形式系统性地评估每个SNV的致病可能性。评估从优先级评分(PS)为0的起点开始,沿着流程图自上而下逐步加减分,最终得出范围在-10到14之间的PS值,分数越高表示致病可能性越大。
知识库筛选部分利用ClinVar数据,对同一位置有良性/可能良性(B/LB)分类的变异减5分,对有病理性/可能病理性(P/LP)分类的变异加9分。计算机预测筛选部分根据变异是否位于经典剪接位点(内含子区±2碱基)采取不同策略:对非经典剪接位点变异,主要依据SpliceAI的最大delta分数进行调整;对经典剪接位点变异,则通过五种剪接变化预测算法判断是否引起移码。
框架还整合了无义介导的mRNA降解(NMD)预测和功能缺失耐受性(eLoF)基因评估。对于预测会触发NMD且位于eLoF基因的变异,给予最高4分的加分。同时,框架还评估异常剪接是否影响蛋白质的关键区域,使用受限编码区域(CCR)作为判断标准,如果较短的转录本影响这些关键区域,则加6分。
性能测试结果显示,该框架的受试者工作特征曲线下面积(AUROC)达到0.991,显著优于单独使用SpliceAI(0.983)。在召回率(0.972)、马修斯相关系数(0.919)和F1分数(0.934)等多项指标上均表现优异。
研究团队精心构建了一个功能缺失耐受性(eLoF)基因集合,这是框架评估变异致病性的重要依据。他们从四个不同来源整合数据:ClinGen SVI剪接工作组2023年推荐的功能缺失疾病基因、Gene2Phenotype(G2P)项目中特定疾病的专家评审面板、具有高单倍体不足(HI)评分的基因,以及通过pLI、LOEUF和pHaplo等约束指标筛选的基因。
通过系统比较24种不同的cut-off值组合,研究团队选择了能够最大程度覆盖已知受限基因的组合(Set_16),最终得到一个包含4225个基因的eLoF集合。这些基因在增强子Gnocchi评分、AlphaMissense致病性评分均值和Genovo LOEUF评分等独立指标上都显示出显著约束性。
研究团队将框架应用于1257个先前未确诊的三人家系外显子组测序数据,这些病例主要涉及癫痫性脑病、神经发育障碍和多发性先天异常等表型。重新分析发现了40个PS≥1的变异,其中20个位于已知疾病相关基因中。
分析成功鉴定出四个可能解释患者表型的致病性剪接变异。病例21407是一名患有脊椎干骺端发育不良(SEMD)的3岁女孩,携带COL2A1基因的c.905C>T新生杂合变异。该变异通过隐匿供体位点增益导致21bp框内缺失,影响II型胶原三聚体的形成。
病例17483是一名表现为自闭症谱系障碍、胼胝体发育不全等表型的2岁女孩,携带PDHA1基因的c.738C>T变异。该变异虽被初步注释为同义变异,但实际通过创建隐匿供体位点增益和供体位点缺失,导致23bp缺失和移码,产生提前终止密码子(PTC)。
病例11467是一名临床诊断为Rett综合征的4岁男孩,携带MECP2基因的c.48C>T新生半合子同义变异。RNA测序证实该变异引起异常剪接,导致16bp缺失和移码。全基因组测序也验证了这一发现。
病例21599是一名临床疑似Weaver综合征的3岁女孩,携带JAKMIP1基因的新生杂合剪接位点变异c.954+1G>C。该变异导致内含子保留和移码,预计引发NMD和单倍体不足(HI)。JAKMIP1是高度约束基因(LOEUF=0.391,pLI=1),小鼠模型研究也支持其与神经发育表型的关联。
研究还发现了两个新的候选致病基因。UBN1基因的c.1181+1G>A新生杂合变异在一名患有脑穿孔畸形的2岁女孩中发现,预计导致外显子8跳跃和移码。NFE2L1基因的c.724-2A>C新生杂合变异在一名患有自闭症和三角头畸形的14岁女孩中发现,预计引起部分外显子缺失和移码。这两个基因均为高度约束基因,可能通过单倍体不足机制导致疾病。
这项研究开发了一个实用框架,用于在外显子组测序中筛选致病性剪接单核苷酸变异。该框架整合了多源数据,包括ClinVar知识库、SpliceAI预测、基因约束性评估和区域约束性分析,通过系统优化的评分系统,实现了对剪接变异致病性的准确预测。
研究的创新性在于将复杂的临床指南转化为可操作的算法流程,在不牺牲准确性的前提下显著提高了评估效率。框架在性能验证中表现出色,AUROC达到0.991,在多个指标上优于现有工具。在实际应用方面,框架成功从1257例未确诊病例中鉴定出多个致病剪接变异,包括传统方法可能遗漏的同义和错义变异,证实了其提升诊断率的潜力。
研究的局限性包括NMD判断方法相对简化、目前仅评估ORF区域的SNVs、以及主要依赖gnomAD v2.1等相对陈旧的数据集。未来工作可进一步优化NMD预测、扩展至UTR和深内含子区域变异,并整合更新更全面的参考数据。
总体而言,这项研究为解决遗传病诊断中剪接变异预测的难题提供了实用工具,有望在临床基因组学和精准医疗领域发挥重要作用。通过先使用优先级评分进行初步筛选,再结合ClinGen推荐的变异评估方法进行确认,可以显著降低全外显子组研究的总体时间成本,促进更多致病剪接变异的发现和解读。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号