深在内含子SVA_E插入被确定为卡纳万病最常见致病变异:诊断盲点的新发现

【字体: 时间:2025年09月23日 来源:Neurology Genetics 3.6

编辑推荐:

  本研究发现ASPA基因内含子区SVA_E retrotransposon插入是导致卡纳万病(Canavan disease, CD)的最常见遗传变异,这一发现填补了25年来该疾病分子诊断的空白。研究通过长读长测序(LRS)和RNA测序(RNA-seq)技术,揭示了该插入通过创建新型剪接受体位点导致异常剪接和转录降解的机制。这一突破性进展强调了在遗传诊断和携带者筛查中检测此类变异的重要性,为基因靶向治疗和临床试验提供了关键分子基础。

  

Abstract

Background and Objectives

卡纳万病(Canavan disease, CD)是一种神经退行性疾病,由ASPA基因的双等位基因致病变异引起,导致脑白质海绵状变性,进而引发进行性、不可逆的运动和认知功能衰退。尽管进行了全面的遗传检测,许多临床和生化诊断为CD的患者仍缺乏明确的分子诊断。这一诊断缺口阻碍了患者获得新兴的基因靶向治疗并限制了其参与临床试验的机会。本研究旨在探究8例未解决CD病例的遗传病因。

Methods

研究采用长读长测序(long-read sequencing, LRS)技术对8例临床和生化诊断为CD但遗传检测结果为阴性的个体进行了研究。使用牛津纳米孔技术(Oxford Nanopore Technologies, ONT)平台对3名无关个体进行了靶向LRS,并对队列中另一名个体使用了PacBio HiFi测序。对其余患者的样本进行了条形码编码和 pooled 靶向LRS。为探究其对基因功能的影响,研究还在成纤维细胞中进行了加与不加放线菌酮(cycloheximide, CHX)的RNA测序(RNA-seq)。最后,利用gnomAD数据库评估了该变异在人群中的等位基因频率。

Results

在所有8名个体中均发现ASPA基因内含子区存在一段约2,600 bp的SVA_E反转录转座子插入。该插入在所有个体中均为纯合或与已知致病变异构成复合杂合。RNA-seq分析表明,SVA_E插入在ASPA基因内含子4内创建了一个新的剪接受体位点,导致异常剪接和转录降解。令人惊讶的是,人群数据库中的频率数据显示该变异是ASPA基因中最常见的致病变异,且 across 不同 ancestry 群体均存在。

Discussion

本研究发现了ASPA基因中最常见的致病变异,这一变异在25年的CD研究中一直被忽视。鉴于此,确保所有检测实验室能够通过诊断性检测和携带者筛查识别该变异至关重要。研究凸显了标准短读长诊断流程中存在的重要盲点,即历史上这些插入变异常被遗漏或忽略。同时,也展示了LRS和RNA-seq等新兴技术在识别包括CD在内的遗传性疾病新类型变异方面的强大能力。

Introduction

卡纳万病(CD)(OMIM# 271900)是一种常染色体隐性遗传病,由ASPA基因的双等位基因功能丧失型变异引起。患病儿童表现为先前获得的运动和认知里程碑进行性、不可逆的衰退。症状通常在生命最初数月正常发育后出现,包括巨头畸形、肌张力低下、肌肉控制能力丧失、喂养困难、发育迟缓(包括运动和语言能力)、视神经萎缩和癫痫发作。临床严重程度和疾病进展可能与酶的残余活性和构象稳定性有关。除提示性临床表现外,诊断还通过气相色谱-质谱法检测尿中N-乙酰天冬氨酸(NAA)升高或通过质子磁共振波谱检测脑内NAA升高来确定。

ASPA基因位于染色体17p13.2,包含6个外显子,长度约为30 kb。尽管德系犹太人群CD发病率较高,主要由于 founder 变异ASPA p.Glu285Ala和p.Tyr231Ter,但所有 ancestry 群体均可能患病,已有超过100个致病变异提交至Leiden开放变异数据库、ClinVar和人类基因突变数据库(HGMD)。这些变异包括错义/无义、剪接、缺失和插入。随着CD新兴治疗方法(NCT04833907, NCT04998396)的出现,除生化检测外,明确分子病因变得愈发重要,因为遗传确认可能是参与临床试验或未来获批疗法的先决条件。

本研究报告了来自7个家庭的8名个体(图1A,电子附录1),这些个体基于临床、生化和神经影像学证据(图1B和C)确诊为CD,但遗传检测(包括短读长基因组测序,srGS)未能在ASPA基因的一个或两个等位基因上识别出致病变异。通过LRS进一步检查发现,所有个体5号染色体(NM_000049.4)内含子4均存在一段约2,600 bp的SVA_E插入(图2A)。短散在元件-可变数目串联重复-Alu(SINE-VNTR-Alu),亚家族E反转录转座子(SVA_E),是进化上年轻的人科特异性转座元件。SVA_E在人类谱系中具有活性,已知通过多种机制引起疾病,包括插入突变、外显子洗牌、选择性剪接和产生差异甲基化区域。SVA_E插入已被鉴定并与多种遗传条件相关,包括癌症、无脉络膜症和庞贝病。使用srGS检测SVA_E元件具有挑战性,因为其大小可变,平均约为2千碱基,但长度可达4千碱基或更长。基于这些发现,我们建议回顾性分析先前未解决的CD病例以评估此SVA_E插入,并前瞻性地确保所有遗传检测实验室能够在诊断性检测和产前携带者筛查中检测到此SVA_E插入。

Methods

Patient Ascertainment and Clinical Studies

8名来自7个无亲缘关系家庭的个体(自我报告 ancestry 为欧洲-乌拉圭(FI:1, FII:1, FIII:1)、欧洲-美洲(FIV:1, FIV:2, FV:1)和欧洲(FVI:1, FVII:1))被招募和研究(表1)。除非另有说明,患者均在费城儿童医院(CHOP)的髓鞘障碍生物样本库项目(IRB #14–011236)下提供 consent 并入组,该框架符合全球白质营养不良倡议临床试验网络的监管规定。研究经CHOP机构伦理委员会批准,并根据《赫尔辛基宣言》获得了所有5个家庭的书面知情同意。对每个入组个体,从其接受护理的机构收集了医疗记录。FVI家庭在“罕见病现在:未诊断罕见病儿童的基因组诊断和个性化护理”项目(HREC Reference Number HREC/67401/RCHM-2020)下提供 consent 并入组,该项目经皇家儿童医院人类研究伦理委员会批准。FVII家庭在默多克儿童研究所的白质营养不良研究项目(HREC#641943)下提供 consent 并入组,该项目经皇家儿童医院人类研究伦理委员会批准。所有个体均基于生化检测和神经影像学有CD的临床诊断,但遗传检测仅识别出一个或未识别出已知的致病或可能致病变异。详细的临床特征、脑MRI、家族史和临床记录由一组儿科神经学家和一位遗传咨询师审查。脑MRI扫描由经验丰富的儿科神经放射学家审查。

Short-Read Sequencing of Individual FI:1

对先证者FI:1进行了三重短读长测序(SRS)(2 × 150 bp),在CHOP高通量测序核心使用无PCR方案,目标平均覆盖度>60x。原始数据(FASTQ)比对至hg38人类参考基因组,并使用Illumina DRAGEN, v3.9.5进行变异 calling(单核苷酸变异SNVs、小插入缺失indels、拷贝数变异CNVs和纯合区域ROHs)。质量控制方案包括从遗传数据确定性别和估计亲缘系数以确认家庭内关系。使用Variant Effect Predictor(VEP v106)对序列变异(SNVs和indels)进行注释,并针对gnomAD群体数据库(v4)进行过滤以移除在一般群体中观察到的变异(次要等位基因频率AF阈值0.5%)。使用内部工作流程进一步优先排序变异,基于多个因素,包括使用ClinVar和HGMD(Qiagen Inc., Germantown, MD)注释的先前致病性证据,以及多个计算预测评分,包括CADD、REVEL和SpliceAI。使用AnnotSV对CNVs进行注释,并过滤涉及基因组蛋白质编码区域的变异。

Targeted LRS of Affected Individuals and Their Parents

使用ONT平台对队列中3名无关个体进行了靶向LRS。简言之,使用Puregene DNA纯化试剂盒(Qiagen)从全血中分离高分子量(HMW)DNA(患者FI:1和FV:1)。FIV:2的残留DNA从外部实验室获得。提取的DNA在Qubit荧光计(Invitrogen)上定量,并使用NanoDrop分光光度计(ThermoFisher)和Agilent Femto Pulse系统评估质量。对于FV:1和FIV:2,根据制造商说明使用Short Read Eliminator试剂盒(PacBio)去除较小片段。使用ONT连接测序试剂盒(SQK-LSK114)制备文库,加载到R10.4.1 flow cell上,并在PromethION 24上使用自适应采样运行。目标区域富集了围绕基因HEPACAM, GALC, HEXA, GPRC5B, GCSH, ASPA, GFAP, AQP4, GCDH, MLC1, ARSA, AMT, HEXB, 和 GLDC的大约2 Mbp区域,以及围绕FMR1和COL1A1的大约200 kbp区域(电子表1)。测序后,使用Dorado version 0.5(ONT)和super-accurate模型进行base calling,并纳入5mCG和5hmCG修饰。使用cramino(v0.14.1)评估运行性能。Base-called reads使用minimap2比对至GRCh38;使用Clair3进行小变异calling和phasing。使用Sniffles2和cuteSV进行结构变异(SV)calling。使用Integrative Genomics Viewer(IGV)可视化reads。

还对其余患病个体的条形码编码和pooled样本进行了靶向LRS。简言之,如上所述对提取的DNA进行定量。使用ONT Native Barcoding Kit(SQK-NBD114.24)制备文库,将pool加载到R10.4.1 flow cell上,并在PromethION 24上使用自适应采样运行。在66小时的运行期间,flow cell被清洗并重新加载了两次。使用上述相同区域(电子表1)富集目标。测序后,使用Dorado version 0.8.2(ONT)和superaccurate模型进行base calling,并纳入5mCG和5hmCG修饰,然后使用Dorado进行demultiplexing。使用cramino(v0.14.1)评估运行性能。Base-called reads使用minimap2比对至GRCh38。使用IGV可视化reads。

Illumina Whole-Genome Sequencing of Families VI and VII

WGS数据生成和临床分析由澳大利亚墨尔本的Victorian Clinical Genetics Services使用经诊断认可的方法进行。手动从EDTA真空采血管收集的血液中提取DNA,使用QIAamp DNA Blood Mini Kit。使用Qubit dsDNA BR(broad-range)Assay kit(Thermo Fisher)和TapeStation genomic DNA kit(Agilent)分别评估DNA数量和质量。使用Nextera DNA Flex Library Prep Kit/Illumina DNA Prep Kit(Illumina)制备全基因组DNA文库,随后在NovaSeq 6,000仪器(Illumina)上进行2×150-bp双末端DNA测序,可变地使用S2或S4 flow cells。目标平均测序深度为30×,核DNA至少90%的碱基测序深度至少10×,线粒体DNA平均覆盖度为800×。

PacBio HiFi Sequencing and Alignment of Individual VI:1

用于测序的DNA使用Diagenode Megaruptor与3 DNAFluid + Kit(E07020001, Diagenode)进行均质化,参数如下:体积150 μL;速度40;浓度50 ng/μL。均质化后,将3 ug材料在低TE中稀释至体积130 μL。使用Megaruptor Shearing Kit(E07010003, Diagenode)以速度30或31(取决于提取片段长度)剪切样品,目标是回收平均片段长度15–24 kb。使用SMRTbell clean-up beads(102-158-300, PacBio)进行剪切材料的清理和浓缩,样品在47 μL体积中洗脱。使用Femto Pulse和Genomic DNA 165 kb Analysis Kit(FP-1002-0275, Agilent)测定剪切平均片段长度。

使用SMRTbell prep kit 3.0(102-141-700, PacBio)按照标准程序制备SMRTbell文库,并使用SMRTbell adapter index plate 96A(102-009-200, PacBio)对每个样品进行唯一条形码编码。使用AMPure PB beads size selection kit(102-182-500, PacBio)以2.9x比率(即50 μL样品:145 μL 35% beads)进行大小选择。如上所述使用Femto Pulse测定最终SMRTbell文库的大小。SMRTbell文库平均片段长度范围在12.895至26.001 kb之间,最终SMRTbell文库在加载前稀释至低于60 ng/μL。使用SMRT Link version 13.1.0.221970、chemistry bundle 13.1.0.217683和parameter version 13.1.0,以30小时movie time对样品进行测序。测序反应使用以下PacBio产品:Revio Sequencing Plate(02-587-400)、Revio Polymerase Kit(102-739-100)和Revio SMRT Cell Tray(102-202-200)。所有测序运行的板上加载浓度设置为250 pm。任何未使用单个SMRT cell生成90 Gb的样品都在pooled “top-up”运行中重新测序,其中合并了多个SMRTbell文库。

测序后,HiFi FASTQ文件使用minimap2(v2.14-r883)比对至hg38参考基因组。使用Clair3(v1.0.4) calling SNVs和indels,并使用WhatsHap(v2.1)进行phasing。使用Sniffles2(v2.07) calling SVs(包括CNVs)。使用Variant Effect Predictor(VEP)(v110)对SNVs和indels进行功能注释,使用AnnotSV(v3.3.4)对SVs进行注释。

RNA Sequencing

建立患者成纤维细胞系,生长至7 × 105 cells/mL,然后加或不加放线菌酮(CHX)处理22–24小时。离心细胞, resulting 细胞沉淀用PBS洗涤。从细胞沉淀中提取总RNA,使用Illumina Stranded mRNA方案进行文库制备,测序深度为80 million reads。RNA-seq数据使用STAR v2.7.3a比对至hg38参考基因组。使用STAR内的two-pass方法和gencode.v35基因注释以增强mapping并 enable 检测独特剪接事件。使用FastQC评估数据质量,并使用IGV可视化数据。

Establishing the Maximum Credible AF for ASPA

使用 established 统计稳健框架计算了最大可信AF,以评估一个变异是否“太常见”而不能成为感兴趣孟德尔疾病的致病原因。为计算ASPA中的最大等位基因贡献,使用了gnomAD(v4)的数据(电子表2)。将最常见先前描述的致病等位基因(17-3499060-C-A)的等位基因计数(487)除以致病或可能致病等位基因的总数(1,021)。用于计算的CD患病率为1/10,000;外显率确定为1,因为CD完全外显;遗传异质性也为1,因为它是单基因疾病。使用Frequency Filter App进行计算。

Results

Identification and Validation of an SVA_E Insertion by LRS

报告的SVA_E插入由两个团队同时独立发现。一个团队对个体FI:1的ASPA和一组与婴儿期神经退行性疾病相关的基因进行了靶向LRS。过滤ASPA中等位基因频率低于1%的等位基因变异和SVs,发现了一个纯合的约2,600 bp SVA_E插入,位于5号(NM_000049.4)内含子4(图2A)。 separately,第二个团队对个体FVI:1的srGS数据在IGV中进行了手动分析,该个体通过诊断检测仅识别出一个致病变异。通过识别和分析位于靶位点 duplication 两侧的不一致读对和软剪辑序列(与SVA_E序列匹配)检测到候选插入(电子图1)。随后的个体FVI:1的LRS确认了SVA_E插入。一旦识别,该插入在另外6名具有疾病生化和临床证据但未得到CD确诊遗传诊断的个体中被发现。该插入在先前临床检测未识别出候选变异的个体(FI:1, FII:1, FIII:1)中为纯合,在通过标准临床检测识别出单个候选变异的个体(FIV:1, FIV:2, FV:1, FVI:1, FVII:1)中与已知致病变异构成反式。通过LRS在先证者及其家庭成员中确认了插入(电子图2)。

RNA-Seq Confirms the Impact of the SVA_E on Splicing

SVA插入可能通过多种机制破坏转录,包括直接破坏编码序列或诱导异常剪接模式,包括外显子跳跃、激活SVA插入周围的隐性剪接位点以及将SVA序列纳入基因转录本中。为探究此SVA_E插入对基因功能的影响,我们在来自SVA携带者父母(家庭VI)和先证者(家庭VII)的成纤维细胞中进行了加与不加CHX的RNA-seq。来自两个个体的未经处理的样品缺乏srGS数据中存在的杂合变异 calls,表明仅表达一个等位基因(图3B)。在两个CHX处理的样品中,均观察到跨越外显子4-内含子4边界的测序reads中存在软剪辑,这些序列未映射到任何ASPA基因组参考序列,而是与内含子4中存在的SVA_E序列匹配(图3B)。这些数据表明SVA_E插入在ASPA内含子4内创建了一个新的剪接受体位点,导致破坏规范剪接并添加了一个包含SVA_E的外显子(图3A)。在CHX处理的样品中,未在包含SVA_E的外显子下游观察到杂合变异,表明转录在SVA_E插入内终止。仅在CHX处理的样品中观察到包含SVA_E的转录本,表明来自该等位基因的产物被 targeted for 降解。RNA-seq数据提供了证据,表明深在内含子SVA插入导致异常剪接,进而引起转录本降解,从而导致ASPA功能丧失。鉴于内含子反转录转座子插入并不总是引起异常剪接,执行RNA-seq或RT-PCR分析对于确认此类插入的功能性后果至关重要。

SVA_E Insertion Is the Most Common Pathogenic Variant in ASPA

鉴于SVA_E插入在7个无亲缘关系家庭中具有共享单倍型,我们推测该变异将存在于群体数据库中。我们使用gnomAD v4评估了SVA_E插入的AF。在大约126,000个单倍型中,66个为杂合, none 为该位置注释为SVA的插入纯合, yielding 一个AF为0.0005(1/1,909单倍型携带该插入)(电子表2)。在gnomAD中,SVA插入是从srGS数据中使用MELT识别出来的,其估计插入长度为461 bp。由于gnomAD中报告的SVA与我们测序数据中的长度存在差异,从gnomAD获得确认,我们队列中SVA_E插入的末端与gnomAD数据匹配,提供了证据表明它们是同一个变异。该变异在gnomAD的所有遗传 ancestry 群体中均有观察到, except 中东血统个体,其代表单倍型少于100个(电子表3)。

令人惊讶的是,先前报道的ASPA最常见致病变异(17-3499060-C-A)的AF为0.0003(存在于1/3,314单倍型),低于SVA_E插入。然而,SVA_E插入的AF低于ASPA的最大可信AF 0.0013(电子图3)。此外,包括p.Glu285Ala和p.Tyr231Ter(德系犹太 founder 变异)在内的几个变异在其最常见的单个 ancestry 群体中具有更高的等位基因频率(电子表2)。 together,这两条证据表明SVA_E插入的AF并未高到质疑其致病性的程度。相反,这一证据表明SVA_E插入是ASPA中最常

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号