综述:基因组技术在小脑性共济失调中的过去、现在与未来
《Journal of Neurology》:Past, present, and future of genomic technologies in cerebellar ataxias
【字体:
大
中
小
】
时间:2025年11月10日
来源:Journal of Neurology 4.6
编辑推荐:
本综述系统梳理了基因组技术在小脑性共济失调(ICA)诊断与研究中的演进历程。文章指出,ICA作为一类遗传和临床高度异质性的神经退行性疾病,其诊断长期受限于短串联重复(STR)扩展等复杂变异的检测难题。第二代测序(NGS)虽提升了诊断率,但对STR和结构变异(SV)的检测仍存局限。新兴的第三代长读长测序(LRS)技术有望一次性可靠检测所有变异类型(包括SNV、Indel、CNV、SV及STR),并结合多组学分析推动ICA病理机制研究和精准诊疗。然而,成本、数据解读和参考数据库人群偏差等挑战仍需克服。
遗传性小脑性共济失调(Inherited Cerebellar Ataxias, ICA)是一组罕见且具有高度临床和遗传异质性的神经退行性疾病,主要累及小脑及其神经连接,导致步态失衡、肢体不协调、眼球运动异常、言语和吞咽障碍等症状。全球患病率约为1/10,000,使其成为神经遗传学领域最具代表性的疾病之一。目前已发现超过200个基因与ICA直接相关,另有约500个基因相关的疾病可将共济失调作为症状之一。ICA的分子诊断面临巨大挑战,不仅因为其表型和遗传异质性,更因为致病变异类型多样,包括单核苷酸变异(SNV)、插入/缺失(Indel)、拷贝数变异(CNV)、结构变异(SV)以及尤为关键的短串联重复(Short Tandem Repeat, STR)扩展。STR通常由1-6个相邻核苷酸组成(如CAG、GAA),其不稳定性导致在复制过程中易于扩展。大量ICA与STR扩展相关,包括常染色体显性遗传的脊髓小脑性共济失调(Spinocerebellar Ataxias, SCA)、常染色体隐性遗传的弗里德赖希共济失调(Friedreich's Ataxia, FRDA)以及X连锁的FMR1相关震颤共济失调综合征(FXTAS)。在ICA中,STR扩展相关疾病的比例似乎高于其他神经遗传疾病,这使得STR的检测变得至关重要。
在20世纪下半叶,桑格测序(Sanger Sequencing)、Southern印迹(Southern Blot)和聚合酶链式反应(Polymerase Chain Reaction, PCR)是研究DNA变异的主要技术。
桑格测序(第一代测序)由Frederick Sanger在70年代后期开发,是分子诊断的重要一步。其原理是不可逆的链终止,通过特异性引物扩增目标DNA片段(150-1200 bp)并进行测序,可检测SNV和Indel,分析简单、快速,适用于少量分析时成本效益较高。
Southern印迹由Edwin Southern建立:DNA经限制性内切酶消化后,进行凝胶电泳按大小分离片段,然后转移到膜上,通过标记的互补DNA探针进行检测。该技术不提供序列信息,但能检测特定区域的大片段DNA,尤其适用于识别STR扩展,因为扩展会导致片段大小改变。
PCR技术由Kary Mullis在80年代初发明,通过变性、退火、延伸三个步骤的循环,对特定DNA区域进行指数级扩增。
这些传统技术存在固有缺陷:桑格测序发现新基因的灵敏度低,需要先进行连锁分析,这要求采集大家系的多名成员,从而在那个时代更多地发现了常染色体显性遗传的ICA。Southern印迹和PCR则一次只能检测一个目标区域,且引物可能存在非特异性结合,导致错误解读。这些靶向技术均需上游连锁分析来定位感兴趣区域,过程耗时、昂贵且繁琐。
21世纪初,第二代测序(Next-Generation Sequencing, NGS)利用可逆终止技术彻底改变了DNA分析。其流程包括将个体DNA制备成“文库”(DNA分子的物理簇)、扩增,然后进行大规模并行测序。
产生的数据通过生物信息学流程进行分析,包括质量控制和修剪、序列比对至参考基因组、变异检测以及变异注释。最终步骤涉及基于群体数据库(如gnomAD)、变异效应预测因子和既定分类指南(如ACMG标准)的临床解读。对于ICA,流程需针对多种变异类型(SNV、Indel、CNV、SV)进行优化。
NGS与桑格测序有根本区别:桑格测序每次分析仅能测序几百个碱基对,成本约500美元/Mb;而NGS可同时测序万亿碱基,在2020年代初全基因组测序成本已降至约600美元(不含生信和解读成本),且成本持续下降。NGS还具有更高的低频变异检测灵敏度,并能随着生物信息学工具的升级而不断改进。
- 1.1.基因Panel(Gene Panel, GP):测序与特定疾病(如共济失调)相关的已知基因列表。优势在于(可能的)成本效益和易于解读(数据量相对小、测序深度高)。但其“临床导向”的方法也是局限所在,尤其对于ICA这种高度异质性疾病,包含哪些基因难以抉择,可能导致Panel要么过于庞大,要么诊断率低。且Panel需要定期更新以纳入新基因,患者可能需重新测序甚至采样,在不断有新基因发现的领域应用受限。
- 2.2.外显子组测序(Exome Sequencing, ES):测序所有编码区(外显子,占基因组1-2%)。ES可一次性获取个体所有基因信息,对ICA等高度异质性疾病极具价值,能发现临床未预料到的基因、已知基因的新表型以及全新疾病基因,既是强大诊断工具,也是重要研究工具。但其技术局限包括测序覆盖度不均一、无法检测平衡易位等结构性变异,且不能有效捕获富集区域(如外显子及侧翼)以外的变异。
- 3.3.基因组测序(Genome Sequencing, GS):测序整个基因组,包括编码和非编码区域。GS理论上是最全面的测序方法,具备ES所有优势而无其技术弱点,平均覆盖度更好,检测变异(尤其是SV)更可靠。局限在于成本最高,且产生的海量数据解读最为复杂。
当前NGS技术(ES、GS)基于“短读长”测序原理,DNA在制备阶段被片段化,测序读长通常为75-250 bp。这种片段化导致关键信息丢失,使得短读长测序难以准确测序高GC含量或高同源性区域、检测结构变异,尤其是STR扩展。因为读长可能短于扩展的STR区域,导致比对模糊或错误;STR的重复性也使比对算法易出错;高GC含量和序列同源性进一步增加了检测难度。
为弥补这些弱点,发展了诸如无PCR建库等技术,但最重要的进展是开发了用于检测STR扩展的生物信息学工具(如ExpansionHunter, exSTRa, STRetch等)。尽管这些工具日益可靠,但仍不完美,通常仍需PCR/Southern印迹来确认和精确测量STR扩展大小,使得STR检测至今仍显繁琐。
为克服短读长NGS的局限,长读长测序(Long-Read Sequencing, LRS, 第三代测序)技术应运而生,主要包括单分子实时测序(Single Molecule, Real Time, SMRT)和纳米孔测序(Nanopore sequencing)。LRS能产生10 kb至数Mb的读长,读长准确率在87%至98%之间。纳米孔测序还能同时检测DNA链的甲基化水平等表观遗传特征。LRS的理论优势众多:能更好地检测结构变异(包括复杂重排)、高同源性区域(如STR、同聚物、有假基因的蛋白编码基因)的变异。
LRS在ICA领域的价值已得到证实,不仅作为诊断工具能可靠检测ICA相关的STR扩展,也作为研究工具发现了新的神经遗传病基因。由于LRS技术与短读长测序差异巨大,催生了专用的生物信息学工具,例如用于SV检测的Sniffles、SVIM,以及用于STR扩展检测的Tandem-genotypes、NanoSatellite、STRique等。LRS的局限性包括需要特殊的高分子量DNA提取方法,目前成本仍高于已广泛应用的短读长NGS,但随着技术进步,成本有望下降。
除DNA测序外,RNA测序技术也受益于LRS。RNA测序通过提取RNA并逆转录为cDNA进行测序。作为DNA测序的补充,它能在RNA水平间接检测致病变异(尤其是剪接变异),并研究RNA生物学(结构、翻译、表达等)。但其局限在于基因表达具有组织特异性,而对神经系统疾病,易获取的组织(如血液)可能不表达相关基因。
第三代技术还包括非测序技术——光学基因组图谱(Optical Genome Mapping)。该技术通过标记高分子量DNA分子上的特定序列,利用荧光成像和数据分析来定位标记并测量间距,从而全面检测SV(包括CNV)和STR扩展。光学图谱能一次性分析全基因组所有STR,但对STR的序列组成(如是否为“纯”重复或含有中断)无法提供信息,而这一点对许多重复扩展疾病至关重要。
基因组学领域飞速发展。ICA是技术与医学知识间紧密互惠关系的绝佳例证。
上世纪80-90年代的第一代技术(桑格、Southern、PCR结合连锁分析)发现了最常见的ICA形式(如多聚谷氨酰胺SCA、FRDA),但过程昂贵、耗时,且需要大家系,导致2000年代新基因发现速度放缓。
NGS技术的应用带来了医学史上罕见的革命。利用这些技术,研究人员在更短时间内发现了三倍于第一代技术的新ICA基因。外显子组测序单独或联合其他技术,促成了超过40%的已知ICA基因的发现。这些新工具极大地增进了对ICA分子基础的理解,揭示了其与其他神经遗传病(特别是痉挛性截瘫)的临床和遗传重叠,并推动了基因治疗时代的到来。
技术进步也深刻影响了ICA的分类体系:早期分类基于临床和病因学特征,包含大量“病因不明”类别;NGS时代推动了基于遗传模式(ADCA/ARCA, SCAR)的分类;最新的国际共识倾向于采用“ATX”或“HSP”等前缀将基因与表型关联。然而,随着第三代技术带来新知识,分类体系预计将再次演变。
测序技术的进步也改变了ICA患者的日常诊断。尽管基因Panel因更易实施而被某些团队青睐,但研究表明其诊断率有限,且可能因变异位于意料之外的基因而漏诊,在高度异质的ICA中适用性受限。外显子组测序很好地弥补了Panel的不足,诊断率在30-50%之间,并促进了大量表型扩展的发现。然而,近五年ES的诊断率趋于停滞,这最初被认为是ES技术局限所致,全基因组测序被寄予厚望。但短读长GS的潜力尚未完全发挥,非编码区变异的致病性判定仍是挑战。
2019年和2023年,RFC1基因内含子重复双等位基因扩展导致的CANVAS综合征和FGF14基因内含子GAA重复扩展导致的SCA27b的发现,凸显了当前短读长NGS技术在检测STR扩展方面的短板。RFC1相关共济失调成为第二常见的常隐共济失调,SCA27b则占常显ICA的至少20%。
因此,长读长测序有望在ICA领域引发新一轮革命,它能精确检测和量化STR扩展、SV、CNV,并在单次分析中获取甲基化组信息。除了内含子和外显子区的变异和STR扩展,LRS还可能揭示部分ICA与表观遗传变异、调控元件或拓扑关联域内的变异有关。其应用,特别是在整合多组学策略中,可能减少诊断历程。LRS在ICA领域的价值已有原理性验证,但大规模队列研究仍需进行。LRS的新颖性也意味着参考数据库仍不完善,在进入临床常规应用前需要进一步的研究来充实这些数据库。然而,对ICA病理生理学更深入的理解有望带来新的治疗靶点和迫切需要的治疗方法。
最后,一些关键偏差值得注意:i) 所有遗传分析都需要人工解读(有时借助AI),生物学家的专业知识在分子诊断中至关重要;ii) 部分个体的表型可能是多种遗传疾病叠加的结果;iii) 生物学家需警惕随着新信息出现而重新分类的变异;iv) 所有技术对复杂区域都存在覆盖偏差,甚至参考基因组GRCh38也已知缺少某些区域(如端粒);v) 用于解读基因组数据的数据库常存在重要的人群和种族偏差,高加索人群代表性过高,而非洲和亚洲人群比例偏低。这些偏差需要在未来解决,以充分发挥诊断技术在ICA中的潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号