Gene News

基因快讯2003年第2期


SNP研究前沿及主要技术方法



    特定生物种类如人、大鼠、小鼠、拟南芥、大肠杆菌、酵母等的全基因组序列分析正在进行或已经完成,根据序列分析结果进行的生物信息学分析和根据已有的研究结果对基因组结构、基因种类和基因功能的分析成为后基因组时代研究的主题。就人类而言,推测的基因数目大约为3-5万个,这些基因的染色体定位、调控元件、转录表达模式、蛋白质表达与亚细胞定位、翻译后修饰如糖基化、磷酸化,及这些基因与特定生理、病理性状的关系正在被诠释,而基因敲除、转基因技术、RNA干扰、基因芯片技术、蛋白质2D与质谱技术为这些研究提供了很重要的技术平台。

    基因组DNA是生物体各种生理、病理性状的物质基础。人类众多个体的基因组序列的一致性高达99%以上,但个体之间各种性状的差异仍然很大,包括对疾病的易感性、对同一疾病治疗药物的反应性等。在同一生物集团中明显存在两种以上不同的遗传性状,而且出现频率较高,称为遗传的多态性(polymorphism),而遗传物质DNA的多态性如RFLP、STR、ABO血型、HLA和单核苷酸多态性(single nucleotide polymorphism, SNP)是个体间差异的遗传学基础。

    SNPs是指在基因组水平上由于单个核苷酸位置上存在转换(C与T互换,在其互补链上则为G与A互换)或颠换(C与A,G与T,C与G,A与T互换)等变异所引起的DNA序列多态性。SNP是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
通常所说的SNP都是二等位多态性的,转换的发生率总是明显高于其它几种变异,具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。转换的几率之所以高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。

    在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。

  从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能,这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。

  各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有85%应是共通的。

    SNP用作遗传标记具有以下优点:(1) SNP在人群中是二等位基因性的,在任何人群中其等位基因频率都可估计出来。(2)它在基因组中的分布较微卫星标记广泛得多。(3) 与串联重复的微卫星位点相比,SNP是高度稳定的,尤其是处于编码区的SNP(cSNP),而前者的高突变率容易引起对人群的遗传分析出现困难。(4) 部分位于基因内部的SNP可能会直接影响产物蛋白质的结构或基因表达水平,因此,它们本身可能就是疾病遗传机制的候选改变位点。(5)易于进行自动化、规模化分析,缩短了研究时间。由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。

    人类基因组单核苷酸多态性研究所揭示的人种、人群和个体之间DNA序列的差异以及这些差异所表现的意义将对疾病的诊断、治疗和预防带来革命性的变化。今后SNP将在下列领域发挥重要作用:(1)进行疾病的遗传连锁分析(linkage analysis)及关联分析(association analysis),用于疾病易感基因定位;而且其定位的精度将比微卫星标记精细得多,可直接用于指导易感基因克隆。(2) 在“药物基因组学”(pharmacogenomics)研究中,可通过检测SNP的遗传多态性标记揭示人群中不同个体对不同药物的敏感性差异的根本原因。(3) 也可用于法医研究的罪犯身份的鉴别、亲子鉴定等,此外在器官移植中供体和受体间的配对选择及物种进化的研究中都将具有重要意义。

    归纳起来,SNP的研究实际主要包括两个方面,一是SNP数据库的构建,主要目的是发现特定种类生物基因组的全部或部分SNP;二是SNP功能的研究。大规模SNP数据库构建只是基因组序列分析中心可以胜任的工作,常规实验室是不太可能进行该工作的。但我们应该注意到,发现SNP只是SNP研究的第一步,而SNP功能的研究才是SNP研究的目的。染色体DNA特定区域的SNP的功能研究是很多分子和细胞生物学实验室可以进行的工作。特定DNA区域的特定SNP在特定群体的序列验证和频率分析以及SNP与特定生理/病理状态关系的研究是SNP研究的主要方面。

    就SNP发现的实验手段来讲,经典方法采用PCR-单链构象多态性(PCR-SSCP)分析、RFLP、dHPLC和HA等,由于它们必须通过凝胶电泳等进行分析,因此,距快速、高效、自动化的目标还相差甚远。RFLP只能检测到SNP的一部分。上述方法仅能判断SNP的有无而不能知道碱基类型,因此这些方法发现的SNP要再进行Sanger测序确认。

    因此如果希望大规模、准确、快速发现SNP,Sanger测序越来越成为主流技术。由于DNA Sanger测序能够准确、直接反映序列差异,且成本日益降低,目前国际上应用最为广泛的还是通过Sanger测序来进行SNP研究。目前大规模Sanger测序的技术已经相当成熟,与过去相比Sanger测序变得越来越快捷和便宜,使采用Sanger测序进行大规模SNP发现成为可能。

    而对于数据库中已有的SNP在特定人群的序列的验证性分析和频率分析,目前的技术包括位点特异性探针的应用、Tagman 实验、分子信标(molecular beacons)技术、Minisequencing等等。但由于需要荧光标记以及专门的分析仪器,用上述技术进行研究,其可行性差一些。因此,象DNA的焦磷酸序列分析(Pyrosequencing)方法可能成为这些研究的主流技术。通过PCR技术可以将已知的SNP所在的DNA片扩增出来,然后在SNP位点的上游或下游设计一个测序引物,通过焦磷酸测序对SNP位点的碱基类型及SNP位点上下游的若干碱基序列进行分析。

    很显然,由于Sanger法或焦磷酸测序法给出的结果是DNA序列,因此其可靠性比任何其他的DNA分析方法包括杂交法给出的结果更可靠准确。由于焦磷酸测序技术主要用来分析PCR产物双链分离后其中一条链的序列,因此避免了DNA链的二级结构容易造成的人工假相,使测序结果更加准确。

    DNA焦磷酸序列分析技术是一种不依赖平板胶或毛细管电泳、不依赖DNA的荧光标记/激发/检测的DNA序列分析技术,该技术适于对已知序列的DNA片段进行验证分析,因此更适于已知SNP的序列验证。对于SNP频率分析,研究者可以将数以千计人的基因组DNA进行等比例混合,然后进行一次PCR扩增特定SNP所在的DNA片段,最后进行一次焦磷酸测序即可知道该SNP在特定人群的频率。这样操作可以节省大量的人力/物力和时间。而且基于该技术的分析系统自动化程度高,通量大,速度快,易于建立标准化操作,适合大规模SNP研究及分子诊断。(详见本刊的具体应用介绍)

    最后需要补充说明的是,Affymetrix公司最新开发了一张人类SNP芯片,该芯片总共包含11500个人类SNP,每隔100kb一个。该芯片是测序芯片,每个SNP位点的结果是经过四十次测序验证的,因此其结果相当可靠。该技术可以用于功能基因的定位、LOH以及不同人群差异的遗传学基础的研究。本刊中有专题介绍。