筛选疾病基因的两大板斧：GWA和LA法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

筛选疾病基因的两大板斧：GWA和LA法

【字体：大中小】 时间：2009年01月04日 来源：生物通

编辑推荐：

生物通报道，遗传学研究最大的意义在于可以找到疾病基因，通过先进的技术如RNAi等从基因上治疗疾病。当然，这是个美好的预想，要真正应用还需要科学家长期的努力，至少要找到疾病基因。做遗传学研究的应该都了解做人类遗传学研究的两大研究方法，Linkage analysis（LA）和Genome-wide association analysis（GWA）。下面，生物通将为您介绍一下两个方法。

生物通报道，遗传学研究最大的意义在于可以找到疾病基因，通过先进的技术如RNAi等从基因上治疗疾病。当然，这是个美好的预想，要真正应用还需要科学家长期的努力，至少要找到疾病基因。做遗传学研究的应该都了解做人类遗传学研究的两大研究方法，Linkage analysis（LA）和Genome-wide association analysis（GWA）。下面，生物通将为您介绍一下两个方法。

今年用GWA法全世界的科学家都找出了不少的致病基因，中国科学家在这方面的研究也取得了不俗的成绩，相关报道请关注：盘点08公布的致病基因汇集（中国篇Ⅰ）

连锁分析法（Linkage analysis）是一项比较老的研究方法，现在比较流行用全基因组关联分析法（Genome-wide association analysis），Nature Genetics或是The Journal of American Genetics上发表的诸多关于人类疾病基因或是动植物的某些基因都是用GWAS方法找到的。

Linkage analysis（连锁分析法）

连锁分析法主要适用于已知遗传方式单基因遗传病的基因定位，对具有复杂性状的多基因疾病进行遗传连锁分析时往往会受到多种因素的影响，如异位显性(epistasis)、不同发病年龄、不完全外显率、多个致病基因位点、遗传与环境相互作用、遗传模式、表现型比率及诊断不明确等，因此运用连锁分析研究多基因疾病受到一定程度的限制。针对连锁分析的上述限制性，目前采取的策略是基于血缘同一性的患者同胞对分析法(affectedsib—pair，ASP)。同胞对分析的基本原理依赖于下述生物学现象：具有遗传关系的一对遗传病患者(包括患病同胞对)，倘若他们所携带的某一(或某些)遗传标记等位基因呈显著的非随机性分离(nonrandomsegregation)，则控制疾病表型的基因极有可能与该遗传标记或遗传标记群连锁。根据这一基本观察，可以通过检测遗传相关的疾病患者间所携带的遗传标记等位基因的独立性，实现致病相关基因与遗传标记的连锁检查。其特点是无需知道遗传病的遗传方式，即可对同胞对中某一遗传标记与疾病易感基因作出连锁关系的判断。

ASP理论模型有Haseman—Elston、Risch—Bishop、和Fulker—Cardon等模型。ASP分析一开始主要用于比较单基因遗传病中同胞对的观察值与期望值的分布，以分析标记位点与疾病间的连锁关系。以后经过改进，此法得以广泛应用于多基因疾病的遗传分析和基因定位。但其对复杂性状连锁分析的有效性与下面一些因素有关：同胞对数、遗传异质性、先症者同胞相对于人群发病率的相对危险度及遗传标记的多态性信息度(polymorphicinformationcontent，PIC)等。

常用的连锁分析方法有家系连锁分析法[对数优势记分法(Logoddsscore，LOD)]、患者同胞对分析法和患者家系成员分析法(affectedpedigreemember，APM)。ASP和APM均为非参数分析方法，是性状—模型非依赖性分析，同常用的LOD连锁分析<性状—模型依赖性分析)等技术比较，具有下列优点：①不需要准确设定疾病的遗传模式，适用于不符合简单孟德尔遗传方式的多基因遗传病的连锁定位分析；②不受遗传参数的影响，对遗传异质性允许度大；③对系谱材料要求低，只需一代或二代的家系成员，多用于收集较困难的晚发性多基因疾病的遗传分析；④可研究两个不相连锁位点对疾病的联合作用，即多位点分析，以解析多基因疾病易感基因间的相互关系；⑤在候选基因研究中可应用间隔较远(～20cM)的遗传标记进行连锁分析。其不足在于：①检出力远低于相关分析，APM尤甚；②为了排除遗传异质性的影响，往往需要收集几百对受累同胞对；③双亲标本常不能获得，因此不能用血缘同一性(identity by descent，IBD)法，而只能用状态同一性(identity by state，lBS)法，影响分析的可靠性；④两个患病同胞的家系中，双亲均为患者的概率较高，易感基因可由父母双方传递给子代，而影响正确分析。ASP法、APM法及参数LOD计分法均属于两点连锁分析法(two—ointlinkageanalysis)。

连锁分析的方法对于直接寻找疾病相关基因来说，仍是不可或缺的基本手段。尽管许多新的工具和方法的提出，使这一过程变得越来越简单化，然而这一基本战略却贯穿于始终。目前常利用微卫星和SNP作为连锁分析的主要方法。进行连锁分析主要借助于一些软件，其中最常用的是LINKAGE和ENEHUNTER。LINKAGE适用于大家系，其中每个个体只用少量遗传标记的分析。GENEHUNTER则用于小家系，其中每个个体需用大量的遗传标记进行分析，并且还给出上述的非参数分析。

Genome-wide association analysis (基因组关联分析法)

自2005年Science杂志报道了第一项有关年龄相关性(视网膜)黄斑变性全基因组关联研究研究以来,有关与复杂疾病的全基因组关联研究如雨后春笋般层出不穷。

全基因组关联研究(Genome-Wide Association Study, 或者称作 Whole Genome Association Study GWA 研究), 简单的讲, 就是从人类全基因组范围内的序列变异(单核苷酸多态, Single Nucleotide Polymorphism, SNP)中, 筛选出那些与疾病性状关联的 SNPs或是CNV。GWA 研究设计所需样本量大, 基因分型耗资巨大, 因此, 遗传统计分析的任务不仅要从几十万个 SNPs 中发现与疾病表型的关联, 同时需要严格控制由于人群混杂可能带来的假阳性, 以及因多重比较而带来的Ｉ类错误概率扩大等问题, 从大量的阳性结果中筛选出那些与疾病真正相关的基因组内序列变异。

先简要介绍下这个方法吧。比如我们可以分别测定患有某种疾病的人群以及正常人群的DNA序列（实际上并不需要全基因组测序，只需测定一定量的标识片段，即Marker)，不难预见，病人和正常人的基因组序列将在多个位点存在差异（这种差异主要包括单核苷酸多态性即SNP以及插入缺失即Indel）。通过对这些差异位点的统计分析，我们可以找出与那种疾病最相关的一组或几组差异位点。那么，现在我们至少可以做两件事情。第一，对这些差异位点所在的DNA区段以及周边区段做进一步的遗传分析，找出与这种疾病直接相关的基因。第二，如果第一点暂时做不到，我们也可以将找出的与疾病表型最相关的差异位点群作为诊断或预测这种疾病的代理标记（Proxy），即如果某个人的基因组在这些位点上与正常人的基因组存在差异，那么他患有这种疾病的风险可能比较大。总之，通过这种技术，我们可以快速简便的将基因组中的遗传差异(Genotype)与表现型(Phenotype)联系起来，为后续研究打下了很好的基础。尤其是伴随着新一代测序技术的产生（比如 Illumina公司的快速测序技术和ABI公司的SOLiD 系统技术），这种GWA分析有着非常好的应用前景，比如基于疾病分析的个体化医疗（Personalized Medicine），比如基于品质和产量分析的作物育种等等。

当然，现在这种方法还并不十分完善，主要是太依赖于统计分析了，所以假阳性（False Positive)和假阴性（False Negative)结果还是比较多的。比如说吧，通过这种方法找到的基因有可能和表型很难联系到一起（当然不排除我们现有认识还比较肤浅的成分），但统计结果却很显著，造成假阳性。再比如，有些在研究单一位点的试验中成立并且其生物学意义也合情合理的相关性位点在这种大规模的基因组水平分析中却由于统计显著性的缘故被排除掉了。但不管怎么说，至少这种方法为我们进一步研究基因功能提供了一个基本平台，相信通过后续研究的去芜存菁以及这种方法自身的改进，应该可以让我们在后基因组时代的探索征途中迈出坚实的一步。正如本文上方的插图，也许这张地图由于时代和技术的原因在很多细节上还非常模糊，但它毕竟已为我们勾勒出了这个世界的轮廓。

研究设计原则

表型的选择

确定研究的表型是研究设计中的首要问题。研究表型的选择应当尽量基于以下3个原则

:原则一:选择遗传度较高的疾病或表型

疾病的遗传度(Heritibility,h2)表示疾病(或表型)在多大程度上受遗传因素的影响。低遗传度的疾病会降低遗传学关联研究的把握度。

原则二:性状优于疾病的原则

疾病的状态有时很难测量、或者模糊不清,有时则多种疾病混在一起而难以判断。例如,T2D是一种诊断相对比较明确的疾病,但是有很多表面上健康的人患了T2D却不知晓,而有人认为心理疾病的诊断尤其不够精确,比如精神分裂症、双相情感性精神障碍和孤独症等,但是这些疾病的诊断已经足够发现致病的遗传因素。又如,脑卒中很明显有不同的发病机理(比如,心脏或者主动脉栓子脱落,或者脑出血),但是临床上却常常同时出现而很难区分。基于以上原因,研究疾病相关数量表型有时要优于研究疾病状态。

原则三:选择测量简单、准确和遗传度高的数量表型

尽可能选择那些反映疾病危险的数量表型(比如BMI,是糖尿病和其他许多疾病的危险因素)、有助于区分疾病临床亚型的表型(如胰岛素释放和胰岛素敏感性),或者那些用来诊断疾病的表型(如空腹血糖用来诊断糖尿病)。数量表型测量的难易程度直接和该表型的遗传度相关,因为降低测量误差(比如通过重复测量),降低噪音和总体变异,理论上就增加了该数量表型的变异可以由遗传因素解释的比例大小。例如,单次测量的收缩压的遗传度为0.42,然而多次测量的连续观察的收缩压其遗传度可以达到0.57。

近期Nature杂志推出了基因组分析方法的专辑，有兴趣的读者不妨一看

Magnus Nordborg & Detlef Weigel （2008）Next-generation genetics in plants. Nature 456:720-723

Peter Donnelly (2008) Progress and challenges in genome-wide association studies in humans. Nature 456:728-731

Matthew V. Rockman (2008) Reverse engineering the genotype–phenotype map with natural genetic variation. Nature 456:738-744

联系信箱：

粤ICP备09063491号

热点排行