第四节 连锁不平衡及其应用

DNA多态性(DNA polymorphisms):在人类基因组中存在着大量的序列变异,其中在群体中能以孟德尔遗传的方式传递到子代的变异称为DNA多态。一般认为多态性位点的等位基因频率需要>1%。多态性位点可以作为连锁分析和基因精细定位的遗传学标记。
DNA片段长度多态性:一般指重复片段的长度多态性。
DNA重复序列多态性:如微卫星序列多态性,2-4个核苷酸重复,如(CA)n。
在基因组中有数千个微卫星序列多态性,一般为复等位基因,多用于连锁分析。单核苷酸多态性 (SNPs),在人类基因组中有数百万计的SNPs,多用于关联分析。
连锁不平衡(linkage disequilibrium,LD):是指不同位点上各等位基因在群体中的非随机组合,即不同基因座上的各等位基因一起遗传到子代的频率明显高于其随机传递的频率。

D:连锁不平衡系数,fA1B1:单倍型A1B1群体频率,A1、B1:等位基因A、B的位点,pq:A1、B1的群体频率
在群体遗传学中,连锁不平衡是指在两个或者多个位点上的非随机关联性。连锁不平衡一般用D’或 r2值来度量。

致病基因突变(m)经若干代传递后,因为发生重组,只有致病突变相邻的染色体区域被一起传递到子代,连锁不平衡的范围变得很小(深蓝色区域)。
连锁不平衡的应用:关联分析
某致病突变发生之后,由于发生重组,离该致病位点越近的区域,越容易被一起传递到子代。经过多代之后,与致病基因位点一起传递下来的区域变得很小。由于该位点及其周围区域来源于若干代前的同一段染色体区域,这段区域的各个多态性位点之间即存在连锁不平衡。在特定人群中,某一段存在连锁不平衡的区域源于同一祖先。
利用这一特点,可以进行针对某种疾病或性状的关联分析(association study)。例如,在病例-对照研究中发现,某个SNP位点的等位基因频率与对照组有显著差异,即可推论该位点与这种疾病或性状存在关联。
全基因组关联分析(genome wide association study,GWAS)即是利用高通量的基因分型手段获得覆盖基因组的SNP基因型,从而进行基因型-表型的关联分析。
对关联分析结果的解释:
对疾病或性状存在显著关联的SNP位点并不代表功能上的联系,只是说明该SNP与致病基因位点间可能存在连锁不平衡(除非SNP本身就是致病突变,或与致病基因的表达有关)
要注意多重检验的调整,100万个SNP关联分析的显著性差异水平至少是P=5×10E-8。
对于复杂性状,每个易感基因位点的遗传相对风险(genetic relative risk,GRR)可能并不大,需要较大的样本量才能保证检验效能(power)。
第四节 连锁不平衡及其应用

在人类基因组中存在着大量的序列变异,其中在群体中能够以孟德尔遗传的方式传递到子代的变异称为DNA多态.这些变异以单核苷酸多态性(SNP)最为常见,另有微卫星(microsatellite)DNA序列多态性、重复序列多态性等。这些多态性多数并不影响个体的表型。通常,多态性位点的等位基因频率〉1%。因为多态性位点呈孟德尔遗传传递方式,因而可以作为连锁分析和基因精细定位的遗传学标记(详见第二章)。
连锁不平衡(linkage disequilibrium)是指不同位点上各等位基因在群体中的非随机组合,即不同基因座上的各等位基因一起遗传到子代的频率明显高于其随机传递的频率。如图6-7所示,某致病突变发生之后,由于发生重组,离该致病位点越近的区域,越容易被一起传递到子代。经过多代之后,与致病基因位点一起传递下来的区域变得很小。由于该位点及其周围区域来源于若千代前的同一段染色体区域,这段区域的各个多态性位点之间即存在连锁不平衡。例如,两个相邻的SNP位点,分别为A/G和G/T多态。,由于这两个位点之间存在连锁不平衡,单倍型(haplotype)A-G总在一起被传递到子代。如果一旦在这两个位点之间发生重组,A-G的单体型就被破坏。两个位点之间的连锁不平衡程度常用D’或r 2来度量,当D’和r 2=1时为完全连锁不平衡,一般认为两个位点间r 2>0.8时存在明确的连锁不平衡。

一般来说,存在连锁不平衡的区域总是比较小的,在100kb以内。在特定人群中,某一段存在连锁不平衡的区域源于同一祖先。利用这一特点,可以进行针对某种疾病或性状的关联分析(association study)。例如,在病例一对照研究中发现,某个SNP位点的等位基因频率与对照组有显著差异,即可推论该位点与这种疾病或性状存在关联。这种关联并不是病因学上的联系,即使能够排除并发因素的影响,也只能说明与疾病(或性状)存在关联的SNP位点与致病的基因位点与致病的基因位点间存在连锁不平衡,而不能说该SNP位点就是致病基因。诚然,存在连锁不平衡位点之间的物理学距离应该不远。
不同种族或民族在基因组的同一区域的进化历程不同,造成基因位点间的连锁不平衡在不同种族或民族之间存在差异。彼此之间存在连锁不平衡的多态性位点构成单倍型模块(haplotype block)。不同种族或民族的单体型模块结构不同。根据人类基因组单体型模块的分布信息,选取50万个以上的SNP位点即可覆盖整个基因组。原因在于,从理论上说,基因组上的任何点突变都会与其所在单体型模块的SNP存在连锁不平衡。
全基因组关联分析(genome wide association study,GWAS)即是利用高通量的基因分型手段获得覆盖基因组的SNP基因型,从而进行基因型-表型的关联分析。GWAS在代谢性疾病、心血管疾病、神
经系统疾病、肿瘤等复杂性状疾病的遗传学研究中已得到广泛应用。但对GWAS结果的解释需要注意以下几点:1.对疾病或性状存在显著关联的SNP位点并不代表功能上的联系,只是说明该SNP与致病基因位点间可能存在连锁不平衡(除非SNP本身就是致病突变,或与致病基因的表达有关);2.要注意多重检验的调整,100万个SNP关联分析的显著性差异水平应该是P〈5×10-8(0.05/1×10-6);3.对于复杂性状,每个易感基因位点的遗传相对风险(genetic relative risk,GRR)可能并不高,需要较大的样本量才能保证检验效能(power)。