人类基因组(genome)是所有遗传信息的总和。包括核基因组(nucleargenome)与线粒体基因组(mitochondrialgenome)。核基因组是指人类单倍体细胞的24条DNA分子中的全部遗传信息,即24个DNA分子上3.2×109bp的遗传信息的总和,约编码2.0~2.5万个基因。线粒体基因组的DNA(mtDNA)是一条双链环状的DNA分子,mtDNA全长16569个碱基对(16569bp),共编码37个基因,其中2个rRNA、22个tRNA及13种蛋白编码基因,编码呼吸链及氧化磷酸化系统中的蛋白质。
一、真核生物的结构基因
真核生物的结构基因是割裂基因(split gene),由编码序列和非编码序列组成,两者相间排列,且两者的关系依mRNA剪切加工的方式不同而可以互换。
1. 外显子(exon)和内含子(intron)
基因的编码序列是外显子,基因的非编码序列是内含子。
2. GT-AG法则(GT-AG rule):
外显子和内含子接头区是高度保守的一致序列(consensus seqence),即每个内含子5′端起始的两个碱基是GT,3′端最后的两个碱基是AG,GT-AG是基因表达时剪切内含子和拼接外显子的剪接识别信号。
3. 侧翼序列(flanking sequence)
每个割裂基因中第一个外显子的上游和最末一个外显子的下游,都有一段不被不被转录的非编码区,称为侧翼序列(flanking sequence),包括启动子、增强子和终止子,他们对基因的表达起调控作用。
⑴启动子(promoter):位于基因转录起始点上游100~200bp范围,能与转录因子结合,启动基因转录。
⑵增强子(enhancer):位于基因转录起始点的上游或下游,是能特异性地与转录因子结合、增强基因的转录活性的一段DNA序列。
⑶终止子(terminator):由AATAAA和一段回文序列组成,AATAAA是多聚腺苷酸(polyA)附加信号,回文序列转录后形成发夹结构,阻碍RNA聚合酶的移动而终止转录。
二、基因表达(gene expression)
基因表达是把DNA分子中储存的遗传信息通过转录和翻译产生蛋白质或酶,或通过转录形成RNA发挥功能作用的过程。
㈠ 转录(transcription)
在RNA聚合酶催化下,以DNA的3′→5′单链即模板链(template strand)为模板,按照碱基互补方式(A=U,C≡G配对)合成RNA单链的过程。
转录的产物仅仅是mRNA的前体,即核内异质RNA(heterogenous nuclear RNA,hnRNA),它包含外显子、内含子和部分侧翼顺序。hnRNA不成熟,必须经过加工和修饰,才能成为有功能的mRNA。
1. 剪接(splicing):在剪切酶的作用下,将内含子非编码序列切除,再将外显子编码序列由连接酶拼接起来的过程。剪接发生在外显子与内含子交接处的GT和AG。
2. 戴帽(capping):在剪接后的hnRNA的5′端加上7-甲基鸟嘌呤核苷酸(m7GpppN)帽子,封闭RNA的5′端,有助于被细胞质中核糖体识别。
3. 加尾(tailing):在3′端加上200个腺苷酸,形成多聚腺苷酸(polyA)尾,使得RNA3′端稳定。
tRNA和rRNA的转录最后也要经过相应的加工和修饰过程,才具有功能。
㈡ 翻译(translation)
以mRNA为模板合成蛋白质的过程。蛋白质分子的空间结构由翻译后修饰决定。
三、基因的分类
1. 单一基因(solitarygene):又称单一序列(uniquesequence),在单倍体基因组中只有一份。
2. 基因家族(genefamily):
人类基因组中一些功能相似的基因成簇地排列在一起,称为基因家族,这些基因可同时发挥作用,也可在不同发育阶段表达,基因家族的类型有两种:
⑴基因簇(gene cluster):基因家族成员成簇地排列在同一条染色体上,同时或差次表达的蛋白质在功能上相关。例:α珠蛋白基因簇位于第16号染色体上(16p13),含1个ζ基因、2个α基因和2个假基因(ψζ和ψα);β珠蛋白基因簇存在于第11号染色体上(11p15),含5个功能基因(ε、Gγ、Aγ、δ、β)和1个假基因(ψβ),他们分别构成α和β珠蛋白基因簇,可在胚胎期、胎儿期、成人期差次表达。
⑵超基因家族(gene superfamily):基因家族的不同成员成簇地分布在不同对的染色体上,编码的蛋白质在功能上相同或紧密相关。例如:人类珠蛋白超基因家族的成员分布在16号和11号染色体上,共同构成珠蛋白超基因家族。
3.假基因(pseudogene):基因序列与具有编码功能的基因序列类似但不能表达基因的产物。例:α珠蛋白基因家族的ψζ和ψα基因及β珠蛋白基因家族的ψβ基因。
4. 串联重复基因(tandemrepetitive sequence):45SrRNA、5SrRNA以及各种tRNA基因呈串联重复排列,编码同一种或近乎同一种的RNA或蛋白质,他们的每个拷贝完全或几乎完全相同,但基因间间隔DNA(linkerDNA)相差很大。
四、基因组的组成
㈠单拷贝序列(singlecopy)
在基因组中仅有单一拷贝或少数拷贝。长度为800~1000bp。在人类基因组中约占45%,非基因序列也有单拷贝序列。
㈡重复多拷贝序列
占人类基因组的55%,是高度或中度重复DNA序列,将基因分隔开。依重复频率分:
1. 高度重复序列DNA(highlyrepetitive sequence)
⑴卫星DNA(satellite DNA):以5bp、10bp、20bp或200bp为一个重复单位,可以串联重复很多次,长度为几百kb。位于着丝粒、端粒或染色体臂的异染色质区,例如端粒序列-TTAGGG-可重复250~1500次。
⑵小卫星DNA(minisateliite DNA):由15~100bp组成的重复单位(富含GC),重复20~50次,长度为0.1~20kb的短DNA。
⑶微卫星DNA(microsatellite DNA):存在于基因组的间隔序列和内含子等非编码区,重复序列为1~6bp,长度小于100bp。如(CA)n和(CCG)n等。微卫星DNA区域在人类基因组中出现的数目和频率不同,表现为多态性(polymorphism)。在脆性X染色体综合征(FraX)、脊髓小脑共济失调等疾病中都发现微卫星DNA如(CAG)n、(CTG)n等的不稳定性,发生三核苷酸重复扩增突变。利用微卫星DNA标记可进行亲子鉴定。
2. 中度重复DNA(intermediaterepeat DNA)
指基因组内的散在重复序列(interspersed repeats sequence),DNA以分散方式分布。依重复序列长短又分为短散在核元件和长散在核元件。
⑴短散在核元件(shortinterspersed nuclear elements,SINEs)
SINE长度在100~500bp,重复拷贝数可达106次以上。Alu家族(Alu family)是人类基因组含量最丰富的中度重复序列,DNA长度282bp,约有30万~50万拷贝。Alu序列有一限制性内切酶AluⅠ的识别序列 AG↓CT,该位点被切成170bp和130bp片段,平均间隔5kb DNA就有一Alu顺序。
⑵长散在核元件(long interspersednuclear elements,LINEs)
LINE长度为6000bp~7000bp,重复拷贝数102~104次。KpnⅠ家族(KpnⅠfamily)是中度重复序列中第二大家族,DNA长度6.5kb(6500bp),拷贝数3000~4800个,KpnⅠ序列用限制性内切酶KpnⅠ消化,可切成1.2、1.5、1.8和1.9kb的片段。
三、人类基因组计划
人类基因组计划(humangenome project,HGP)旨在阐明人类基因组DNA长达3.2×109bp的序列,发现所有人类基因并阐明其在染色体上的位置,破译人类全部遗传信息。
㈠结构基因组学
包括四张图的制作:遗传图、物理图、转录图和序列图。
㈡功能基因组学(post-genomeera)
解析基因组的功能,对基因组表达调控的机制和表达产物的功能深入研究。

