-
1 课内学习
-
2 课外拓展
第二节 真核基因组的结构与功能

一、真核基因组具有独特的结构
真核生物的基因组庞大,具有以下结构特点:
1.基因的编码序列所占比例远小于非编码序列
2.高等真核生物基因组含有大量的重复序列
3.真核基因组中存在多基因家族和假基因
4.大多基因具有可变剪接,80%的可变剪接会使蛋白质的序列发生改变。
5.基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞的基因组为二倍体。
二、真核基因组中存在大量重复序列
(一)高度重复序列(highly repetitive sequence):重复频率可达106以上,不编码蛋白质或RNA。按其结构特点分:
1.反向重复序列(inverted repeat sequence)两个相同顺序的互补拷贝在同一DNA链上反向排列而成,重复单位长度约300 bp,多数散在于基因组中,总长度约占人基因组的5% 。

2.卫星DNA(satellite DNA)主要存在于染色体的着丝粒区,重复单位一般由2~10 bp组成,成串排列,在人基因组中约占10%。

功能:
1.参与复制水平的调节,存在于DNA复制起点区的附近,是一些蛋白质(包括酶)的结合位点。
2.参与基因表达的调控,可以转录到核内不均一RNA分子中,有些反向重复序列可以形成发夹结构,有助于稳定RNA分子。
3.参与染色体配对,如卫星DNA成簇样分布在染色体着丝粒附近,可能与染色体减数分裂时染色体配对有关。
(二)中度重复序列(moderately repetitive sequence):重复数十至数千次,大多数与单拷贝基因间隔排列。依照重复序列长度分:
1.短散在核元件( short interspersed nuclear elements, SINEs)平均长度约300 bp~500 bp,与长度约为1000 bp的单拷贝序列间隔排列。拷贝数可达数十万。如Alu家族、KpnI家族、Hinf家族。
2.长散在核元件( long interspersed nuclear elements, LINEs)平均长度为3500 bp~5000bp,与长度约为13000bp的单拷贝序列间隔排列。
rRNA基因重复序列属于中度重复序列。
(三)单拷贝序列(single copy sequence)或低度重复序列:在单倍体基因组中只出现一次或数次,大多数为蛋白质编码的基因。
三、真核基因组中存在大量的多基因家族与假基因
多基因家族(multigene family)是指由某一祖先基因经过重复和变异所产生的一组在结构上相似、功能相关的基因。可分为2类:
1.基因家族成簇地分布在某一条染色体上,同时发挥作用,合成某些蛋白质。如组蛋白基因家族成簇的集中在7号染色体。

2.基因家族的不同成员成簇地分布于不同染色体上,编码一组功能上紧密相关的蛋白质。如球蛋白基因家族。

假基因(psuedogene)基因组中存在的一段与正常基因非常相似但不能表达的DNA序列。以Ψ来表示。根据其来源分为:
1.未加工假基因(复制假基因):复制后基因发生序列变化而失去功能,这样产生的假基因带有内含子
2.加工假基因:基因转录后加工成熟的RNA经逆转录生成互补cDNA,后者在整合到基因组中称为加工假基因
四、线粒体DNA结构有别于染色体DNA
线粒体基因组编码37个基因,包括13个编码呼吸链多酶体系的一些多肽的基因、22个编码mt-tRNA的基因、2个编码mt-rRNA(16S和12S)的基因。

五、人基因组中有两万个基因
人类基因组的染色体DNA包括22条常染色体和2条性染色体,最长的1号染色体,约250Mb,含5000多个基因;最小的21号染色体,约47Mb,含756个基因。
基因在染色体上并不是均匀分布。基因密度最大的是第19号染色体,密度最小的是第13号和Y染色体。
染色体上存在着无基因的“沙漠区”,即在500kb区域内,没有任何基因的编码序列。


