DNA测序
人类基因组计划的一个主要任务是要测定人类基因组中DNA的核苷酸的排列顺序。由于遗传信息是以密码的形式体现在DNA的排列顺序之中,所以首先要了解和测定DNA的核苷酸排列顺序,因此,DNA测序便成了探索基因奥秘的重要手段之一。
最初,测定DNA的核苷酸序列是非常难的事情,一是DNA分子十分巨大,提取过程中容易断开,不易得到完整的DNA分子;另外,即使得到不损坏的DNA分子,由于含有核苷酸太多,分析起来也十分困难;再有,过去没有找到特异地切开DNA链的内切酶。所以人们迟迟没有找到测序的有效方法。直到20世纪70年代,发现了限制性内切酶以后,再加上采用同位素标记、放射自显影和凝胶电泳新技术,才出现测序方法的革新。正是在这方面,因为英国分子生物学家桑格与美国科学家马克希姆和吉尔布特的卓越贡献,他们获得了1980年诺贝尔医学奖。
我们知道,DNA分子特别长,不便于对整个分子进行分析,因此,先用内切酶把它切成一段一段的,然后对DNA的小片段进行分析,最后再按重叠片段一个个连起来,得出整个DNA分子的核苷酸序列。例如,有一个DNA片段上面有AATCGT序列,另有一个DNA片段上面具有TTGCAA序列,还有一个DNA片段具有GTTCAT序列。这样根据重复序列,把3个DNA片段连接起来,就可以知道这个大的DNA分子具有TTGCAATCGTTCAT序列。这好比我们要了解一幢大楼的内部设施,不可能一个人同时调查一幢大楼,而要分层调查,先查一层设施,再查二层、三层和四层……最后汇总每层调查资料,便能查清这幢大楼的整体设施情况。DNA测序也是这样,要采取分段测序,最后再绘出整个DNA序列图。
那么,怎么对一段DNA进行序列分析呢?
首先,让我们来了解一下DNA序列分析的原理和基本技术。目前,主要采用英国科学家桑格发明的“双脱氧核糖核酸末端终止法”进行测定。

DNA测序流程图
测序反应实际上就是一个在DNA聚合酶作用下的DNA复制过程。具体方法是:以一条待测序的DNA单链为模板,在一个测序引物的牵引下,通过DNA聚合酶的作用,利用DNA的合成原料——4种脱氧核糖核苷酸,即dATP(简写为I),dGTP(简写为G),dCTP(简写为C),dlvrP(简写为T),使新合成的链不断延伸。但是,如果在合成原料中加入一些用4种不同荧光化合物(可发出红、绿、蓝、黑4种荧光)分别标记4种双脱氧核糖核苷酸(即ddFP、ddATP、ddCTP、ddGTP)。它们可以“鱼目混珠”地参与DNA链的合成,可是它们是缺少“零件”的“废物”,不能发挥正常核苷酸的作用,因此,当它们被结合到链上以后,它的后面便不能再结合其他核苷酸,链的延伸反应就此停止了。

DAN测序图谱
这就像小孩儿们玩“手拉手”的游戏,有个别的孩子一只手残废了,因此只能用一只手与前面的孩子手拉手,另一只手不能与后面的孩子手拉手,于是许多孩子手拉手组成的长队伍就中断了。这样,在DNA合成反应中,最终便会随机产生许多大小不等的末端是双脱氧核苷酸的DNA片段,这些片段之间大小相差一个碱基。然后,通过聚丙烯酰胺凝胶电泳,将相差一个碱基的各种大小不等的DNA片段分离开来,再根据电泳条带的不同荧光反应,就可以在凝胶上直接地读出这些有差异的代表其末端终止位置处碱基种类的片段,如红色荧光代表T、蓝色荧光代表C、黑色荧光代表G、绿色荧光代表A,这样一系列的连续片段就代表了整个模板DNA的全部序列。这种方法已利用现代精密仪器和机器人技术实现了DNA测序的高度自动化。
目前,以凝胶分离为基础的测序技术,一次可以读出500~700个碱基序列。为了保证测出的序列具有高度的准确性,科学家们一般在DNA区域要反复测定10次左右。这样最终得到的序列错误率只有万分之一,即每一万个碱基只允许有一个碱基读错。人类基因组30亿个碱基对需要反复测定10次,这就意味着测序的实际工作量是300亿个碱基对。可见,完成人类基因组的测序工作是多么艰巨的任务。
为了尽快完成人类和其他生物的测序任务,科学家们还发明了其他一些更为简便、迅速的测序方法,如杂交测序、质谱分析、毛细管电泳测序,甚至可以用电子显微镜来直接观察序列。采用新方法大大加快了基因序列的测序速度。