拓展阅读三 基因组组装(genome assembly)

基因组组装是指基因组测序后将测得的各个短序列(读长,reads)拼接成连续完整序列的过程。由于生物基因组DNA太大,无法直接进行测序,因此在测序前要将基因组随机打断成短片段,构建克隆重叠群,然后进行测序。而测出的片段数量多、长度短、重叠高,要获取整个DNA片段序列,就需要把这些片段进行序列拼接(sequence alignment)(图1)。
图1 基因组序列组装示意
注:将DNA测序获得的片段拼接成一条完整的序列
基因组组装可分为如下几个主要步骤(图2中的步骤2、3、4)。寻找读长间重叠序列(overlap),常用的为基于deBruijin图数据结构分析法;重叠序列拼接成重叠群(contig);重叠群拼接成基因组框架(scaffold)。这些步骤必须借助相应的计算机软件进行。最后,还需利用引物延伸等方法进行缺口填补(gap filling)。
图2 基因组测序和组装基本步骤
【推荐阅读】
1. Myers EW, Sutton GG, Delcher AL, Dew IM, Fasulo DP,Flanigan MJ, Kravitz SA, Mobarry CM, et al. Science. 287 (5461):2196–204. 2000
2. Kamath Govinda M, Shomorony I, Xia F, Thomas A.Courtade, and N. Tse David NT. HINGE: long-read assembly achieves optimalrepeat resolution. Genome research 27, no. 5 (2017): 747-756.2017
3. https://en.wikipedia.org/wiki/Sequence_assembly
(杨生生 焦炳华)