Расшифровка терминов часто используемых при сборке генома

By | 9 February 2014

Начнем с термина использованного в заголовке статьи.

Сборка генома (genome assembly) – процесс создания генома из большого числа коротких нуклеотидных последовательностей (ридов) длинной от 50 нк (нуклеотидов) до нескольких тысяч. Обычно сборка генома включает в себя ряд этапов:

  1. Первичная обработка и чистка данных
  2. Сборка ридов в контиги (contings)
  3. Сборка контигов в скаффолды (scaffolds)
  4. Секвенирование и закрытие дыр (гэпов – от англ. gaps)

Каждый из перечисленных этапов осуществляется многократно и часто в несколько итераций в зависимости от результатов следующего или текущего шага.

Рид (read) – короткая нуклеотидная последовательность. Обычно рид состоит из нескольких блоков последовательностей разного типа и присутствие или отсутствие этих блоков будет меняться в зависимости от технологии секвенирования, а также от этапа обработки.

Рассмотрим пример рида полученного методом секвенирования paired-end и структуру блоков, которые его составляют.

Размер вставки и размер фрагмента

Размер вставки и размер фрагмента

Размер вставки (insert size) – часть нуклеотидной последовательности между двумя парными адаптарами (paired-end adaptors).

Размер фрагмента (fragment size) –  часть нуклеотидной последовательности с учетом длины адапторов на концах.

Внутреннее парное расстояние (mate inner distance) – внутреннее расстояние между концами двух ридов.

Таким образом, важно помнить, что размер вставки обычно включает в себя длины ридов и расстояние между ними. Это расстояние зависит от метода секвенирования и его нужно уточнять у компании или коллег, которые делают лабораторную часть.

Глубина секвенирования (sequencing depth) – при получении сырых геномных данных, каждый участок генома оказывается (чаще всего) пройденным несколько раз. Количество раз, которое был отсеквенирован каждый нуклеотид, называется глубиной покрытия и обычно описывается как 10Х, 20Х, 50Х и т.д. Глубина покрытия позволяет выявить возможные ошибки считывания нуклеотидов на машины и определить истинно полиморфные позиции в геноме.

Покрытие (coverage) – в настоящее время понятие покрытие используется как минимум в трех значения

  1. Теоретическая глубина секвенирования – рассчитывается по формуле:

    (общее число полученных ридов * длина рида ) / теоретическая длина генома

  2. Теоретический или эмпирический размах покрытия собранного генома, рассчитывается как:

    размер собранного генома / теоретическая длина генома

  3. Эмпирическая глубина покрытия, рассчитывает как:

    (общее число полученных ридов * длина рида ) / размер собранного генома

Граф де Брейна (de Bruijn graph) – математический алгоритм, лежащий в основе большинства программ-сборщиков ридов в контиги (этап 2 выше). В связи с тем, что интернете (в том числе в википедии) есть много статей детально описывающих и математическую, и техническую компоненту алгоритма, мы не будем останавливаться на принципах работы графа де Брейна в данной статье. Однако отметим, что наиболее важным с прикладной точки зрения параметром алгоритма является т.н. размер кмера (от англи. k-mer size, читается как кей-мер).

Кмер (kmer) –это фрагмент нуклеотидной последовательности фиксированной, часто небольшой, длины (К). Обычно длина должна быть делима на 4. Типичный размер кмера – 24, 36, 48, 56, 96 и т.д. Кмер используется для нахождения перекрывающихся участков между отдельным ридами. Логичным является следствие, что чем длина кмера меньше, тем более вероятно нахождение последовательности кмера во многих ридах.

Контиг (contig) – это консенсусная непрерывная нуклеотидная последовательность составленная из отдельных перекрывающихся ридов. Контиги являются первым исходныи результатом обработки сырых ридов с помощью программы-сборщика генома.

Скаффолд (scaffold) – это последовательность контигов расположенных и ориентированных в порядке их расположения на (теоретической) хромосоме. Для получения скаффолдов необходимы как сами контиги, так и вспомогательная информация (например, референсный геном, или данные paired-end) которая позволит расположить континги относительно друг друга.