Monthly Archives: February 2013

Использование FastQC для оценки качества данных полногеномного секвенирования (на примере данных Solexa/Illumina)

Первым важным шагом при получении данных полногеномного секвенирования является оценка их качества. В этом практическом упражнении мы используем программу FastQC для оценки качества данных полногеномного секвенирования и разберем, каким образом можно использовать простой скрипт на bash для батч-обработки файлов fastqc. Использование батч-скрипта необходимо для того, чтобы автоматически обработать все сырые файлы (они будут в формате tar.gz), пришедшие с машины по секвенированию – обычно с одной линейки Illumina их будет 20-25 штук.

Для выполнения данного упражнения потребуются:

  • загруженная программа FastQC
  • Lunix система (или установленный cygwin для Windows)

Создадим директорию data

> mkdir data

Разархивируем в данную директорию данные E. coli K-12  (~168 Мб).  В архиве находятся данные в формате fastq, paired-end. Всего архив содержит два файла (одна пара).

Перейдите в директорию программы FastQC

> cd FastQC

Сделайте файл fastqc исполняемым

> chmod 755 fastqc

Вызовите описание комманд программы FastQC и прочитайте это описание

>./fastqc –help

Теперь скачайте скрипт fastqc_batch.sh (логин – public@phylogenetics.ru; пароль: cornus)

Изучите содержимое скрипта:

Построчно код делает следующее:

  1. создать директорию, в которую будут помещены все результаты обработки данных Illumina программой FastQC
  2. создать директорию, в которую будут перемещены картинки по оценке качества ридов (Per base quality) для всех обрабатываемых файлов в директории
  3. для файлов в директории с расширением txt поместить в массив названия всех файлы убрав расширение
  4. для каждого элемента массива (то есть для каждого файла) исполнить:
    • вывести на экран название обрабатываемого файла
    • передать программе fastqc файл и указать в качестве выходной директории папку Output
    • скопировать из папки Output файл per_base_quality.png в папку per_base_qc и переименовать согласно названию исхдного файла
    • вывести на экран сообщение о том, что файл обработан
  5. перейти к пункту 4

В данном случае скрипт предельно прост: в цикле обрабатываются все сырые файлы fastq с использованием программы FastQC. Кроме того, в отдельную папку перемещаются (с переименованием) картинки качества рида по метрике Per base quality (качество Phred-score для каждого нуклеотида). Это удобно сделать для того, чтобы бегло отсмотреть результаты оценки всех файлов с сырыми данными и выделить файлы низкого качества. Также можно сгруппировать и остальные картинки по всем файлам.

Сделайте скрипт исполняемым

> chmod 755 fastqc_batch.sh

Если вы редактировали скрипт под Windows/Mac и затем перенесли в Linux, замените символ конца строки

>sed -i ‘s/\r$//’ ./fastqc_batch.sh

Запустите скрипт

> ./fastqc_batch.sh

pr24_1

После того, как скрипт будет выполнен, перейдите в директорию per_base_qc. В ней должно оказаться два файла-картинки в формате png, на которых будут нарисованы графики  Phred-score для каждого нуклеотида

pr24_2

Откройте один из файлов и изучите график

pr24_3

Результат работы программы FastQC и смысл каждого графика мы разберем в деталях в следующей заметке.