Category Archives: Биоинформатика

Биоинформатика и обработка данных сиквенирования следующего поколения

Использование MAFFT для выравнивания нуклеотидных последовательностей при реконструкции больших филогений

Публикуем третью часть серии туториалов, посвященных построению больших филогенетических деревьев. В этом туториале мы рассказываем, как выравнивать нуклеотидные последовательности (матрицы) с помощью программы MAFFT, а также как объединить различные геномные участки в единую матрицу с помощью программы SequenceMatrix. Программа MAFFT удобна тем, что позволяет быстро и точно выравнивать большие матрицы нуклеотидных последовательностей. Кроме того, в… Read More »

Создание диаграммы Венна для сравнения транскриптомов и геномов по результатом обработки OrthoMCL

Один из наиболее наглядных графиков, используемых в научных статья для сравнения транскриптомов и геномов – это график попарного перекрытия ортологов, транскриптов или генов, найденных в каждом сравниваемом транскриптоме или геноме. Чаще всего для отрисовки такого графика используется диаграмма Венна, так как она очень наглядна и понятна в интерпретации. Тем не менее, удобных иструментов для трансформации данных… Read More »

Расшифровка терминов часто используемых при сборке генома

Начнем с термина использованного в заголовке статьи. Сборка генома (genome assembly) – процесс создания генома из большого числа коротких нуклеотидных последовательностей (ридов) длинной от 50 нк (нуклеотидов) до нескольких тысяч. Обычно сборка генома включает в себя ряд этапов: Первичная обработка и чистка данных Сборка ридов в контиги (contings) Сборка контигов в скаффолды (scaffolds) Секвенирование и… Read More »

Сборка генома de novo с использованием программы Velvet Using Velvet for de novo genome assembly

Представим, что Вы получили свои первые paired-end данные от Illumina и хотите провести первичную сборку генома в т.н. контиги (contigs). Рассмотрим сборку на примере программы Velvet. Прежде чем приступать к сборке, убедитесь в следующих моментах: У вас есть два (или больше, но четное число) FASTQ файла (ов) с forward и reverse последовательностями (ридами, reads –… Read More »

Введение в программу RIntroduction to R (basics)

Большая часть задач в филогенетике, эмолюционной биологии и биоинформатике решается в настоящее время в программе R. Это бесплатная программа, состоящая из множества отдельных пакетов (модулей, packages), доступ к которым осуществляется через обший интерфейс. Все пакеты разрабатываются различными людьми и обычно каждый пакет имеет какую-то свою специализацию. Например, есть пакеты (ggplot2), который позволяют создавать красивые графики;… Read More »

Детектирование позитивного отбора в геномных последовательностях. Теория.Detecting positive selection in genetic sequences. Theory

Одним из наиболее интересных объектов приложения филогенетических реконструкций в эру геномики является поиск нуклеотидных позиций и ветвей филогенетического дерева находящихся (или находившихся) под позитивным отбором. Сразу оговоримся, что в данном случае термин позитивный отбор (positive selection) не является полной аналогией термина «положительный отбор» принятого в эволюционной биологии. Под позитивным отбор подразумевается следующее. При сравнении двух… Read More »

Использование Sequin для отправки данных в GENBANK. Часть 3. Загрузка данных через SequinUsing SEQIN to submit data into GENBANK. Part 3. Submit data to GENBANK with Sequin

После того, как границы участка кодирующего протеин были определены (часть 1) и нуклеотидные последовательности были выровнены (часть 2) можно приступать к основной части загрузки последовательностей в программу Sequin. Загрузите программу Sequin с сайта NCBI >>>. После запуска программы, появится окно вида: Нажмите кнопку Start new submission. В следующем окне введите название статьи или проекта в рамках которого было произведено секвенирование, а… Read More »

Использование Sequin для отправки данных в GENBANK. Часть 2. Выравнивание последовательностей с учетом фрейма считывания Using Sequin to submit data into GENBANK. Part 2. Sequence alignment and reading frame

После того, как были определены (смотреть часть 1 этого упражения) границы участка, транслирующегося в аминокислоты (будем называть этот участок экзоном), нам необходимо выровнять остальные гомологичные последовательности относительно референсного. Референсной нуклеотидной последовательностью лучше всего выбирать наиболее длинную из отсеквенированных. Кроме того, именно на этой референсной последовательности нужно определить начальную позицию кодирующего блока как показано в части… Read More »

Использование Sequin для отправки данных в GENBANK. Часть 1. Поиск CDS в нуклеотидных последовательностяхUsing Sequin to submit data into GENBANK. Part 1. Searching start/end position of CDS

Исследователям, работающими с генетическими данными, очень часто бывает необходимо опубликовать полученные новые генетические или геномные последовательности в базе данных GENBANK. К сожалению, процесс загрузки данных в GENBANK очень трудоемок и не всегда очевиден, особенно если нужно загрузить большое число нуклеотидных последовательностей. В этом практическом упражнении (в трех частях) мы разберем все основные этапы подготовки нуклеотидных последовательностей к… Read More »

Парсинг fastq файлов от 454 Life Sciences с помощью biopythonParsing fastq (*.fna) files from 454 Life Sciences using biopython

Некоторое время назад на сайте был задан вопрос: можно ли переделать скрипт для парсинга больших объемов данных из GenBANK так, чтобы из большого fasta/fastq файла выбрать все записи с определенным(и) идентификатором(ами)? Например, из данных от 454 Life Sciences нужно экстрагировать только последовательности (риды) соотвествующие некоторому идентификатору. Для того, чтобы выполнить такую задачку проще написать небольшой… Read More »