Category Archives: Скрипты

Скрипты, описание программ, практические руководства, обзоры

Создание диаграммы Венна для сравнения транскриптомов и геномов по результатом обработки OrthoMCL

Один из наиболее наглядных графиков, используемых в научных статья для сравнения транскриптомов и геномов – это график попарного перекрытия ортологов, транскриптов или генов, найденных в каждом сравниваемом транскриптоме или геноме. Чаще всего для отрисовки такого графика используется диаграмма Венна, так как она очень наглядна и понятна в интерпретации. Тем не менее, удобных иструментов для трансформации данных… Read More »

Парсинг fastq файлов от 454 Life Sciences с помощью biopythonParsing fastq (*.fna) files from 454 Life Sciences using biopython

Некоторое время назад на сайте был задан вопрос: можно ли переделать скрипт для парсинга больших объемов данных из GenBANK так, чтобы из большого fasta/fastq файла выбрать все записи с определенным(и) идентификатором(ами)? Например, из данных от 454 Life Sciences нужно экстрагировать только последовательности (риды) соотвествующие некоторому идентификатору. Для того, чтобы выполнить такую задачку проще написать небольшой… Read More »

Использование FastQC для оценки качества данных полногеномного секвенирования (на примере данных Solexa/Illumina)

Первым важным шагом при получении данных полногеномного секвенирования является оценка их качества. В этом практическом упражнении мы используем программу FastQC для оценки качества данных полногеномного секвенирования и разберем, каким образом можно использовать простой скрипт на bash для батч-обработки файлов fastqc. Использование батч-скрипта необходимо для того, чтобы автоматически обработать все сырые файлы (они будут в формате… Read More »

Скрипт для быстрого анализа покрытия генов в базе GENBANKBiopython script to analyse gene coverage in GENBANK for a given taxa

В связи с тем, что объемы информации в базе генетических данных GENBANK растут невероятными темпами, очень часто пользователям приходиться выяснять покрытие генов для определенной таксономической группы. Например, перед тем как провести реконструкцию филогенетического дерева, хочется узнать какие гены являются наиболее полно представленными в базе. При “ручном” решении задача является очень трудоемкой – так как нужно… Read More »

Моделирование эволюции морфологических признаков – макроэволюционный подход. Пример скриптаEstimating continuous trait evolution with Brownian motion and Ornstein–Uhlenbeck proccesses

При макроэволюционном сравнительном анализе очень часто возникает необходимость обработки большого числа филогенетических деревьев в батч-режиме: например, при тестировании различных гипотез относительно эволюции морфологических признаков (статья Smith, Harmon et al. 2011) или при анализе скорости диверсификации (статья Rabosky and Lovette, 2007). Кроме того, нередко морфологический или экологический признак, эволюция которого оценивается с помощью филогенетического сравнительного анализа,… Read More »

Использование биопитона для батч-обработки фаста-файлов с помощью Mafft

При обработке больших массивов генетических данных очень часто возникает необходимость провести выравнивание последовательностей для отдельных генов в батч-режиме разными методами. Чтобы ускорить такой процесс был написан скрипт на биопитоне, позволяющий автоматизировать эту задачу. В данном скрипте используется пример с программой MAFFT, но при необходимости скрипт можно запускать и с использованием иных программ для выравнивания нуклеотидных… Read More »

Чтение fasta-файлов, их разбивка и объединение

Очень часто возникает задача разбивки и слияния фаста-файлов. Например, это может потребоваться при создание файлов с внешними группами (outgroups), при слияние нескольких фаста-файлов и т.д. Ниже приводяться два небольших скрипта, позволяющих автоматизировать эти две задачи. Первый скрипт позволяет добавить данные из одного фаста-файла в другой (аналог операции append), второй скрипт позволяет разбить фаста-файл с большим… Read More »

Использование LocalBlast (или BLAST+) для поиска и загрузки генетических данных

Для ускорения процесса поиска данных через BLAST в скрипт для поиска и загрузки данных с помощью интерфейсов BLAST/Entrez.  добавлен небольшой блок кода, который позволяет обращаться непосредственно к локальной базе данных BLAST через интерфейс BLAST+.  При использовании локальной базы данных время поиска сокращается в ~4 раза. Для запуска скрипта и поиска в локальной базе данных потребуется установленная на… Read More »

Скрипт для парсинга данных через BLAST/Entrez с автоматической конвертацией в формат .FASTA

Одна из наиболее трудоемких задач встречающихся в биоинформатике, филогенетике и эволюционной биологии, как неоднократно писалось на этом сайте, это сбор и подготовка генетических последовательностей из специализированных баз данных. В связи с тем, что для некоторых задач поиск данных, оценка их качества, конвертация из одного формата в другой, получение определенным образом отформатированных заголовков, и многое другое… Read More »

Biopython для парсинга данных из GenBank – интерфейсы BLAST/Entrez

Очень часто в работе с большими объемами генетических данных возникает необходимость загрузить и обработать нуклеотидные или аминокислотные последовательности в батч-режиме. В данном упражнении мы покажем как, с использованием небольшого скрипта на языке python,  можно осуществить поиск данных через интефейсы BLAST/Entrez. Задача данного упражнения и скрипта: найти все записи в базе Genbank через интерфейс BLAST (нуклеотидный… Read More »