Tag Archives: батч-обработка

Скрипт для быстрого анализа покрытия генов в базе GENBANKBiopython script to analyse gene coverage in GENBANK for a given taxa

В связи с тем, что объемы информации в базе генетических данных GENBANK растут невероятными темпами, очень часто пользователям приходиться выяснять покрытие генов для определенной таксономической группы. Например, перед тем как провести реконструкцию филогенетического дерева, хочется узнать какие гены являются наиболее полно представленными в базе. При “ручном” решении задача является очень трудоемкой – так как нужно… Read More »

Использование биопитона для батч-обработки фаста-файлов с помощью Mafft

При обработке больших массивов генетических данных очень часто возникает необходимость провести выравнивание последовательностей для отдельных генов в батч-режиме разными методами. Чтобы ускорить такой процесс был написан скрипт на биопитоне, позволяющий автоматизировать эту задачу. В данном скрипте используется пример с программой MAFFT, но при необходимости скрипт можно запускать и с использованием иных программ для выравнивания нуклеотидных… Read More »

Чтение fasta-файлов, их разбивка и объединение

Очень часто возникает задача разбивки и слияния фаста-файлов. Например, это может потребоваться при создание файлов с внешними группами (outgroups), при слияние нескольких фаста-файлов и т.д. Ниже приводяться два небольших скрипта, позволяющих автоматизировать эти две задачи. Первый скрипт позволяет добавить данные из одного фаста-файла в другой (аналог операции append), второй скрипт позволяет разбить фаста-файл с большим… Read More »

Использование LocalBlast (или BLAST+) для поиска и загрузки генетических данных

Для ускорения процесса поиска данных через BLAST в скрипт для поиска и загрузки данных с помощью интерфейсов BLAST/Entrez.  добавлен небольшой блок кода, который позволяет обращаться непосредственно к локальной базе данных BLAST через интерфейс BLAST+.  При использовании локальной базы данных время поиска сокращается в ~4 раза. Для запуска скрипта и поиска в локальной базе данных потребуется установленная на… Read More »

Скрипт для парсинга данных через BLAST/Entrez с автоматической конвертацией в формат .FASTA

Одна из наиболее трудоемких задач встречающихся в биоинформатике, филогенетике и эволюционной биологии, как неоднократно писалось на этом сайте, это сбор и подготовка генетических последовательностей из специализированных баз данных. В связи с тем, что для некоторых задач поиск данных, оценка их качества, конвертация из одного формата в другой, получение определенным образом отформатированных заголовков, и многое другое… Read More »

Biopython для парсинга данных из GenBank – интерфейсы BLAST/Entrez

Очень часто в работе с большими объемами генетических данных возникает необходимость загрузить и обработать нуклеотидные или аминокислотные последовательности в батч-режиме. В данном упражнении мы покажем как, с использованием небольшого скрипта на языке python,  можно осуществить поиск данных через интефейсы BLAST/Entrez. Задача данного упражнения и скрипта: найти все записи в базе Genbank через интерфейс BLAST (нуклеотидный… Read More »

Парсинг данных из GENBANK

Про парсинг генетических данных написано очень много и Интернет наполнен информацией о различных библиотеках на различных языках, поэтому я не буду сейчас в деталях останавливатся на этом вопросе.  Для нашей задачи – а именно подготовка генетических данных для выравнивания и объединения в единый файл (чтобы произвести реконструкцию филогенетического дерева), мы воспользуемся готовой утилитой на Biopython… Read More »

Батч-загрузка данных из GENBANK

Первое, о чем нужно помнить, это то, что записи в Genbank стандантизированы лишь частично, поэтому после батч-обработки последовательностей, рекомендуется проверить полученные файлы вручную (в третье части этой практической работы мы увидим к чему может привести отсутствие проверки). Наша цель сегодня – загрузить несколько различных участков ДНК кода для всех видов Ctenotus, доступных в Genbank. Информация… Read More »

Подготовка данных для моделирования филогенетического дерева

В  предыдущем упражнении мы проверили каким образом можно произвести загрузку и выравнивание нуклеотидных последовательностей из БД GENBANK вручную. В целом, исходя из моего опыта, ручная проверка нуклеотидных последовательностей – задача очень трудоемкая и в определенный момент, если общая протяженность нуклеотидной последовательности, состоящей из разных генов, превышает 7Кб (7000 нуклеотидов), возникает потребность в автоматизации процесса, чтобы… Read More »