Tag Archives: genbank

Использование Sequin для отправки данных в GENBANK. Часть 3. Загрузка данных через SequinUsing SEQIN to submit data into GENBANK. Part 3. Submit data to GENBANK with Sequin

После того, как границы участка кодирующего протеин были определены (часть 1) и нуклеотидные последовательности были выровнены (часть 2) можно приступать к основной части загрузки последовательностей в программу Sequin. Загрузите программу Sequin с сайта NCBI >>>. После запуска программы, появится окно вида: Нажмите кнопку Start new submission. В следующем окне введите название статьи или проекта в рамках которого было произведено секвенирование, а… Read More »

Скрипт для быстрого анализа покрытия генов в базе GENBANKBiopython script to analyse gene coverage in GENBANK for a given taxa

В связи с тем, что объемы информации в базе генетических данных GENBANK растут невероятными темпами, очень часто пользователям приходиться выяснять покрытие генов для определенной таксономической группы. Например, перед тем как провести реконструкцию филогенетического дерева, хочется узнать какие гены являются наиболее полно представленными в базе. При “ручном” решении задача является очень трудоемкой – так как нужно… Read More »

Использование биопитона для батч-обработки фаста-файлов с помощью Mafft

При обработке больших массивов генетических данных очень часто возникает необходимость провести выравнивание последовательностей для отдельных генов в батч-режиме разными методами. Чтобы ускорить такой процесс был написан скрипт на биопитоне, позволяющий автоматизировать эту задачу. В данном скрипте используется пример с программой MAFFT, но при необходимости скрипт можно запускать и с использованием иных программ для выравнивания нуклеотидных… Read More »

Чтение fasta-файлов, их разбивка и объединение

Очень часто возникает задача разбивки и слияния фаста-файлов. Например, это может потребоваться при создание файлов с внешними группами (outgroups), при слияние нескольких фаста-файлов и т.д. Ниже приводяться два небольших скрипта, позволяющих автоматизировать эти две задачи. Первый скрипт позволяет добавить данные из одного фаста-файла в другой (аналог операции append), второй скрипт позволяет разбить фаста-файл с большим… Read More »

Использование LocalBlast (или BLAST+) для поиска и загрузки генетических данных

Для ускорения процесса поиска данных через BLAST в скрипт для поиска и загрузки данных с помощью интерфейсов BLAST/Entrez.  добавлен небольшой блок кода, который позволяет обращаться непосредственно к локальной базе данных BLAST через интерфейс BLAST+.  При использовании локальной базы данных время поиска сокращается в ~4 раза. Для запуска скрипта и поиска в локальной базе данных потребуется установленная на… Read More »

Скрипт для парсинга данных через BLAST/Entrez с автоматической конвертацией в формат .FASTA

Одна из наиболее трудоемких задач встречающихся в биоинформатике, филогенетике и эволюционной биологии, как неоднократно писалось на этом сайте, это сбор и подготовка генетических последовательностей из специализированных баз данных. В связи с тем, что для некоторых задач поиск данных, оценка их качества, конвертация из одного формата в другой, получение определенным образом отформатированных заголовков, и многое другое… Read More »

Biopython для парсинга данных из GenBank – интерфейсы BLAST/Entrez

Очень часто в работе с большими объемами генетических данных возникает необходимость загрузить и обработать нуклеотидные или аминокислотные последовательности в батч-режиме. В данном упражнении мы покажем как, с использованием небольшого скрипта на языке python,  можно осуществить поиск данных через интефейсы BLAST/Entrez. Задача данного упражнения и скрипта: найти все записи в базе Genbank через интерфейс BLAST (нуклеотидный… Read More »

Объединение нуклеотидных последовательностей для построения филогенетического дерева

Одна из наиболее трудоемких задач это объединение отдельных участков генома в единый файл (формат NEXUS) и подготовка т.н. блоков для моделирования филогенетического дерева (gene partitioning). Для того, чтобы создать такой файл, мы воспользуемся программой SequenceMatrix. Эта программа замечательна не только тем, что создает правильные блоки и записывает блоки в nexus-файл со всей необходимой вспомогательной информацией,… Read More »

Парсинг данных из GENBANK

Про парсинг генетических данных написано очень много и Интернет наполнен информацией о различных библиотеках на различных языках, поэтому я не буду сейчас в деталях останавливатся на этом вопросе.  Для нашей задачи – а именно подготовка генетических данных для выравнивания и объединения в единый файл (чтобы произвести реконструкцию филогенетического дерева), мы воспользуемся готовой утилитой на Biopython… Read More »

Батч-загрузка данных из GENBANK

Первое, о чем нужно помнить, это то, что записи в Genbank стандантизированы лишь частично, поэтому после батч-обработки последовательностей, рекомендуется проверить полученные файлы вручную (в третье части этой практической работы мы увидим к чему может привести отсутствие проверки). Наша цель сегодня – загрузить несколько различных участков ДНК кода для всех видов Ctenotus, доступных в Genbank. Информация… Read More »