Получение генетических данных из БД Genbank

By | 4 June 2011

Основным источником генетических данных на данный момент является международная база данных GenBank. База данных открыта для всех и позволяет осуществлять и загрузку и выгрузку данных всеми пользователями. Для поиска и получения данных регистарция необязательна.

Поиск и получение данных из GB может осуществляться с помощью нескольких интерфейсов:

  1. Самый простой и интутивно понятный интерфейс для получения и поиска генетических последовательностей (нуклеотидных, аминокислотных и белковых) называется Entrez Nucleotide,  и включает в себя три основных коллекции данных:  CoreNucleotide (the main collection), dbEST (Expressed Sequence Tags), и dbGSS (Genome Survey Sequences). Через этот интерфейс удобно искать последовательности по ключевым словам (например, вид, название гена, год публикации, авторы и т.д.)
  2. Более комплексный интерфейс – BLAST (Basic Local Alignment Search Tool) – позволяет искать совпадения на основании непосредственно нуклеотидных последовательностей, а также картировать найденные последовательности и сравнивать степень их совпадения друг с другом.
  3. Наиболее продвинутый, но в тоже время гибкий, интерфейс доступа к базе NCBI e-utilities. Он позволяет на програмном уровне обратиться к базе данных и получить данные в батч-режиме (много записей единым блоком). Написание скриптов возможно в общем-то на любом языке программирования, но уже доступны библиотеки под Perl (BioPerl), Python (Biopython) и др.

Все данные в GB хранятся в двух основных форматах:

  • Нативный формат GB (который так и называется genbank)
  • Один из наиболее широко распространенных форматов хранения и передачи генетических данных – fasta.

Принятых расширений для файлов обоих форматов пока что нет, но наиболее часто используемые следующие:

.gb, .genbank, .fas, .fasta, .fs

В любом случае, так как оба формата открытые, то парсинг (обработка) информации осуществляется через стандартные механизмы обработки текстовых документов (зарезервированные слова и симвология).  Ключевое отличие нативного формата Genbank от например формата fasta (с которым работают напрямую большинство программ в области биоинформатики, молекулярной биологии и филогенетики), заключается в избыточности информации и нежестких правилах ввода описательной информации о новых последовательностях. Именно поэтому парсинг записей полученных из БД  в батч-режиме очень часто является нетривиальной задачей.

В этом упражнении, однако, мы сфокусируемся на самом простом методе получения и загрузки данных из GB – когда нам необходимо получить данные сразу в формате fasta, название вида и гена известны, предварительный анализ нуклеотидных последовательностей не требуется. В нашем задании мы попробуем получить данные генетических последовательстей рода Ctenotus (Ктетонус) – род ящериц из смейства сцинковые. Во всех следующих практических заданиях мы будем продолжать работать с этим и еще одним родом (Lerista) австралийских ящериц.

  1. Перейти по ссылке http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide
  2. В главном поисковом окне ввести
  3. (*12S*) AND Ctenotus[Organism]

    и нажать кнопку Search. В данном случае мы указали, что хотим искать все записи, у которых в поле Organism стоит слово Ctenotus, а в любых других полях должно быть указано *12S* – это название митохондриального гена, который нам потребуется для дальнейшего анализа. Такая гибкость при указании названия гена очень часто является следствием нестрогих правил ввода записей в базу данных GenBank. Для построения более сложных запросов на главной поисковой странице entrez нужно перейти в раздел Advanced search.

  4. В результате поиска мы получим 6 записей из базы данных. Наиболее важная информация для нас следующая:
    • название вида
    • название гена и то, как именно он секвенирован (полностью или нет)
    • длина гена
    • accession ID – уникальный идентификатор записи в базе
  5. Пример результата поиска данных в БД Genbank

  6. Как мы видим, у нас есть три варианта просмотра записи – GenBank, Fasta и Graphics. По умолчанию, если мы нажмем на главную строчку вывода записи (с названием вида) то мы увидим запись в формате Genbank.Так как в этом практическом задании нас интересует получение последовательностей нуклеотидов в пригодном для непосредственного анализа формате, то мы выбираем опцию FASTA.  Полученная записать будет выглядеть следующим образом

    Формат записи генетических данных - FASTA

    Где собственно сама необходимая нам составляющая начинается со знака > и заканчивается в конце нуклеотидной последовательности.

  7. Скопируем эту запись в буфер и вставим в открытый пустой текстовый документ
  8. Пример записи Genbank в формате fasta

  9. Перейдем обратно на главную страницу с результатом поиска и повторим пункты 4-5 для пяти оставшихся нуклеотидных последовательностей
  10. Набор нуклеотидных последовательностей для 5 видов Ctenotus в формате fasta

    В результате все наши нуклеотидные последовательности будут сохранены в одном файле, который мы назовем Ctenotus.fasta. Важно понимать, что в данный момент наши записи находятся в невыровненном (not aligned) вложенном (Interleaved) формате. Именно он обычно является исходным форматом для всех дальнейших операций.

    Скачать данные, которые должны получится в результате этого практического упражнения

3 thoughts on “Получение генетических данных из БД Genbank

  1. Александр

    Хотелось бы пройти все практические руководства, но возникли трудности.
    1. В базе данных уже не 6, а 108 записей для 12S Ctenotus. Какие из них следует взять, чтоб это соответствовало данным руководства и чтоб можно было проверять в дальнейшем правильность своих действий.
    2. Не возможно скачать по ссылке данные, которые должны получиться в результате.
    Можно ли обновить это руководство, чтоб убрать эти проблемы?
    Спасибо!

    1. Anna

      1. скачивайте любые 6 (можете любые от 1 до 108) – в данном случае это ни на что не влияет и сравнивать вам надо с пониманием того, что происходит по смыслу, а не на картинках.
      2. данные по ссылке скачиваются – логин – public@phylogenetics.ru; пароль: cornus.

      1. Alex

        Большое спасибо! Данные скачал по приведенному вами логину.

Comments are closed.