Парсинг данных из GENBANK

By | 12 June 2011

Про парсинг генетических данных написано очень много и Интернет наполнен информацией о различных библиотеках на различных языках, поэтому я не буду сейчас в деталях останавливатся на этом вопросе.  Для нашей задачи – а именно подготовка генетических данных для выравнивания и объединения в единый файл (чтобы произвести реконструкцию филогенетического дерева), мы воспользуемся готовой утилитой на Biopython на сайте: http://rocaplab.ocean.washington.edu/tools/genbank_to_fasta

Прелесть именно этого сервиса в возможности экстрагирования в заголовок записи в формате fasta любого типа информации. Для нас важно, чтобы этой информацией было только имя вида ящерицы. Почему – станет ясно из следующего практического упражнения, когда нам будет необходимо совместить файлы с отдельными генами в общий файл и соответсвие последовательностей будет определяться именно на основе имени вида.

Хочу подчеркнуть одну полуфилософскую вещь. Исторически так получилось, что когда я только начинала заниматься обработкой данных, интернет и обращение к данным через интеренет – были  роскошью, поэтому все данные и программы хотелось получить в локальный доступ. Теперь ситуация радикально поменялась, и очень часто мой персональный компьютер намного слабее мощностей веб-серверов. Поэтому не надо бояться пользоваться онлайн ресурсами для обработки данных. В тоже время, если доступ к Интернету ограничен или дорог,  рекомендую скачать локальную версию всех описанных выше программ.

Для конверации наших файлов в формате .gb мы:

  1. Заходим на сайт по ссылке выше, в разделе General Options нажимаем на кнопку Browse… и выбираем один из наших файлов в формате GB.

    Выбрать файл для обработки

  2. Прокручиваем страницу вниз до раздела Extract Whole Sequence и отмечаем Extract DNA sequence of the whole record, not individual features. The FASTA header line will be the organism.

    Загрузить целиком весь файл

  3. Нажимаем Make Fasta File! После этого мы будем перемещены на результирующую страницу, которую нужно промотать вниз и нажать на сообщение: The conversion was a success. You can download the output file by clicking here!
  4. Сохраняем файл в нашу рабочую директорию и не забываем ставить расширение файла .fasta

    Сохранить файл на локальном компьютере

  5. Повторяем операцию для трех оставшихся файлов genbank. В результате наша рабочая директория будет выглядеть примерно следующим образом:

    Результат для всех блоков генетического кода

  6. Последний и очень важный шаг. В данный момент имена видов ящериц разделены пробелом. Это недопустимо для большинства программ. Поэтому с помощью Find and replace в любом текстовом редакторе необходимо произвести замещение пробела на нижнее подчеркивание (открываем файл fasta > Find and replace> заменяем «» на «_»)

Теперь наши файлы готовы для процедуры выравнивания в Mafft.
Скачать готовые файлы в формате fasta можно отсюда

2 thoughts on “Парсинг данных из GENBANK

  1. Alex

    Анна, скажите, а вы не могли бы приладить к сайту RSS?

    1. Anna Post author

      спасибо за комментарий! сделаем!:)

Comments are closed.