Monthly Archives: April 2013

Эволюция экологической ниши рода Babiana семейства Ирисовых на Капском полуострове. Разбор методологии статьи (1)Climatic niche evolution – macroevolutionary analysis. Tutorial 1

Основная масса статей на сайте посвящена вопросам реконструкции филогенетических деревьев или биоинформатическими задачкам, но для биологов почти все такие задачи являются лишь подготовительными этапами для тестирования интересующей их макро- или микроэволюционнной или экологической гипотезы. Разберем подробнее как именно в настоящее время осуществляется тестирование макроэволюционных гипотез в статьях публикуемых в таких журнал как Evolution, American Naturalist, Ecology Letters, Proceedings B и др.

Для примера разберем гипотезу недавно обсужденную в статье Climatic niche evolution and species diversification in the Cape flora, South Africa опубликованную  в Journal of Biogeography. В данной статье авторы задают вопрос “Каким образом эволюционировала экологическая ниша рода Babiana семейства Ирисовых на Капском полуострове?” Более специфично они спрашивают – отличается ли скорость эволюции и направление отбора между экологической нишами видов, произростающих в биомах Финбош и Карру.

В связи с тем, что исходные данные к статье не прилагаются, мы будем использовать искуственные данные, что собственно говоря не меняет методологии и позволит разобрать все основные этапы анализа данных.

На Капском полуострове существует целый ряд экологических биомов. Представим, что в двух из них – Финбоше и Карру (см. карту ниже) произрастают виды некоторого рода (80 видов).

biomes

Климатически эти биомы очень отличаются и поэтому нас интересует, во-первых, в каком биоме обитал предок данного рода растений, и, во-вторых, при миграции из биома в биом – менялась ли климатическая ниша видов или они, наоброт, были консервативными и не смотря на изменение биома сохраняли анцестральные характеристики ниши.

fynbos

Растительность характерная для биома Финбош

karoo

Растительность характерная для биома Карру

Для того, чтобы ответить на вопросы на потребуется:

  • датированное филогенетическое дерево
  • таблица с климатическими показателами, описывающими местообитание каждого вида
  • таблица с указанием того, произростает ли вид в биоме Финбош или Карру (для простоты будем полагать эту характеристику бинарной)

Загрузить полный набор данных можно отсюда (логин – public@phylogenetics.ru; пароль: cornus). В архиве будут два файла – файл nexus с филогенетическим деревом (80 видов), а также файл data.csv – таблица со значениями среднемесячной температуры, среднемесячных осадков и принадлежность к одному из биомов для каждого вида.

Загрузим все необходимые пакеты в программу R:

Загрузим данные:

Проведем первоначальный анализ данных. Во-первых расчитаем среднее и стандартное отклонение для каждой климатической характеристики для видов каждого биома отдельно (мы считаем среднее значение температуры для видов биома Финбош и Карру:

Во-вторых, трансформируем климатические данные методом главных компонент. Это позволит привести разнотипные данные (миллиметры и градусы Цельсия) к единому условному масштаб, а также избежать излишней размерности и скоррелированности в данных:

В-третьих, проведем предковую реконструкцию категориального признака (тип биома). Это позволит выяснить к какому биому относится каждый узел дерева и то, с какой скорость осуществляется “переход” видов между двумя биомами (т.н. transition rates).

Для этой задачи нам нужно сравнить две модели – т.н. симметричную модель, в которой скорость “перехода” из одного биомама в другой в течении эволюции клады одинакова в обоих направлениях, и т.н. несимметричную модель, в которой скорость перехода из одного биома в другой выше, чем переход в обратную сторону. Так как несимметричная модель, содержит на один параметр больше (в случае, конечно, только двух признаков), необходимо пересчитать log-likelihood в значения AIC и сравнить с AIC более простой модели. Если разница составит более 4ых, более сложную модель предковой реконструкции можно считать более точной. В нашем случае, более простая модель (симметричная,”SYM”) лучшим образом описывает данные.

В-четвертых, проведем т.н. стохастическое картирование признака на ветвях дерева. Обратите внимание, что мы используем симметричную (“SYM”) модель. Именно для этого был необходим предыдуший шаг.

Теперь визуализируем весь проделанный выше анализ.

На графиках мы собираемся показать 1) филогенетическое дерево со стохастически картированным биомом; 2) то, как отличаются между собой характеристики климатической ниши видов (температура и осадки) между двумя биомами; 3) а также визуализируем значения полученные методом главных компонент и посмотрим на то, какая из двух главных компонент разделяет климатическую нишу двух групп видов наилучшим образом. Синим цветом обзначены виды биома Финбош, а зеленым – биома Карру

Что мы видим на полученных графиках?

pr29_1

  1. Виды двух биомов образуют две почти полностью монофилетичные экологические клады. Но при этом небольшая часть видов все-таки мигрировала из одного биома в другой и в верхней и в нижней кладах
  2. Климатические характеристики местообитаний видов произрастающих в биоме Финбош статистически значимо отличаются от климатических характеристик местообитаний видов в биоме Карру. Так, для видов обитающих в биоме Финбош характерна средняя температура около 14 градусов и более 400 мм среднемесячных осадков. Видам биома Карру присущи более жаркие температуры (17 градусов) и менее 300 мм среднемесячных осадков
  3. Метод главных компонент разделяет виды по первой главной компоненте. Эта компонента объясняет как раз температурно-осадковый градиент и максимльные значения соотвествуют сухому и жаркому климату, а малые – более влажному и прохладному.

На э том первая часть – предварительный анализ данных и их визуализация закончены. В следующей заметке мы протестируем эволюционные модели и сделаем выводы.

В заметке использованы фотографии и карта с сайтов:
http://www.enviropaedia.com/
http://www.thegreatkaroo.com/

Использование Sequin для отправки данных в GENBANK. Часть 2. Выравнивание последовательностей с учетом фрейма считывания Using Sequin to submit data into GENBANK. Part 2. Sequence alignment and reading frame

После того, как были определены (смотреть часть 1 этого упражения) границы участка, транслирующегося в аминокислоты (будем называть этот участок экзоном), нам необходимо выровнять остальные гомологичные последовательности относительно референсного. Референсной нуклеотидной последовательностью лучше всего выбирать наиболее длинную из отсеквенированных. Кроме того, именно на этой референсной последовательности нужно определить начальную позицию кодирующего блока как показано в части 1.

  1. Откроем программу Seaview (или другой редактор последовательностей – например, BioEdit, Muscle) и загрузим туда файл fasta со всеми отсеквенированными, но не выровненными последовательностями. Первой в данном списке будет референсная последовательность.pr28_01
  2. Прокрутим окно до позиции 684 (она маркирована в строке расположенной выше первой нуклеотидной последовательности). Убедимся, что она начинается с триплета ATG, который кодирует метионин. Это так называемый стартовый кодон – прочитать больше информации о том, какие стартовые кодоны бывают в различных организмах можно здесь. Для нас ATG является маркером того, где при правильной трансляции нуклеотидной последовательности в аминокислотную должна появится буква M (methionine). Мы обязательно должны проверить, будет ли в этом месте метионин или нет, чтобы убедиться что фрейм считывания (reading frame) данных указан корректно  – то есть первая позиция нуклеотидной последовательности соответствует первой позиции кодона.pr28_01_1
  3. Теперь выровняем последовательности. Для этого выберем в главном меню Edit > Select all и затем Align > Align all.pr28_02
  4. После того, как последовательности будут выровнены, переключим в главном меню представление из режима нуклеотидов в режим аминокислот. Для это выберем Props > View as Proteins. Убедимся, что на месте  ATG появился кодон H (histidine) – то есть неверный стартовый кодон. Это значит, что наш фрейм считывания начинается с неправильной позиции и нам нужно сдвинуть всю нуклеотидную матрицу на один или на два шага вперед.

    Переключение в режим аминокислотных последовательностей

    Переключение в режим аминокислотных последовательностей

  5. Для этого включим режим редактирования данных Prop > Allow seq. editing. Убедимся, что выбраны все нуклеотидные послеждовательности (Edit > Select all) и, прокрутив линейку прокрутки внизу рабочего окна к самому началу последовательностей, с помощью кнопки пробела вставим два пропуска. Вся матрица сдвинулась на две позиции (в данном случае, я заранее знала, что нужно сдвигать на две позиции, обычно требуется проверить и один, и два сдвига).

    Включение режима редактирования последовательностей

    Включение режима редактирования последовательностей

  6. Прокрутим обратно на позицию 684 и переключим в режим аминокислот (Props > View as Proteins). Как мы видим, у нас появился метионин на нужной позиции и пропали многочисленные стоп-кодоны в кодирующий части последовательности. Это значит, что фрейм считывания определен верно.

    Проверка того, что аминокислотная последовательность начинается с метионина и внутри CDS отсутствуют стоп-кодоны

    Проверка того, что аминокислотная последовательность начинается с метионина и внутри CDS отсутствуют стоп-кодоны

  7. Переключим последовательности в режим нуклеотидов. Сохраним выровненные и с корректно указанным фреймом считывания данные в файл fasta (File > Save as).

    Переключение в режим нуклеотидных последовательностей и сохранение данных

    Переключение в режим нуклеотидных последовательностей и сохранение данных

  8. Обратите внимание, что описанная выше процедура предполагает дальнейшую проверку данных на наличие стоп-кодонов в кодирующей части (их не должно быть, если это не псевдоген), а также аккуратную визуальную проверку того, что выравнивание было сделано корректно.
  9. В третье и последней части мы рассмотрим аннотирование последовательностей с использованием программы SeqIN и подготовку их для загрузки в GENBANK.

Использование Sequin для отправки данных в GENBANK. Часть 1. Поиск CDS в нуклеотидных последовательностяхUsing Sequin to submit data into GENBANK. Part 1. Searching start/end position of CDS

Исследователям, работающими с генетическими данными, очень часто бывает необходимо опубликовать полученные новые генетические или геномные последовательности в базе данных GENBANK. К сожалению, процесс загрузки данных в GENBANK очень трудоемок и не всегда очевиден, особенно если нужно загрузить большое число нуклеотидных последовательностей.

В этом практическом упражнении (в трех частях) мы разберем все основные этапы подготовки нуклеотидных последовательностей к загрузке в базу GENBANK. В первой части мы определим как с использованием интерфейса BLASTX определить участки кодирующие белки в нуклеотидной последовательности. Во второй части мы подготовим выровненную нуклеотидную матрицу с помощью программы Seaview (можно использовать и любую другую программу для выравнивания последовательностей), а в третьей части создадим файл с помощью программы Seqin, который и требуют разработчики GENBANK для внесения ваших данных в базу.

  1. Первым шагом является подготовка нуклеотидных последовательностей и определение того, есть ли в вашей последовательности участки кодирующие белки. Для этого необходимо воспользоваться интерфейсом BLASTX. Этот интерфейс позволяет сравнивать нуклеотидные последовательности с аминокислотными и определять, есть ли в нуклеотидныx последовательностях  участки кодирующие определенные белки или транслируемые участки. Для примера воспользуемся вот этой последовательностью (скачать, логин – public@phylogenetics.ru; пароль: cornus). Скопируйте последовательность в буфер. Откройте в новом окне браузера интерфейс BLASTX и вставьте в окно Enter accession number(s), gi(s), or FASTA sequence(s) нуклеотидную последовательность, нажмите кнопку BLAST. Запустится процесс сравнения нашей последовательности с базой данных NCBIpr28_001
  2. Если внутри последовательности будет обнаружен участок, потенциально кодирующий некоторый белок или транслирующийся в аминокислоты, должна появиться запись Putative conserved domains have been detected, click on the image below for detailed results. В нашем случае, должна появится запись видаpr28_002
    Эта запись означает, что внутри нашей последовательности обнаружен участок, кодирующий белок относящийся к суперсемейству MatK. Нажав мышкой на розовом или светлофиолетовом блоке можно получить детальное описание данного белкового домена. Про MatK, к примеру, почти ничего неизвестно, и в базе данных такого рода информация описана как “MatK/TrnK amino terminal region; The function of this region is unknown.”
  3. Для нас, однако, важна информация о том, где именно начинается и заканчивается участок нуклеотидной последовательности, кодирующий белок. Мы можем выяснить эту информацию, прокрутив страницу вниз до блока Alignments. В этом блоке представлено сравнение нашей последовательности с АА-последовательностями из базы. Так как нас интересует  где именно начинается и заканчивается кодирующий участок у исходной последовательности (она обзначается как QUERY последовательность), рассмотрим первое же совпадение:
    pr28_003
  4. В этом совпадении мы видим что напротив слова  QUERY написано 684 – это и есть начальная нуклеотидная позиции, с которой начинается кодирующий белок участок. Запишем это число. Теперь мы точно знаем, что у данной последовательности нуклеотидов белок-кодирующая область начинается с 684 позиции и доходит до самого конца последовательности.
  5. Зная эту информацию мы можем выровнить эту последовательность и другие гомологичные нуклеотидные последовательности и проверить reading frame в части 2.