Monthly Archives: October 2012

Выпуск новостей 21.10.2012 (#5)News 21.10.2012 (#5)

Накопилось некоторое количество статей и обновлений на сайте, поэтому делаем очередной новостной выпуск. В этом выпуске мы продолжим разговор о реконструкции филогенетических деревьев, обсудим как датировать филогенетическое дерево и выбрать подходящую эволюционную модель, расскажем как оценить сходимость топологии филогении. Кроме того, начинаем публиковать серию статей о полногеномном секвенировании. Пока что публикуем несколько общих вводных статей, но скоро перейдем к практическим статьям – как анализировать данные полногеномного секвенирования и что можно в результате получить.

Кроме того, мы запустили форум! В нем уже четыре раздела. Очень рады пригласить всех читателей к обсуждению любых темы, связанных с филогенетикой, биоинформатикой, полногеномным секвенированием и эволюционной биологией.

Раздел “Практические руководства”

# О чем надо не забыть планируя полногеномное секвенирование в научно-исследовательских целях
# Реконструкция филогенетических деревьев. Некоторые выводы из практического опыта
# Секвенирование методом RAD. Подготовка библиотеки
# Датировка филогенетического дерева в BEAST/BEAUti
# Тестирование эволюционных моделей в батч режиме в программе phyml и JModelTest
# Оценка сходимости топологии и параметров филогенетического дерева в MrBayes/BEAST/*BEAST

Раздел “Скрипты”

# Скрипт для быстрого анализа покрытия генов в базе GENBANK

Обновления на сайте:

# Запуск форума 

О чем надо не забыть планируя полногеномное секвенирование в научно-исследовательских целяхPlanning a next generation sequencing project: what not to forget

Полногеномное секвенирование ставит перед исследователями и научно-исследовательскими институтами целый список вопросов, которые необходимо решить до проведения самого секвенирования. Выбор (суб)оптимальной стратегии полногеномного секвенирования (ПГС) позволит минимизировать затраты и получить интересные и интерпретируемые результаты.

Выделим основные прикладные моменты, которые нужно принять во внимание прежде чем решать, каким именно способом и как проводить полногеномное секвенирование:

  1. Возможный бюджет грантовой заявки (или бюджет проекта)
  2. Ориентировочный размер генома секвенируемого организма
  3. Планируется секвенировать один организм или много (популяцию)
  4. Наличие референсного генома или наличие референсного генома для филогенетически относительно близких организмов
  5. Плоидность организма
  6. Тип секвенирования


I. Бюджет

Очень важно понимать, что полногеномное секвенирование  складывается не только из стоимости  подготовки библиотеки для секвенирования + самого секвенирования (то есть фактически лабораторной части – т.н. production cost), но и целого ряда дополнительных финансовых затрат (non-production costs). В non-production costs я включаю:

  1. апгрейд аппаратной составляющей
  2. стоимость работ по обработке полученных данных

Если production cost одного генома размером в 500-1000Мb варьируется в пределах от 1500 до 2700 у.е., то стоимость non-production costs увеличивает предполагаем бюджет как минимум в 5 раз. В среднем нужно закладывать как минимум 10 000-15 000 у.е. на апгрейд аппаратной составляющей + постобработку данных (в эту цену включено около 5 000-6 000 у.е. на собственно обновление серверов и 10 000 у.е. на двух специалистов работающих над данными в течении примерно 2-4 месяцев).

Апгрейд аппаратной составляющей

Данные полногеномного секвенирования – это  не только большие по размерам файлы (десятки гигабайт – от 3 до 40Гб), но и компьютерные мощности, необходимые для обработки этих больших файлов. Большую часть файлов вы не сможете посмотреть в (условном) текстовом редакторе и обработать вручную на домашнем компьютере. В связи с этим  есть три потенциальных решения:

  1. Обновить оборудование и создать в лаборатории/институте некоторый прототип серверного кластера (цена варьируется от 8000-10000 у.е. для маленького кластера до 200000 у.е. для большого полнофукнционального кластера)
  2. Договориться с научно-исследовательской организацией у  которой есть компьютерный кластер (от 0 у.е. – до цены членского взноса).
  3. Арендовать облачный кластер (около 50-100 долларов в месяц)

При этом в данном случае речь идет именно об апгрейде оборудования только для обработки результатов полногеномного секвенирования. Если планируется покупка собственно прибора  – будет необходимо собрать отдельный сервер под прибор.

Вычислительный центр, серверная

Выбор одного из трех решений определяется как финансированием проекта, так и планированием «на будущее»: в этом смысле институту, как организации, возможно, более рентабельно создать собственный вычислительный кластер, а отдельно взятой лаборатории будет проще договориться с организациями, где такой кластер уже существует.

Для примера приведу ориентировочные спецификации для «маленького кластера»:

  • Минимально 2 машины
  • 8-12 ядер для каждой машины
  • 48Гб RAM у каждой машины
  • Очень большое (!) дисковое пространство (минимум 4Tb каждая машина, больше – лучше)

Если говорить об аренде пространства в уже существующем кластере или облачном кластере, то нужно учитывать также и стоимость передачи больших объемов данных по сети и скорость Интернета вашей организации (то есть интернет-трафик, на который будет приходиться большая нагрузка). Ниже представлен небольшой и далеко неполный список организаций, с которыми можно попробовать договориться об аренде дискового пространства и вычислительных мощностей:

Все большую популярность набирают облачные  кластеры, такие как, например, предоставляемый Амазоном ЕС2. Это очень выгодное решение и с моей точки зрения именно такого рода сервисы будут набирать обороты с течением времени.

EC2 предоставляемый Amazon

Стоимость работ по обработке полученных данных

Эта часть зависит от вашего энтузиазма и страны проживания. Решений может быть много: от работы с субподрядной организацией, которая поможет вам провести анализ данных (такое решение скорее всего не подойдет научно-исследовательским проектам) до включения в работу аспирантов и молодых ученых, знакомых с компьютерами и предоставления им зеленого света и времени на “разбирание” технологии. Для ориентира: стоимость месячной работы биоинформатика варьируется от 500 до 5000 долларов в зависимости от страны.


II. Ориентировочный размер генома секвенируемого организма

Размер генома – важнейщий аспект, определяющий выбор технологии и типа секвенирования. В настоящее время стоимость получения данных полногеномного секвенирования раскладывается на число ридов (reads) на линию прибора (lane). Что это значит?

Представим что у вас есть организм с примерным размером генома в 1000 Мб (1 000 000 000 нуклеотидов, примерно 1 пикограмм). Одна линии Иллюмины 2000 дает возможность получить 200 000 000 ридов длинной в 100 нк. Если мы хотим получить 20ти кратное покрытие нашего генома то расчет будет следующим:

((1 000 000 000 х 20)/100)/200 000 000 =  1

Следовательно для генома в 1 миллиард нуклеотидов нам потребуется 1 линия Illumina HiSeq 2000. Соотвественно ориентировочная цена (production cost) будет около 2500-3000 долларов.

Проверить размер генома можно в базе размеров геномов http://www.genomesize.com.

Ориентировочный размер генома для разных организмов (источник Genosize.com)

К сожалению, там представлены только размеры геномов животных, но не растений или микроорганизомов. Смотреть нужно C-value – это размер генома в пикограммах (pg). Сконвертировать пикограммы в нуклеотиды можно по формуле:

Число нуклеотидов = вес в пикограммах  x  0.978  x  10^9

1pg = 978 Mb

То есть можем принять 1 pg ~ 1000 Мб нуклеотидов.


III. Планируется секвенировать один организм или популяцию(-ии)

Это один из самых важных вопросов, который нужно себе задать до написания грантовой заявки, потому что именно он будет определять выбор технологии секвенирования. Ответ на этот вопрос определяется конечными целями вашего исследования и бюджетом. Приведу примеры задачек, которые потребуют секвенирование более чем одного организма:

  • сравнительный геномный анализ (анализ нуклеотидных замен, структурных вариаций)
  • создание плотных генетических карт и детектирование геномных перестроек
  • изучение адаптаций (детектирование различных типов естественного отборов) и популяционная геномика
  • альтернативный сплайсинг
  • метагеномика
  • транскриптомный анализ

Примеры задач, где можно обойтись одним геномом:

  • Создание качественного референсного генома
  • Функциональная аннотация генома и функциональный анализ генома

Очень важно четко знать цель исследования генома и явным образом сформулировать гипотезы, которые вы хотите протестировать на основе полученных данных, а не секвенировать «просто чтобы было много данных, а там уж найдем что проанализировать» – такое отношение точно приведет к увеличию стоимости работ и возможно провальному проекту.


IV. Наличие референсного генома или наличие референсного генома для относительно близких филогенетических организмов

Также как и пункт 2, этот пункт должен быть проверен до начала секвенирования. Во-первых, наличие референсного генома существенно облегчает обработку данных и позволяет быстрее ответить на некоторые чисто биологические вопросы. Во-вторых, обеспечивает априорным знанием о том, где искать интересные паттерны в геноме.

Если референсного генома нет, то возможно одним из первых полезных шагов научного исследования является создание референсного генома.  С другой стороны, если сферой ваших научных исследований является сравнительный анализ популяций/организмов между собой, а референсного генома нет и тратить ресурсы на его создания не хочется, возможно оптимальным решение будет являться секвенирование методом RAD. RAD-секвенирование дает достаточно детальное представление о меж-индивидуальной и меж-популяционной вариабельности геномов, а также существенно уменьшает стоимость проекта.


V. Плоидность организма

Плоидность организма - важный фактор при секвенировании генома

Очень сложный момент, особенно если вы работаете с растениями или с организмами с высоким уровнем плоидности. Самая простая рекомендация – все-таки выбрать диплоидный близкородственный вид. Если вас интересует именно >2 плоидный организмы, то это, с одной стороны, добавляет интересности с точки зрения эволюционной биологии и биоинформатики, но, с другой стороны, сильно увеличивает сложность обработки и анализа данных. Кроме того, повышается стоимость секвенирования как такового.


VI. Тип секвенирования

Мы кратко упомянули о важности формулирования целей научного исследования в третьем пункте. Отметим еще раз – цели научного исследования существенным образом определяют выбор конкретной технологии секвенирования.

Если говорить совсем кратко, то в настоящее время секвенирование может проводиться по двум типам:

  • Single reads
  • Paired-end reads (включая протоколы для paired-ends и mate pairs)

Кроме того, по покрытию генома различают:

  • Exome sequencing (секвенируется только кодирующая часть генома)
  • Transcriptom sequencing (RNA-seq – секвенируется РНК контент организма)
  • Full-genome sequencing (полный геном)
  • RAD-sequencing (секвенирование с помощью эндонуклеазы рестрикции)

В заивисимости от конечных целей исследования и бюджета нужно выбирать один или комбинации разных типов секвенрирования и покрытий генома.

На этом мы пока остановимся, и в следующей статье рассмотрим детально в чем заключаются различия между типами секвенирования, а также какие аналитические результаты могут дать различие покрытия генома. 

Запуск форума!Forum is launched!

Мы запускаем тематический форум. Сама идея форума родилась уже довольно давно, но до фактической реализации руки дошли только сейчас.

Итак, в форуме на данный момент есть четыре раздела:

  • Филогенетика
  • Биоинформатика
  • Полногеномное секвенирование
  • Работа сайта

Более подробное описание смысловой нагрузки каждого раздела дано прямо в форуме.

По мере наполнения (надеемся) форума постами и вопросами возможна частичная или полная реорганизация предложенных разделов. Если у кого-то из читателей и посетителей сайта возникнет желание стать модератором – милости просим.   

Мы запускаем тематический форум. Собственно идея форума родилась уже довольно давно, но до фактической реализации руки дошли только сейчас.

Итак, в форуме на данный момент есть четыре раздела:

  • Филогенетика
  • Биоинформатика
  • Полногеномное секвенирование
  • Работа сайта

Более подробное описание смысловой нагрузки каждого раздела дано прямо в форуме.

По мере наполнения (надеемся) форума постами и вопросами возможна частичная или полная реорганизация предложенных разделов. Если у кого-то из читателей и посетителей сайта возникнет желание стать модератором – милости просим.  

 

Мы запускаем тематический форум. Собственно идея форума родилась уже довольно давно, но до фактической реализации руки дошли только сейчас.

Итак, в форуме на данный момент есть четыре раздела:

  • Филогенетика
  • Биоинформатика
  • Полногеномное секвенирование
  • Работа сайта

Более подробное описание смысловой нагрузки каждого раздела дано прямо в форуме.

По мере наполнения (надеемся) форума постами и вопросами возможна частичная или полная реорганизация предложенных разделов. Если у кого-то из читателей и посетителей сайта возникнет желание стать модератором – милости просим.  

Оценка сходимости топологии и параметров филогенетического дерева в MrBayes/BEAST/*BEAST

Ключевым шагом при построении точного филогенетического дерева является оценка точности параметров модели и топологии, а также создание финального, консенсусного дерева. Если при построении дерева использовались методы на основне алгоритма MCMC, то нужно помнить следующее:

МСМС алгоритм производит поиск оптимальных параметров эволюционной модели и топологии пошагово. Эти «шаги» называются поколения (generations), вся последовательность поколений называется цепью (chain). В самом начале МСМС параметры и топологии дерева очень неточны, однако потихонечку, по мере поиска оптимальных параметров, МСМС продвигается в сторону все более и более точных значений – цепь начинает сходиться (chain convergence). На каждом шаге МСМС проверяет улучшаются ли параметры или нет с помощью теста отношения правдоподобий  (Likelihood-ratio test). Если значение теста положительное, принимаются параметры текущего шага, если значение теста отрицательные, то принимаются параметры (шаг – 1).

В ходе МСМС алгоритма пишутся как минимум два файла: файл параметров эволюционной модели (расширение файла *.p), а также файл топологий дерева (расширение файла  *.t). В файле с расширением *.p содержатся параметры эволюционной модели и значение фукнции правдоподобия каждого поколения цепи МСМС. В файле с расширением *.t содержатся топологии деревьев каждого поколения цепи МСМС в формате newick.

Всегда необходимо записывать файлы с параметрами модели и топологиями деревьев в отдельные файлы. Обычно эта опция включена по умолчанию в BEAST, если xml-файл собирается через программу BEAUTi. В MrBayes требуется указать следующие параметры в блоке mrbayes в nexus-файле:

mcmcp ngen=10000000 printfreq=10000 samplefreq=10000

  • ngen – число поколений цепи MCMC
  • printfreq – частота выведения параметров на экрана рабочего окна
  • samplefreq – частота записи топологий деревьев в выходной файл.

Обратите внимание, частота записи топологий в выходной файл (samplefreq) меньше (обычно в 1000 или 10000 раз) чем общее число параметров. Это делается для того, чтобы уменьшить размер конечного файла *.t. Таким образом в файле *.t будет в 1000 или в 10000 раз меньше строк, чем в файле с параметрами *.p (туда пишутся параметры каждого поколения)

Всегда нужно запускать больше чем одну цепочку (nchain = 2 или 4) и несколько параллельных запусков (nrun = 2 или 4). Паралелльные запуски будут запущены с абсолютно разных стартовых деревьев, в то время как паралелльные цепочки обозначают специальное алгоритмическое решение МСМС увеличивающее шансы избежать попадания на так называемый локальный максимум параметрического пространства. Эти параметры также задаются в блоке mcmcp

mcmcp nrun = 4 nchain=4

Важно помнить, что определить сходимость цепи МСМС можно только посмотрев визуально на сходимость параметров цепи МСМС и значения статистик.

Для проверки результатов сходимости цепи МСМС и создания консенсусного дерева, после заверщения работы программы BEAST или MrBayes нужно проделать следующие шаги

  1. Найти в директории, где находился nexus файл с блоком MrBayes или xml файл для BEAST, файл с расширением  *.p (после того, как вы уже его запустили в MrBayes/BEAST/*BEAST)
  2. Загрузить и установить себе программу Tracer (идет в комплекте с пакетом BEAST)
  3. Открыть файл с расширением  *.p в программе Tracer File>Import trace file

Если вы открыли файл с параметрами, то в окне Tracer появится следующая картинка

Открыть файл *.p в Tracer

Проанализируем что на ней есть.

Значения параметров МСМС цепи

Во-первых в блоге Trace Files мы видим имя входного файла (tree file), общее число поколений МСМС (states), а также так называемый параметр отжига – burn-in (про него мы поговорим отдельно ниже).

Далее в блоке Traces мы видим список все параметров эволюционной модели (statistics), которой мы выбрали (в моем случае это была модель  GTR+Gamma), среднее значение каждого параметра после удаления отжига (mean), а также т.н. ESS статистику (ESS).

В правом окне мы видим четыре вкладки: Estimates, Marginal Density,  Joint-Marginal и Trace. На вкладке Trace (в данной момент открытой) мы видим как менялся параметр модели в течении 100 миллионнов поколений. Нашим текущим параметром является параметр posterior – это можно увидеть по тому, что именно он выбран в левом окне в блоке Traces. Мы можем пощелкать по другим параметрам и посмотреть их значения.  Например, возьмем параметр treeModel.rootHeight – оценка возраста корневого узла дерева. При выбранном отжиге в 100000 поколений средняя величина корневого узла дерева равна ~65 миллионам лет.

Пример параметра цепи МСМС

Теперь проведем анализ состояния данной цепочки МСМС и решим сковергировались ли она или нет.

Первым индикатором стабилизации МСМС является выход всех (!) параметров на так называемое плато MCMC – то есть когда мы видим стабильную флуктуацию вокруг некоторого среднего значения и это значение с течением времени не меняется. Обычно в самом начале цепь МСМС начинается с очень плохих параметров модели – ведь они выбраны почти случайным образом. Это обозначено красной зоной на картинке. В какой-то момент цепь начинает стабилизироваться и уплощаться – обозначено зеленой зоной на картинке. После зеленой зоны наступает полная стабилизация цепи и выход ее на плато – обозначено синим цветом.

Определение сходимости цепи МСМС

Так как все программы пишут в выходной файл параметры от первого поколения до последнего мы должны избавиться от красной и зеленой зон и оставить только синию, платообразную часть для расчета наших финальных параметров эволюционной модели и топологии филогенетического дерева. Именно это и назвается burn-in – отжиг МСМС. То есть фактически отжиг – это несконвергировавшая часть цепи МСМС, которую мы должны исключить из рассмотрения при расчете средних параметров нашей эволюционной модели и топологии.  На картинке точкой потенциального отжига является значение в 20 миллионов поколений – фактически это значит что мы будем расчитывать наши параметры исходя из последних 80 миллионов поколений.

Вторым индикатором стабилизации МСМС является значение ESS параметра – оно должно быть более 200 для всех (!) параметров в блоке traces. Если хотя бы один параметр подсвечен красным (как параметры likelihood и treeLikelihood на картинке) или оранжевым цветом (параметр posterior на картинке) в блоке Traces в графе ESS это значит, что при текущем значении отжига распределение значений параметра отличного от нормального распределения. Нормальное распределение \каждого параметра обязательное условие сходимости МСМС.

Параметры и ESS значения в МСМС

Увеличим отжиг до 20 миллионов (у нас стояло значение всего в 100000) и посмотрим внимательно на параметры likelihood и treeLikelihood. Как мы видим их значение было пересчитано (напоминаю, мы исключили 20 млн поколений и разумеется статистика параметра поменялась). Более того, значение ESS уменьшилось. Для нас это важный признак того, что цепь для этих двух параметров не сковергировалась (!)

Теперь взглянем на Trace справа. Как мы видим параметр treeLikelihood продолжает потихонечку плавно меняться – возрастать. Это еще один признак того, что цепь не сконвергировалась. В таком случае единственным решением является увеличить число поколений цепи МСМС, перезапустить ее и ждать большее число поколений (сколько – сказать трудно и зависит от сложности реконструируемого дерева).

Пример нестабилизировавшейся цепи МСМС

Третьим индикатором стабилизации МСМС является сходимость двух и более незавимимых запусков (runs) МСМС между собой  – это то, что мы задавали как nrun в блоке MrBayes в nexus-файле. Для того, чтобы посмотреть что происходит между запусками нам нужно загрузить в Tracer все запуски (они будут называться *.run1.p, *.run2.p, *.run3.p и т.д).  Далее нас интересует, чтобы все параметры которые есть во всех запусках были идентичными – то есть среднии величины и сами плато МСМС неразличались между запусками. Например на картинке ниже у нас есть два запуска, оба они выделены в блоке Trace Files и теперь если выбрать любой из параметров мы увидим не одно значение,а два – для каждого из запуска. В данном случае параметр treeModel.rootHeight неразличим между запусками

Проверка МСМС сходимости между разными запусками

А параметр mtDNA. treeLikelihood отличается очень сильно. Отсюда мы делаем вывод что наши запуски несконвергировались и нужно увеличить число поколений.

Проверка МСМС сходимости между разными запусками – пример несходимости

Итак. Мы научились анализировать выходные файлы с параметрами из программ на основе МСМС алгоритма при построении филогенетического дерева. В следующем упражнении мы посмотрим как можно получить консенсусное дерево с учетом того, что мы выяснили про значение отжига и сходимости цепи.

 

Тестирование эволюционных моделей в батч режиме в программе phyml и JModelTestTesting substitution models in batch mode (R+phyml and JModelTest)

Очень часто при построении филогенетического дерева из нескольких участков генома (например, нескольких генов) возникает необходимость подбора оптимальной модели замены нуклеотидов для каждого участка генома (каждого гена). Особенно важен этот этап тогда, когда в последующем планируется задавать дробление генов (gene partitioning) при реконструкции филогенетического дерева. Например, опция gene partitioning может быть задана в программах MrBayes или BEAST. 

Чтобы не тестировать в ручную каждый блок нуклеотидной матрицы для каждой модели, можно воспользоватся удобной тестовой оболочкой, такой как JModelTest или R (пакет APE) вместе с Phyml.

Рассмотрим оба варианта.

Вариант R + ape.

Для использования этой опции нам потребуется установленная программа R (дистрибутив можно скачать отсюда), а также установленный пакет APE.

Для установки пакета APE в главном меню R выберите Пакеты -> Установить пакеты -> Russia (из этого репозитория библиотек скачка файлов будет происходить быстрее для тех, кто находится в России). Далее из списка укажите ape

Загрузка и установка пакета в R

После окончания установки напишите в командной строке R (эта команда загружает библиотеку в рабочее пространство проекта)

> require(ape)

Установим рабочую директорию, в которой находятся наши данные

> setwd(“D:\\site\\practicle17\\”)

Входными данными для тестирования моделей нуклеотидных замен являются выровненные нуклеотидные последовательности в формате phylip (могут быть как interleaved, так и sequential).

Запустим тестирование различных моделей. Обратите внимание: файл с выровненными последовательностями, а также исполняемый файл программы Phyml должны лежать в директории D:\site\practicle17\ или той, которую вы установили текущей в данной сессии R.

> test<-phymltest(“ctenotus_12s_align.phy”, format=”interleaved” execname=”phyml_3.0.1_win32.exe” strong=””>

Исполняемый файл phyml_3.0.1_win32.exe можно скачать отсюда.

Если программа запустилась верно, то на в рабочем пространстве R появится вот такая картинка:

Запуск Phymltest в R

После завершения анализа, проверим, какая модель оказалась наиболее точной:

>plot(test)

Результат тестирования моделей нуклеотидных замен

Модель с наименьшим значением AIC является предпочтительной. В нашем случае такой моделью является модель GTR+G

Вариант jModelTest

Скачайте программу jModelTest и запустите файл jModelTest.jar.

В главном меню выберите File > Load DNA alignment и укажите файл с выровненными нуклеотидными последовательностями

 

Затем в главном меню укажите Analysis > Compute Likelihood scores

В окне Likelihood Settings оставьте все значения по умолчанию и нажмите Compute Likelihoods (мы будем тестировать 88 различных моделей)

Процесс расчета параметров моделей займет некоторое время…

После завершения расчетов, выберите в главном меню Analysis > Do AIC Calculations, а также Analysis > Do BIC Calculations

Откройте таблицу результатов Results > Show results table

В закладке AIC прокрутите вниз до строки, подсвеченной красным цветом. Эта модель (в нашем случае GTR+G) является оптимальной для набора данных. Обратите внимание, что для нее значение AIC минимально.


Источник для featured image 

Очень часто при построении филогенетического дерева из нескольких участков генома (например, нескольких генов) возникает необходимость подбора оптимальной модели замены нуклеотидов для каждого участка генома (каждого гена). Особенно важен этот этап тогда, когда в последующем планируется задавать дробление генов (gene partitioning) при реконструкции филогенетического дерева. Например, опция gene partitioning может быть задана в программах MrBayes или BEAST. 

Чтобы не тестировать в ручную каждый блок нуклеотидной матрицы для каждой модели, можно воспользоватся удобной тестовой оболочкой, такой как JModelTest или R (пакет APE) вместе с Phyml.

Рассмотрим оба варианта.

Вариант R + ape.

Для использования этой опции нам потребуется установленная программа R (дистрибутив можно скачать отсюда), а также установленный пакет APE.

Для установки пакета APE в главном меню R выберите Пакеты -> Установить пакеты -> Russia (из этого репозитория библиотек скачка файлов будет происходить быстрее для тех, кто находится в России). Далее из списка укажите ape

Загрузка и установка пакета в R

После окончания установки напишите в командной строке R (эта команда загружает библиотеку в рабочее пространство проекта)

> require(ape)

Установим рабочую директорию, в которой находятся наши данные

> setwd(“D:\\site\\practicle17\\”)

Входными данными для тестирования моделей нуклеотидных замен являются выровненные нуклеотидные последовательности в формате phylip (могут быть как interleaved, так и sequential).

Запустим тестирование различных моделей. Обратите внимание: файл с выровненными последовательностями, а также исполняемый файл программы Phyml должны лежать в директории D:\site\practicle17\ или той, которую вы установили текущей в данной сессии R.

> test<-phymltest(“ctenotus_12s_align.phy”, format=”interleaved” execname=”phyml_3.0.1_win32.exe” strong=””>

Исполняемый файл phyml_3.0.1_win32.exe можно скачать отсюда.

Если программа запустилась верно, то на в рабочем пространстве R появится вот такая картинка:

Запуск Phymltest в R

После завершения анализа, проверим, какая модель оказалась наиболее точной:

>plot(test)

Результат тестирования моделей нуклеотидных замен

Модель с наименьшим значением AIC является предпочтительной. В нашем случае такой моделью является модель GTR+G

Вариант jModelTest

Скачайте программу jModelTest и запустите файл jModelTest.jar.

В главном меню выберите File > Load DNA alignment и укажите файл с выровненными нуклеотидными последовательностями

 

Затем в главном меню укажите Analysis > Compute Likelihood scores

В окне Likelihood Settings оставьте все значения по умолчанию и нажмите Compute Likelihoods (мы будем тестировать 88 различных моделей)

Процесс расчета параметров моделей займет некоторое время…

После завершения расчетов, выберите в главном меню Analysis > Do AIC Calculations, а также Analysis > Do BIC Calculations

Откройте таблицу результатов Results > Show results table

В закладке AIC прокрутите вниз до строки, подсвеченной красным цветом. Эта модель (в нашем случае GTR+G) является оптимальной для набора данных. Обратите внимание, что для нее значение AIC минимально.

 

Очень часто при построении филогенетического дерева из нескольких участков генома (например, нескольких генов) возникает необходимость подбора оптимальной модели замены нуклеотидов для каждого участка генома (каждого гена). Особенно важен этот этап тогда, когда в последующем планируется задавать дробление генов (gene partitioning) при реконструкции филогенетического дерева. Например, опция gene partitioning может быть задана в программах MrBayes или BEAST. 

Чтобы не тестировать в ручную каждый блок нуклеотидной матрицы для каждой модели, можно воспользоватся удобной тестовой оболочкой, такой как JModelTest или R (пакет APE) вместе с Phyml.

Рассмотрим оба варианта.

Вариант R + ape.

Для использования этой опции нам потребуется установленная программа R (дистрибутив можно скачать отсюда), а также установленный пакет APE.

Для установки пакета APE в главном меню R выберите Пакеты -> Установить пакеты -> Russia (из этого репозитория библиотек скачка файлов будет происходить быстрее для тех, кто находится в России). Далее из списка укажите ape

Загрузка и установка пакета в R

После окончания установки напишите в командной строке R (эта команда загружает библиотеку в рабочее пространство проекта)

> require(ape)

Установим рабочую директорию, в которой находятся наши данные

> setwd(“D:\\site\\practicle17\\”)

Входными данными для тестирования моделей нуклеотидных замен являются выровненные нуклеотидные последовательности в формате phylip (могут быть как interleaved, так и sequential).

Запустим тестирование различных моделей. Обратите внимание: файл с выровненными последовательностями, а также исполняемый файл программы Phyml должны лежать в директории D:\site\practicle17\ или той, которую вы установили текущей в данной сессии R.

> test<-phymltest(“ctenotus_12s_align.phy”, format=”interleaved” execname=”phyml_3.0.1_win32.exe” strong=””>

Исполняемый файл phyml_3.0.1_win32.exe можно скачать отсюда.

Если программа запустилась верно, то на в рабочем пространстве R появится вот такая картинка:

Запуск Phymltest в R

После завершения анализа, проверим, какая модель оказалась наиболее точной:

>plot(test)

Результат тестирования моделей нуклеотидных замен

Модель с наименьшим значением AIC является предпочтительной. В нашем случае такой моделью является модель GTR+G

Вариант jModelTest

Скачайте программу jModelTest и запустите файл jModelTest.jar.

В главном меню выберите File > Load DNA alignment и укажите файл с выровненными нуклеотидными последовательностями

 

Затем в главном меню укажите Analysis > Compute Likelihood scores

В окне Likelihood Settings оставьте все значения по умолчанию и нажмите Compute Likelihoods (мы будем тестировать 88 различных моделей)

Процесс расчета параметров моделей займет некоторое время…

После завершения расчетов, выберите в главном меню Analysis > Do AIC Calculations, а также Analysis > Do BIC Calculations

Откройте таблицу результатов Results > Show results table

В закладке AIC прокрутите вниз до строки, подсвеченной красным цветом. Эта модель (в нашем случае GTR+G) является оптимальной для набора данных. Обратите внимание, что для нее значение AIC минимально.

Очень часто при построении филогенетического дерева из нескольких участков генома (например, нескольких генов) возникает необходимость подбора оптимальной модели замены нуклеотидов для каждого участка генома (каждого гена). Особенно важен этот этап тогда, когда в последующем планируется задавать дробление генов (gene partitioning) при реконструкции филогенетического дерева. Например, опция gene partitioning может быть задана в программах MrBayes или BEAST. 

Чтобы не тестировать в ручную каждый блок нуклеотидной матрицы для каждой модели, можно воспользоватся удобной тестовой оболочкой, такой как JModelTest или R (пакет APE) вместе с Phyml.

Рассмотрим оба варианта.

Вариант R + ape.

Для использования этой опции нам потребуется установленная программа R (дистрибутив можно скачать отсюда), а также установленный пакет APE.

Для установки пакета APE в главном меню R выберите Пакеты -> Установить пакеты -> Russia (из этого репозитория библиотек скачка файлов будет происходить быстрее для тех, кто находится в России). Далее из списка укажите ape

Загрузка и установка пакета в R

После окончания установки напишите в командной строке R (эта команда загружает библиотеку в рабочее пространство проекта)

> require(ape)

Установим рабочую директорию, в которой находятся наши данные

> setwd(“D:\\site\\practicle17\\”)

Входными данными для тестирования моделей нуклеотидных замен являются выровненные нуклеотидные последовательности в формате phylip (могут быть как interleaved, так и sequential).

Запустим тестирование различных моделей. Обратите внимание: файл с выровненными последовательностями, а также исполняемый файл программы Phyml должны лежать в директории D:\site\practicle17\ или той, которую вы установили текущей в данной сессии R.

> test<-phymltest(“ctenotus_12s_align.phy”, format=”interleaved” execname=”phyml_3.0.1_win32.exe” strong=””>

Исполняемый файл phyml_3.0.1_win32.exe можно скачать отсюда.

Если программа запустилась верно, то на в рабочем пространстве R появится вот такая картинка:

Запуск Phymltest в R

После завершения анализа, проверим, какая модель оказалась наиболее точной:

>plot(test)

Результат тестирования моделей нуклеотидных замен

Модель с наименьшим значением AIC является предпочтительной. В нашем случае такой моделью является модель GTR+G

Вариант jModelTest

Скачайте программу jModelTest и запустите файл jModelTest.jar.

В главном меню выберите File > Load DNA alignment и укажите файл с выровненными нуклеотидными последовательностями

 

Затем в главном меню укажите Analysis > Compute Likelihood scores

В окне Likelihood Settings оставьте все значения по умолчанию и нажмите Compute Likelihoods (мы будем тестировать 88 различных моделей)

Процесс расчета параметров моделей займет некоторое время…

После завершения расчетов, выберите в главном меню Analysis > Do AIC Calculations, а также Analysis > Do BIC Calculations

Откройте таблицу результатов Results > Show results table

В закладке AIC прокрутите вниз до строки, подсвеченной красным цветом. Эта модель (в нашем случае GTR+G) является оптимальной для набора данных. Обратите внимание, что для нее значение AIC минимально.

Очень часто при построении филогенетического дерева из нескольких участков генома (например, нескольких генов) возникает необходимость подбора оптимальной модели замены нуклеотидов для каждого участка генома (каждого гена). Особенно важен этот этап тогда, когда в последующем планируется задавать дробление генов (gene partitioning) при реконструкции филогенетического дерева. Например, опция gene partitioning может быть задана в программах MrBayes или BEAST. 

Чтобы не тестировать в ручную каждый блок нуклеотидной матрицы для каждой модели, можно воспользоватся удобной тестовой оболочкой, такой как JModelTest или R (пакет APE) вместе с Phyml.

Рассмотрим оба варианта.

Вариант R + ape.

Для использования этой опции нам потребуется установленная программа R (дистрибутив можно скачать отсюда), а также установленный пакет APE.

Для установки пакета APE в главном меню R выберите Пакеты -> Установить пакеты -> Russia (из этого репозитория библиотек скачка файлов будет происходить быстрее для тех, кто находится в России). Далее из списка укажите ape

Загрузка и установка пакета в R

После окончания установки напишите в командной строке R (эта команда загружает библиотеку в рабочее пространство проекта)

>require(ape)

Установим рабочую директорию, в которой находятся наши данные

> setwd(“D:\\site\\practicle17\\”)

Входными данными для тестирования моделей нуклеотидных замен являются выровненные нуклеотидные последовательности в формате phylip (могут быть как interleaved, так и sequential).

Запустим тестирование различных моделей. Обратите внимание: файл с выровненными последовательностями, а также исполняемый файл программы Phyml должны лежать в директории D:\site\practicle17\ или той, которую вы установили текущей в данной сессии R.

> test<-phymltest(“ctenotus_12s_align.phy”, format=”interleaved” execname=”phyml_3.0.1_win32.exe” br=””>

Исполняемый файл phyml_3.0.1_win32.exe можно скачать отсюда.

Если программа запустилась верно, то на в рабочем пространстве R появится вот такая картинка:

Запуск Phymltest в R

После завершения анализа, проверим, какая модель оказалась наиболее точной:

>plot(test)

Результат тестирования моделей нуклеотидных замен

Модель с наименьшим значением AIC является предпочтительной. В нашем случае такой моделью является модель GTR+G

Вариант jModelTest

Скачайте программу jModelTest и запустите файл jModelTest.jar.

В главном меню выберите File > Load DNA alignment и укажите файл с выровненными нуклеотидными последовательностями

 

Затем в главном меню укажите Analysis > Compute Likelihood scores

В окне Likelihood Settings оставьте все значения по умолчанию и нажмите Compute Likelihoods (мы будем тестировать 88 различных моделей)

Процесс расчета параметров моделей займет некоторое время…

После завершения расчетов, выберите в главном меню Analysis > Do AIC Calculations, а также Analysis > Do BIC Calculations

Откройте таблицу результатов Results > Show results table

В закладке AIC прокрутите вниз до строки, подсвеченной красным цветом. Эта модель (в нашем случае GTR+G) является оптимальной для набора данных. Обратите внимание, что для нее значение AIC минимально.

Очень часто при построении филогенетического дерева из нескольких участков генома (например, нескольких генов) возникает необходимость подбора оптимальной модели замены нуклеотидов для каждого участка генома (каждого гена). Особенно важен этот этап тогда, когда в последующем планируется задавать дробление генов (gene partitioning) при реконструкции филогенетического дерева. Например, опция gene partitioning может быть задана в программах MrBayes или BEAST. 

Чтобы не тестировать в ручную каждый блок нуклеотидной матрицы для каждой модели, можно воспользоватся удобной тестовой оболочкой, такой как JModelTest или R (пакет APE) вместе с Phyml.

Рассмотрим оба варианта.

Вариант R + ape.

Для использования этой опции нам потребуется установленная программа R (дистрибутив можно скачать отсюда), а также установленный пакет APE.

Для установки пакета APE в главном меню R выберите Пакеты -> Установить пакеты -> Russia (из этого репозитория библиотек скачка файлов будет происходить быстрее для тех, кто находится в России). Далее из списка укажите ape

Загрузка и установка пакета в R

После окончания установки напишите в командной строке R (эта команда загружает библиотеку в рабочее пространство проекта)

>require(ape)

Установим рабочую директорию, в которой находятся наши данные

> setwd(“D:\\site\\practicle17\\”)

Входными данными для тестирования моделей нуклеотидных замен являются выровненные нуклеотидные последовательности в формате phylip (могут быть как interleaved, так и sequential).

Запустим тестирование различных моделей. Обратите внимание: файл с выровненными последовательностями, а также исполняемый файл программы Phyml должны лежать в директории D:\site\practicle17\ или той, которую вы установили текущей в данной сессии R.

> test<-phymltest(“ctenotus_12s_align.phy”, format=”interleaved” execname=”phyml_3.0.1_win32.exe” p=””>

 

Исполняемый файл phyml_3.0.1_win32.exe можно скачать отсюда.

Если программа запустилась верно, то на в рабочем пространстве R появится вот такая картинка:

Запуск Phymltest в R

После завершения анализа, проверим, какая модель оказалась наиболее точной:

>plot(test)

Результат тестирования моделей нуклеотидных замен

Модель с наименьшим значением AIC является предпочтительной. В нашем случае такой моделью является модель GTR+G

Вариант jModelTest

Скачайте программу jModelTest и запустите файл jModelTest.jar.

В главном меню выберите File > Load DNA alignment и укажите файл с выровненными нуклеотидными последовательностями

 

Затем в главном меню укажите Analysis > Compute Likelihood scores

В окне Likelihood Settings оставьте все значения по умолчанию и нажмите Compute Likelihoods (мы будем тестировать 88 различных моделей)

Процесс расчета параметров моделей займет некоторое время…

После завершения расчетов, выберите в главном меню Analysis > Do AIC Calculations, а также Analysis > Do BIC Calculations

Откройте таблицу результатов Results > Show results table

В закладке AIC прокрутите вниз до строки, подсвеченной красным цветом. Эта модель (в нашем случае GTR+G) является оптимальной для набора данных. Обратите внимание, что для нее значение AIC минимально.