Monthly Archives: June 2013

Использование Sequin для отправки данных в GENBANK. Часть 3. Загрузка данных через SequinUsing SEQIN to submit data into GENBANK. Part 3. Submit data to GENBANK with Sequin

После того, как границы участка кодирующего протеин были определены (часть 1) и нуклеотидные последовательности были выровнены (часть 2) можно приступать к основной части загрузки последовательностей в программу Sequin.

Загрузите программу Sequin с сайта NCBI >>>. После запуска программы, появится окно вида:

pr28_08

Нажмите кнопку Start new submission.

В следующем окне введите название статьи или проекта в рамках которого было произведено секвенирование, а также укажите должны ли данные стать доступными сразу после загрузки в базу GenBank или спустя какое-то время.

pr28_09_1

Далее введите свое имя в блоке Contacts и адрес электронной почты.

pr28_10_1

В следующем разделе (Authors) укажите со-авторов по статье или секвенированию.

pr28_11_1

В последнем окне (Affiliations) укажите адрес научно-исследовательской организации в которой вы работаете или от которой осуществляется подача данных.

pr28_12_1

В следующем окне необходимо указать хотите ли вы использовать мастер загрузки данных. Выберите Use the normal submission dialog.

pr28_13

В следующем окне необходимо указать: (1) тип исследования в рамках которого проводилось секвенирование; (2) формат входного файла (выровненные или невыровненные последовательности); (3) оригинальной ли является работа или нет. Выберем Phylogenetic study, Alignment и Original submission соответственно. В зависимости от того, какую цель преследовала ваша работа, возможен выбор иных опций в разделе Submission type.

pr28_14

Выберем файл, который был подготовлен в предыдущем упражнении. Он содержит 56 выровненных нуклеотидных последовательностей, в формате фаста, для которых указаны уникальный идентификатор, названия организмов и название отскевенировнного участка.

pr28_15

Если данные представлены в правильной форме, то появится окно-уведомление о загрузке данных в программу.

pr28_16

На следующей странице необходимо указать тип технологии, с помощью которой секвенировали данные. Выберм обычный тип – Sanger sequencing (ручное секвенирование).

pr28_17

Затем появится окно, в котором будет представлен анализ т.н. modifier’ов и их значений. Например, в данном примере все 56 записей относятся к различным биологическим видам – соответственно modifier Organism будет иметь “Status all present, all unique” – то есть данное описание присутствует у всех записей и оно уникально для каждой записи.

pr28_18

 

Переключитесь во владку Proteins. Если бы у нас был отдельный фаста файл с аминокислотными последовательностями для каждой записи в нашем оригиальном файле, можно было бы его загрузить. Так как у нас данного файла нет, то оставлеяем все по-умолчанию неизменным.

pr28_19

 

Перейдем во вкладку Annotation. Здесь нужно прописать название всего (!) отсеквенированного блока, если оно известно. В данном случае, нам известно как называется весь блок (tRNA-Lys), а также то что мы секвенировали Plus strand и неоконченным является конец 3′ . Всю эту информации мы получили в первой части данного упражнения, когда использовали BLASTX.

pr28_20

 

Появится информационное окно об успешной загрузке данных.

pr28_21

 

Нажмите в окне Target Sequence на запись Seq1.

pr28_22

 

В главном меню выберите Annotate > Coding Regions and Transcripts > CDS.

pr28_23

 

Откроется рабочее окна Coding Region. В разделе Product в окне Protein Product верхнюю пустую строчку (подсвечена синим на картинки внизу) .

pr28_24

 

Переключитесь в окно Properties. В разделе General в меню Gene выберите New и чуть ниже, в строке Gene Symbol введите matK (или любое другое имя гена, который вы собираетесь картировать на отсеквенированную последовательность).

pr28_25

 

Перейдите во вкладку Location и введите те самые координаты, которые мы определили в первой части через BLASTX (начало 684 конец 1996).  Обратите внимание, что мы вводим координаты кодирующей части последовательности в размерности Sequence Coordinates (а не Alignment Coordinates), не смотря на то, что мы загрузили выровненные последовательности. Это связано с тем, что в BLASTX мы искали начало и конец для невыровненной последовательности.

pr28_27

 

В подразделе Protein введите название белка (Maturase K) и нажмите Accept.

pr28_28

 

Перед вами опять появится подраздел Product, но теперь вы увидете транслированную в аминокислоты нуклеотидную последовательнось. Границы это аминокислотной последовательности мы задали на предыдущем шаге, когда вбивали координаты. Нажмите еще раз Accept в нижней части диалогового окна.

 

 

pr28_29

 

Мы вернулись обратно в главный раздел. Обратите внимание, что в списке Target Sequence под Seq1 появилась Seq1_1 – то есть аминокислотная последовательность.

pr28_30

 

Теперь нам надо провести авотматическое картирование белок-кодирующий части на все остальные последовательности. Это возможно потому, что мы загрузили выровненные относительно друг друга последовательности. Т.о. зная координаты на одной из них, мы можем распространенить картирование на остальные. Для этого в главном меню выберите Edit > Feature Propagate

pr28_31

 

В открывшемся окне Feature Propagate укажите All и нажмите Accept.

pr28_32

Обратите внимание, что теперь в главном окне в списке Target Sequence под каждой последовательностью появился его дубль с расширением _Х – то есть аминокислотные последовательности были расчитаны для всех записей в файле.

pr28_33

 

Последний шаг – это валидация загруженных данных. Для этого нажмите в главном меню Search > Validate.

pr28_34

 

Перед вами появится информационное окно Sequence Validation Errors

pr28_35

Наиболее критическими являются ошибки Reject (например, если у вас есть стоп-кодоны в кодирующей последовательности). Как мы видим их нет – значит скорее всего наши последовательности будут приняты к публикации в GENBANK. Сохраним результирующий файл.

pr28_36

Обратите внимание, что при загрузке и описании генетических данных возникает масса ньюансов в каждом конкретном случае, поэтому старайтесь по возможности вдумчиво относится к отправке данных в базу.