Apr 24, 2024

Public workspaceЗагрузка сиквенсов в базу данных коллекции (Specify 7) и экспорт данных в GenBank и GBIF

Загрузка сиквенсов в базу данных коллекции (Specify 7) и экспорт данных в GenBank и GBIF
  • 1Yugra State University
Open access
Protocol CitationNina Filippova, Elena Zvyagina 2024. Загрузка сиквенсов в базу данных коллекции (Specify 7) и экспорт данных в GenBank и GBIF. protocols.io https://dx.doi.org/10.17504/protocols.io.3byl4975jgo5/v1
License: This is an open access protocol distributed under the terms of the Creative Commons Attribution License,  which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited
Protocol status: Working
We use this protocol and it's working
Created: April 14, 2024
Last Modified: April 24, 2024
Protocol Integer ID: 98165
Keywords: dnaDerivedData, Specify_7, GBIF, DwC, openData
Funders Acknowledgement:
Grant from the federal budget for the implementation of the state assignment "Molecular-genetic methods in the study and assessment of biodiversity in the Northern regions
Grant ID: FENG-2024-0003
Abstract
Protocol for uploading sequences and their metadata into the Specify 7 database and subsequent export of data to GenBank and GBIF.
  1. The first stage of preparing sequences involves their initial processing (trimming ends, assembling), saving the edited sequence, and adding comments to the laboratory journal.
  2. The second stage involves the actual uploading of sequences, their metadata, and trace files into the Specify 7 database. The database serves as the primary long-term storage location for the sequences. From here, the data is exported to GenBank and GBIF.
  3. Exporting data to GenBank is done by creating a request in Specify and then uploading the table and sequences to GenBank through batch upload.
  4. Exporting sequence data to GBIF is done for all sequences open for publication in the database after receiving the corresponding numbers in GenBank. The export of sequences is done through a query template, exporting to a .csv table, and then importing the table into the Integrated Publishing Toolkit portal, where each sequence is linked to the corresponding specimen in the collection dataset.
Safety warnings
Attention
При внесении данных в Specify, старайтесь периодически сохранять карточку, чтобы не потерять внесенные данные.
Ethics statement
Протокол не требует согласования с этическим комитетом.
Before start
Для выполнения протокола необходимо:
1) Установить программное обеспечение для анализа хроматограмм,
2) Зарегистировать аккаунт и получить доступ к соответствующим инструментам в ИС "Specify 7" (http://specify.ugrasu.ru/),
3) Зарегистрировать аккаунт на портале GenBank (https://www.ncbi.nlm.nih.gov/),
4) Зарегистрировать аккаунт и получить доступ к соответствующим инструментам в IPT (http://ipt.ugrasu.ru:8080/),
5) Получить доступ к лабораторному журналу и хранилищу сиквенсов лаборатории.
Подготовка сиквенсов
Подготовка сиквенсов
Первая стадия подготовки сиквенсов включает их первичную обработку (обрезание концов, ассемблинг, и другие операции по необходимости), сохранение готовой отредактированной последовательности и комментарии в лабораторном журнале.
Создать проект для первичного редактирования сиквенсов в Codon Code Aligner или другом программном обеспечении. Загрузить исходные последовательности с исходными именами (номерами пробирок).
Провести анализ и необходимое редактирование сиквенсов:
  1. Если сиквенс слишком короткий, грязный или не отвечает другим параметрам качества, напротив этого сиквенса в лабораторном журнале (поле SeqQualRemarks) ставится пометка "плохой" и в дополнительном поле комментарий (поле REMARKS) - рекомендация (сделать с нуля, поставить вторично секвенсовую, поставить обратную секвенсовую и др). Такой сиквенс не загружается в Specify.
  2. Если сиквенс не достаточной длины, но хорошего качества, в лабораторном журнале (поле SeqQualRemarks) ставится пометка "хороший" и в дополнительном поле комментария (поле REMARKS) - "сделать обратный". Такой сиквенс редактируется и загружается в Specify, оставляя поле сиквенса пустым (оно будет заполнено после получения обратной последовательности).
  3. Если сиквенс достаточно хороший, его редактируют, проверяют по базе NCBI утилитой BLAST и сохраняют в формате FASTA, в первой строке .fas файла после знака > вносят номер образца с акронимом гербария и через нижнее подчеркивание указывают локус .

Пример подготовленной последовательности сиквенса
Пример подготовленной последовательности сиквенса
4. Результат проверки по базе NCBI вносят в соответствующие поля в лабораторном журнале (поля BLAST_closest_species, genSequence FASTA, BLAST_closest_ID, TYPE_specimen), а затем загружается в Specify в полном объеме (см. ниже).
ABCDEFGHIJKL
№ пробирки№ в коллекцииВид в коллекции BLAST ближайшее сходствоИмя исходного файлаПоследовательность% BLASTBLAST closest IDTYPE specimenGenBankIDSeq_Qual_RemarksWork_remarks
173YSU-F-12619Lentinus castoreusLentinellus sublineolatus173_ITS_F_A09_01_2022-10-06-23-24-52.ab1seq99.4NR_119505.1TENN:059307OQ450397хорошийкороткий, сделать обратный
173YSU-F-12619Lentinus castoreusLentinellus sublineolatus173_ITS_R_A08_01_2023-02-15-16-27-33.ab1 хороший
174YSU-F-12628Hypsizygus ulmariusHypsizygus marmoreus174_ITS_F_B09_02_2022-10-06-23-24-52.ab1seq99.0OP980886.1 OQ450398хорошийкороткий, сделать обратный
174YSU-F-12628Hypsizygus ulmariusHypsizygus marmoreus174_ITS_R_B08_02_2023-02-15-16-27-33.ab1 хороший
175YSU-F-12594Cortinarius adustoremosusCortinarius adustorimosus175_ITS_F_C09_03_2022-10-06-23-24-52.ab1seq99.0NR_172319.1PC:R. Henry 883OQ450391хорошийкороткий, сделать обратный
175YSU-F-12594Cortinarius adustoremosusCortinarius adustorimosus175_ITS_R_A07_01_2023-02-14-17-16-01.ab1 хороший
Пример фрагмента таблицы лабораторного журнала с анализом качества полученных последовательностей и оценкой ближайшего сходства
Загрузка сиквенсов в БД Specify 7
Загрузка сиквенсов в БД Specify 7
Вторая стадия - собственно загрузка сиквенсов, их метаданных и исходных файлов в БД Specify 7. База данных является основным местом хранения сиквенсов на долгую перспективу. Отсюда данные экспортируются в GenBank и GBIF. Внесение данных на этом этапе требует внимательного отношения.
Войти в БД Specify 7 под своим логином. Сделать поиск и открыть карточку соответствующего образца коллекции.
В нижней части формы, открыть кнопку DNA sequence. Внести данные в поля:
  1. Genbank Accession Number - обязательное поле. Если номера еще нет, внести название фаста-файла без знака > (например, "YSU-F-12619_LOCUS")
  2. Molecule type - по умолчанию "DNA" (или выбрать иное)
  3. Sequencer - выбрать ФИО ответственного за секвенирование
  4. BOLD Barcode ID - добавить уникальный номер BOLD, если имеется
  5. Target Marker - по умолчанию "ITS", можно выбрать соответствующий локус
  6. Collection object - заполняется автоматически при сохранении
  7. Make public - поставить галочку, если сиквенс открыт для публикации в GenBank и GBIF, открывается после получения номера генбанка
  8. Assembled - поставить галочку, если получена консенсусная последовательность из прямого и обратного (или других) ридов
  9. Nucleotide Sequence - вставить последовательность в формате FASTA. См. пример ниже
  10. Отредактировать последовательность так, чтобы в названии последовательности был номер коллекции в формате ">YSU-F-12619_LOCUS", без кавычек, вместо LOCUS соответствующий маркер ДНК
  11. Открыть следующую форму: DnaR (DNA Sequencing Runs), в которой будет внесена информация об исходных файлах.

Пример формы для заполнения данных полученного сиквенса (таблица DNA Sequence)
Пример формы для заполнения данных полученного сиквенса (таблица DNA Sequence)



Открыть кнопку DnaR (DNA sequence runs). Внести данные в поля:
  1. Trace File Name - название .ab1 файла исходного сиквенса
  2. Run Date - скопировать дату из названия .ab1
  3. Seq Primer Name - название праймера секвенсовой реакции (в нашем случае при использовании адаптеров используется 2 значения: M13F, M13R). При использовании для ПЦР праймеров без адаптеров, секвенирование производится с праймерами для ПЦР. Соответственно в этом случае указывается соответствующий праймер
  4. DNA Primer - название пары праймеров, использованных во время ПЦР (выбор из выпадающего списка)
Note
В базу данные внесено большое число используемых праймеров и их метаданные. Ввод новых пар понадобится в исключательных случаях использования новых праймеров. В этом случае нужно нажать значок "+" рядом с полем DNA Primer и внести данные в открывшуюся форму
5. Seq Type - тип секвенирования (по умолчанию "Sanger")
6. Если исходных праймеров несколько (например, прямой и обратный), то заполнить следующий файл, нажав "+" в левом верхнем углу формы
7. После заполнения всех форм, нажать "закрыть".


Пример формы для заполнения данных исходных файлов (таблица DNA Sequencing Runs)
Пример формы для заполнения данных исходных файлов (таблица DNA Sequencing Runs)

Пример формы для заполнения данных праймеров (таблица DNA Primer)
Пример формы для заполнения данных праймеров (таблица DNA Primer)

Прикрепить исходные .ab1 файлы сиквенсов:
  1. Прикрепить исходные файлы сиквенсов можно в форме DNA Seq Runs или DNA Sequences
  2. Мы пользуемся DNA Sequence Attachments
  3. Открыть форму, нажать "+", перетащить соответствующий файл, и т.д. (метаданные файла заполняются автоматически)
  4. По завершении нажать "Close" формы DNA Sequences

Добавить новую детерминацию таксона на основе поиска ближайших последовательностей в NCBI:
  1. Добавить новую детерминацию к уже существующей истории определений (нажать "+" рядом с заголовком формы Determinations)
  2. Добавить новый таксон
  3. Добавить ФИО того, кто выполнил поиск в BLAST
  4. Добавить дату (когда выполнен поиск, или когда был получен сиквенс)
  5. В поле "Remarks" добавить комментарий по шаблону:

  • Closest type specimen sequence (NR_119505) 99.4%
  • Closest voucher specimen sequence (TD119503) 99.1%

Пример заполнения детерминации таксона на основе молекулярных признаков (поиск ближайшей последовательности в NCBI BLAST)
Пример заполнения детерминации таксона на основе молекулярных признаков (поиск ближайшей последовательности в NCBI BLAST)


Note
Алгоритм выбора таксона для новой детерминации:
1. При обнаружении в NCBI последовательности типового образца таксона (последовательности ITS курируемой базы типовых образцов грибов в GenBank обычно начинаются с NR_), максимально перекрывающейся с наашей и сходной более чем на 99%, внести в карточку детерминацию до вида, к которому принадлежит данный типовой образец.
2. В случае, если сходство с типовым образцом составляет менее 99% и родовые названия ближайших последовательностей соответствуют морфологическому определению нашего образца - сделать новою детерминацию только до уровня рода.
3. Во всех остальных случаях произвести ревизию образца и последовательности, текущую детермицаию в карточке не менять до принятия решения о новой детерминации.

Note
НЕ ЗАБУДЬТЕ нажать Save перед закрытием формы образца (Collection Object Form), иначе внесенные сиквенсы и определения не сохранятся.

Сохранение данных после заполнения форм сиквенсов
Сохранение данных после заполнения форм сиквенсов


Экспорт данных в GenBank
Экспорт данных в GenBank
Экспорт данных в GenBank осуществляется через создание запроса в Specify и последующую загрузку таблицы и сиквенсов пакетным образов в GenBank.

Войти в БД Specify 7 под своим логином. Зайти в раздел Queries и выбрать запрос под названием GENBANK export
Последовательность действий при выборе шаблона запроса для экспорта данных сиквенсов в GenBank
Последовательность действий при выборе шаблона запроса для экспорта данных сиквенсов в GenBank

В открывшихся настройках запроса в поле Cat Number с включенным оператором "In" ввести необходимые образцы для экспорта в GenBank (например: 12619, 12628, 12594).

Note
В большинстве случае в результатах поиска получается дублирование записей из-за наличия прямого и обратного сиквенса в таблице Dna Sequencing Runs (откуда происходит запрос праймеров). Избавиться от дублирования можно удалением дубликатов в итоговой таблице.

Экспортировать созданный запрос в виде таблицы .csv.

Note
Пакетный импорт сиквенсов и метаданных в GenBank требует строгого соблюдения формата данных. Шаблоны с примерами можно скачать в последней секции "Шаблоны".

Подготовьте файл с метаданными сиквенса (модификаторами). Для этого скачайте шаблон таблицы формата .tsv с портала GenBank или создайте файл с соответствующими названиями полей:
AB
Sequence_IDИдентификатор сиквенса, должен совпадать с названием сиквенса в фаста файле (YSU-F-12594)
OrganismНазвание таксона на латыни (Cortinarius adustorimosus)
Specimen-VoucherНомер ваучерного образца (YSU-F-12594)
CountryСтрана (Russia)
Latitude-LongitudeШирота и долгота в формате (61.04119 N 69.31318 E)
Collection-DateДата сбора образца (03.10.2023)
Collected-ByАвтор находки (Bulyonkova, Tatiana)
Fwd-Primer-NameНазвание прямого праймера (ITS1-F)
Rev-Primer-NameНазвание обратного праймера (ITS4)
Fwd-Primer-SeqПоследовательность прямого праймера
Rev-Primer-SeqПоследовательность обратного праймера
Пример заполнения полей модификаторов (метаданных сиквенса) при загрузке последовательностей в GenBank пакетным образом

Перенесите данные из скачанной из Specify таблицы в шаблон. Отредактируйте формат данных в поле географических координат, Страна и Дата. Сохраните шаблон с данными в виде .tsv файла.


Note
В случае, если загружается последовательности, которые были собраны (assembled) и не собранные, на этом шаге нужно разделить таблицу и сиквенсы на 2 части и последовательно загрузить их в GenBank двумя партиями.

Подготовьте файл с сиквенсами в формате Fasta: скопируйте последовательности из столбца экспортированной таблицы Gene Sequence в текстовый файл. Убедитесь, что между названием сиквенса и его последовательностью есть перенос строки или добавьте переносы. Сохраните файл с расширением .fasta или .txt.
Зайдите на портал NCBI (https://www.ncbi.nlm.nih.gov/) под своим логином.
Пройдите последовательно шаги ввода данных для отправки сиквенса:
  1. Submit
  2. GenBank
  3. New Submission
  4. Submission Type (ribosomal RNA (rRNA) or rRNA-ITS; Eukaryotic nuclear rRNA or rRNA-ITS; contains rRNA-ITS region)
  5. Submitter (Group 1 - настройте группу соавторов для каждого случая пакетного импорта)
  6. Sequencing technology (Sanger dideoxy sequencing)
  7. Assembly state (Unassembled sequence reads или Assembled sequences)
  8. Sequences (на этом шаге загружается подготовленный файл с сиквенсами в формате fasta. В случае, если появляются предупреждения об ошибках, файл можно отредактировать и загрузить еще раз).
  9. Source info (Specimen - Voucher)
  10. Source midifiers (на этом шаге выбираем "upload a tab-delimited table" и загружаем подготовленный файл с модификаторами)
  11. References (выбираем авторов сиквенсов, публикацию/проект и ее авторов из ранее созданных групп, или создаем заново)
  12. Revew and Submit (проверяем результат загрузки и нажимаем Submit).

Последовательность ввода данных сиквенсов на портале GenBank (стрелками отмечены этапы, когда загружаются подготовленные шаблоны с данными для пакетной публикации)
Последовательность ввода данных сиквенсов на портале GenBank (стрелками отмечены этапы, когда загружаются подготовленные шаблоны с данными для пакетной публикации)

После получения уникальных номеров сиквенсов в GenBank, зайдите в базу данных Specify и добавьте номера в соответствующее поле в шаблоне DNA Sequence.
Экспорт данных сиквенсов в GBIF
Экспорт данных сиквенсов в GBIF
Экспорт данных сиквенсов в GBIF осуществляется для всех открытых для публикации сиквенсов в базе данных после получения соответствующих номеров в GenBank. Публикация осуществляется регулярно раз в месяц (в первых числах каждого месяца). Экспорт сиквенсов осуществляется через шаблон запроса, экспорт в таблицу .csv, и последующий импорт таблицы на портал Integrated Publishing Toolkit, где каждый сиквенс получает привязку к соответствующему образцу набора данных коллекции.
Войти в БД Specify 7 под своим логином. Зайти в раздел Queries и выбрать запрос под названием YSU-F-GBIF-Seq

Последовательность действий при выборе шаблона запроса для экспорта данных сиквенсов в GBIF
Последовательность действий при выборе шаблона запроса для экспорта данных сиквенсов в GBIF

В открывшейся форме запроса можно настроить редактирование на экспорт по заданным параметрам, или использовать поиск всех имеющихся последовательностей:
  1. CatNumber - номер образца в коллекции (используя оператор "In" можно перечислить интересующие номера через запятую)
  2. BoldSampleID - номер сиквенса в BOLD
  3. Primer Name Forward - название прямого праймера (ПЦР)
  4. Primer Name Reverse - название обратного праймера (ПЦР)
  5. Primer Seq Forward - последовательность прямого праймера
  6. Primer Seq Reverse - последовательность обратного праймера
  7. Genbank Accession Number - номер в генбанке
  8. Gene Sequence - используя оператор "Not Empty" настроен экспорт только заполненного поля с последовательностью сиквенса. В противном случае поиск выдаст все 10K образцов в базе данных
  9. Seq type - тип секвенирования
  10. Target Marker - маркер
  11. Make Public - True (запрос только тех сиквенсов которые разрешены для публичной публикации)
  12. Determinations | is Current - поле "текущая детерминация" с оператором "True or Empty" помогает отфильтровать только последние детерерминации, если их было несколько у одного образца. В противном случае поиск выдаст примерно в 2 раза больше записей, номера образцов при этом будут дублироваться.

Скриншот настройки запроса для выбора диапазона сиквенсов из базы данных
Скриншот настройки запроса для выбора диапазона сиквенсов из базы данных

Создать запрос (Query) и экспортировать его в таблицу (Create CSV) и скачать ее на компьютер

Последовательность действий при скачивании данных созданного запроса: Query > Create CSV > Notifications > Download > Close
Последовательность действий при скачивании данных созданного запроса: Query > Create CSV > Notifications > Download > Close

Загруженная таблица может потребовать доработки: добавления нулей в поле номеров коллекции (5-значный номер), или другие погрешности при вводе данных (лучше редактировать сразу в базе данных и повторить экспорт).
Загрузка таблицы сиквенсов на портал IPT и публикация в GBIF
Загрузка таблицы сиквенсов на портал IPT и публикация в GBIF
Публикация данных в GBIF происходит через размещение исходных данных на портале Integrated Publishing Toolkit. В случае загрузки сиквенсов, используется специальное расширение DNA-derived-data, которое позволяет связать таблицу сиквенсов с таблицей загруженных ранее образцов коллекции.
Зайти на портал IPT под своим логином (http://ipt.ugrasu.ru:8080/). Открыть интересующий набор данных на портале IPT (в нашем случае The Fungarium of Yugra State University), начать редактирование набора данных.
В разделе Source Data удалить (если раньше была загружена) и добавить новую таблицу сиквенсов.

Начало загрузки таблицы сиквенсов в IPT: Source Data
Начало загрузки таблицы сиквенсов в IPT: Source Data

В разделе  Darwin Core Mappings добавить новое картирование и связать поля таблицы сиквенсов с полями IPT. Отредактировать и сохранить картирование и перейти к редактированию набора данных.
! связывание полей пройдет автоматически, если в исходной таблице названия столбцов переименовать в названия полей в IPT.
AB
Название поля в SpecifyНазвание для импорта в IPT
Cat numberoccurrenceID
Primer Name Forwardpcr_primer_forward
Primer Seq Forwardpcr_primer_reverse
Primer Name Revpcr_primer_name_forward
Primer Seq Revpcr_primer_name_reverse
Primer Ref Cit Forwardpcr_primer_reference
Genbank Accession Numberurl
Gene SequenceDNA_sequence
Seq typeseq_meth
Target Markertarget_gene
Шаблон для переименования заголовков столбцов таблицы сиквенсов для импорта в IPT
Обновить метаданные набора данных: если идет обновление только сиквенсов, то обновить информацию об общем числе полученных сиквенсов и прошедших баркодинг образцов в Абстракте и Методике работы. Нажать Publish и подождать некоторое время, пока пройдет обновление набора данных в GBIF.
Проверить несколько загруженных образцов в наборе данных в GBIF. Таблица с сиквенсами появится в нижней части карточки образца в разделе Dna Derived Data.

Пример таблицы сиквенса и его метаданных для образца, опубликованного в наборе данных коллекции Фунгария ЮГУ: https://www.gbif.org/occurrence/4605346470
Пример таблицы сиквенса и его метаданных для образца, опубликованного в наборе данных коллекции Фунгария ЮГУ: https://www.gbif.org/occurrence/4605346470

Источники информации о формате данных DNA-Derived-Data и публикации данных последовательностей в GBIF:
CITATION
dnaDerivedData (2021). DNA derived data. Darwin Core Extension .

CITATION
Abarenkov K, Andersson AF, Bissett A, Finstad AG, Fossøy F, Grosjean M, Hope M, Jeppesen TS, Kõljalg U, Lundin D, Nilsson RN, Prager M, Provoost P, Schigel D, Suominen S, Svenningsen C & Frøslev TG (2023). Publishing DNA-derived data through biodiversity data platforms, v1.3..

Шаблоны
Шаблоны
Download GENBANK_SEQ_template.fasGENBANK_SEQ_template.fas1KB

Download GenBank_modifiers_template.csvGenBank_modifiers_template.csv0B

Download GBIF_seq_template.xlsxGBIF_seq_template.xlsx15KB

Protocol references
Abarenkov K, Andersson AF, Bissett A, Finstad AG, Fossøy F, Grosjean M, Hope M, Jeppesen TS, Kõljalg U, Lundin D, Nilsson RN, Prager M, Provoost P, Schigel D, Suominen S, Svenningsen C & Frøslev TG (2023) Publishing DNA-derived data through biodiversity data platforms, v1.3. Copenhagen: GBIF Secretariat. https://doi.org/10.35035/doc-vf1a-nr22.
Filippova N, Ganasevich G, Filippov I, Meshcheryakova A, Lapshina E, Karpov D (2022) Yugra State University Biological Collection (Khanty-Mansiysk, Russia): general and digitisation overview. Biodiversity Data Journal 10: e77669. https://doi.org/10.3897/BDJ.10.e77669.

Citations
Step 6.6
Abarenkov K, Andersson AF, Bissett A, Finstad AG, Fossøy F, Grosjean M, Hope M, Jeppesen TS, Kõljalg U, Lundin D, Nilsson RN, Prager M, Provoost P, Schigel D, Suominen S, Svenningsen C & Frøslev TG. Publishing DNA-derived data through biodiversity data platforms, v1.3.
https://doi.org/10.35035/doc-vf1a-nr22