Выявление и аннотация герминальных SNVs/Indels
#
Выявление герминальных SNVs/IndelsПосле успешного выполнения стадии "Предварительная обработка для выявления вариантов" для одиночного образца опухолевой ткани или образца неопухолевой ткани может запуститься выявление герминальных SNVs/Indels, если стадия включена в анализ.
#
1. Выявление герминальных SNVs/IndelsВыявление герминальных однонуклеотидных вариантов (single-nucleotide variants; SNVs) и коротких инсерций/делеций (indels) происходит с помощью инструмента GATK HaplotypeCaller.
#
I. Разделение данных на интервалыДля ускорения процесса и сохранения ресурсов используется операция Scatter-Gather, которая делит входные данные на 64 геномных интервала. При этом, если известен capture kit образца, то данные разделяются с помощью bedtools intersect, который выявляет области, пересекающиеся между отдельными геномными интервалами и интервалами набора capture kit.
#
II. Поиск вариантовВ каждом из получившихся интервалов происходит поиск вариантов с помощью GATK HaplotypeCaller. HaplotypeCaller способен одновременно распознавать однонуклеотидные варианты и инделы посредством локальной сборки гаплотипов de novo в активном регионе. Другими словами, всякий раз, когда программа встречает регион с признаками вариации, она отбрасывает существующую информацию о картировании и полностью пересобирает прочтения в этом регионе. Это повышает точность при распознавании регионов, которые традиционно сложно распознать, например, когда они содержат разные типы вариантов близко друг к другу.
Встроенная референсная модель HaplotypeCaller создается с помощью сжатия гомозиготных референсных сайтов в полосы сходного качества генотипа в формате GVCF (Genomic VCF). Ключевое различие между обычным VCF и GVCF заключается в том, что GVCF содержит записи для всех сайтов, независимо от того, есть ли там распознавание варианта или нет. Цель состоит в том, чтобы каждый сайт был представлен в файле, чтобы на последующих этапах можно было провести совместный анализ когорты. Записи в GVCF включают точную оценку того, насколько мы уверены в определении того, являются ли сайты гомозиготными по референсу или нет.
По умолчанию при поиске вариантов учитываются мягко отсекаемые основания (soft clipped bases), т.е. основания, находящиеся на концах секвенирования последовательности и не совпадающие с референсной последовательностью. Это регулируется соответствующей настройкой.
#
III. Объединение полученных файлов GVCFС помощью GATK CombineGVCFs проводится объединение GVCF файлов, полученных HaplotypeCaller, в один GVCF файл с соответствующими аннотациями. Получившийся файл сжимается в GZIP архив с помощью bgzip. Его можно скачать в разделе "Файлы с результатами" в деталях задачи "Выявление герминальных SNVs/Indels" ("Скачать VCF_GZ"). Также этот файл можно открыть в IGV, нажав на ссылку "Открыть в IGV браузере". Кроме того, файл индексируется с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").
#
2. Совместное генотипированиеНа следующем этапе GATK GenotypeGVCFs выполняет совместное генотипирование образцов, в которых предварительно был проведен поиск вариантов с помощью HaplotypeCaller. Получившийся файл сжимается в GZIP архив с помощью bgzip. Его можно скачать в разделе "Файлы с результатами" в деталях задачи "Совместное генотипирование" ("Скачать VCF_GZ"). Также этот файл можно открыть в IGV, нажав на ссылку "Открыть в IGV браузере". Кроме того, VCF файл индексируется с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").
#
3. Фильтрация герминальных SNVs/Indels#
I. Выбор SNVs/IndelsGATK SelectVariants выбирает подмножество вариантов (отдельно однонуклеотидные варианты и отдельно инделы) из VCF файла. Получившиеся файлы с однонуклеотидными вариантами и с инделами сжимаются в GZIP архивы с помощью bgzip. Их можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация герминальных SNVs/Indels" ("Скачать Unfiltered SNPs VCF_GZ" и "Скачать Unfiltered INDELs VCF_GZ", соответственно). Также эти файлы можно открыть в IGV, нажав на ссылку "Открыть в IGV браузере". Кроме того, VCF файлы индексируются с помощью tabix. Получившиеся индексные файлы можно скачать в том же разделе ("Скачать Unfiltered SNPs VCF_TBI" и "Скачать Unfiltered INDELs VCF_TBI").
#
II. Фильтрация SNVs/IndelsДалее осуществляется хардфильтрация (hard filtering) вызовов вариантов (отдельно однонуклеотидных вариантов и инделов) с помощью GATK VariantFiltration на основе аннотаций INFO и/или FORMAT. Записи отфильтровываются путём изменения значения в поле "FILTER" на значение, отличное от "PASS". Отфильтрованные записи сохраняются в выходных данных. Фильтрация производится на основе параметров хардфильтрации, заданных для образца в настройках.
Получившиеся файлы с отфильтрованными однонуклеотидными вариантами и инделами сжимаются в GZIP архивы с помощью bgzip. Их можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация герминальных SNVs/Indels" ("Скачать Filtered SNPs VCF_GZ" и "Скачать Filtered INDELs VCF_GZ", соответственно). Также эти файлы можно открыть в IGV, нажав на ссылку "Открыть в IGV браузере". Кроме того, VCF файлы индексируются с помощью tabix. Получившиеся индексные файлы можно скачать в том же разделе ("Скачать Filtered SNPs VCF_TBI" и "Скачать Filtered INDELs VCF_TBI").
#
III. Объединение отфильтрованных вариантовС помощью GATK MergeVcfs проводится объединение VCF файлов с отфильтрованными однонуклеотидными вариантами и отфильтрованными инделами в один файл в формате VCF со всеми отфильтрованными герминальными вариантами, выявленными в образце. Получившийся файл сжимается в GZIP архив с помощью bgzip. Его можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация герминальных SNVs/Indels" ("Скачать Filtered SNPs/INDELs VCF_GZ"). Также этот файл можно открыть в IGV, нажав на ссылку "Открыть в IGV браузере". Кроме того, VCF файл индексируется с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать Filtered SNPs/INDELs VCF_TBI").
#
Аннотация герминальных SNVs/IndelsПосле успешного выполнения стадии "Выявление герминальных SNVs/Indels" осуществляется аннотация выявленных герминальных вариантов.
#
1. Аннотация герминальных SNVs/IndelsАннотация SNVs/Indels в файлах данными из баз RefSeq, 1000 Genomes, dbNSFP, dbSNP, gnomAD 3, gnomAD 4, ClinVar, CADD, SpliceAI, ENIGMA. Восстановление информации о фазовых группах в пределах определённого геномного интервала (размер интервала регулируется в параметрах).
Определение влияния SNVs/Indels на гены, транскрипты, белковые последовательности и регуляторные области с помощью Ensembl Variant Effect Predictor (VEP):
PolyPhen предсказывает возможное влияние замены аминокислоты на структуру и функцию белка, используя простые физические и сравнительные соображения.
Отмечается, является ли транскрипт, в котором расположен вариант, каноническим транскриптом для гена.
Определяется номер аллеля из входных данных VCF.
Определяется номер затронутых экзонов и интронов.
Добавляется номенклатура HGVS на основе стабильных идентификаторов Ensembl.
Варианты определяются как upstream, если они расположены перед геном и расстояние между вариантом и транскриптом больше 2000 п.о., и downstream, если варианты расположены после гена и расстояние между вариантом и транскриптом больше 1000 п.о.
Получившийся файл с сырыми аннотированными вариантами в формате TSV можно скачать в разделе "Файлы с результатами" в деталях задачи "Аннотация герминальных SNVs/Indels" ("Скачать Raw annotated TSV"). Его также можно открыть в таблицах Google.
Файлы с аннотированными вариантами без дубликатов: всеми вариантами и вариантами, прошедшими фильтрацию, - в формате TSV можно скачать в том же разделе ("Скачать All variants TSV" и "Скачать Filtered variants TSV", соответственно). Их также можно открыть в таблицах Google. Те же файлы, но в формате CSV можно скачать там же ("Скачать All variants CSV" и "Скачать Filtered variants CSV").
Конвертация результатов в формате TSV в формат VCF.
Замена или исправление заголовков файлов VCF с помощью GATK FixVCFHeader.
Сжатие файлов VCF в GZIP архив с помощью bgzip. Получившиеся файлы можно скачать в разделе "Файлы с результатами" в деталях задачи "Аннотация герминальных SNVs/Indels" (файл со всеми вариантами: "Скачать All variants VCF_GZ", файл с вариантами, прошедшими фильтрацию: "Скачать Filtered variants VCF_GZ"). Также эти файлы можно открыть в IGV, нажав на ссылку "Открыть в IGV браузере".
Индексация файлов VCF с помощью tabix. Получившиеся индексные файлы можно скачать в том же разделе ("Скачать All variants VCF_TBI" и "Скачать Filtered variants VCF_TBI").
Вычисление статистики вариантов.
#
2. Сохранение проаннотированных вариантов для SNV ViewerСохранение результатов для показа во встроенном модуле для просмотра и анализа вариантов SNV Viewer и добавление информации о встречаемости варианта в других образцах пользователя.
После стадии "Аннотация герминальных SNVs/Indels" анализ может продолжиться генерацией отчётов.
На заметку
Если вы хотите добавить в вашу десктопную версию IGV трек с герминальными SNVs/Indels, выявленными в результате анализа загруженного вами образца в Genomenal, вы можете сделать это через ссылку. Откройте детали нужной задачи ("Выявление герминальных SNVs/Indels", "Совместное генотипирование", "Фильтрация герминальных SNVs/Indels", "Аннотация герминальных SNVs/Indels") и сделайте следующее:
- Нажмите правой кнопкой мыши на ссылку файла с вариантами (в зависимости от выбранной задачи и ваших потребностей ссылка может называться "Скачать VCF_GZ", "Скачать Unfiltered SNPs VCF_GZ", "Скачать Unfiltered INDELs VCF_GZ", "Скачать Filtered SNPs VCF_GZ", "Скачать Filtered INDELs VCF_GZ", "Скачать Filtered SNPs/INDELs VCF_GZ", "Скачать Filtered SNPs/INDELs VCF_GZ", "Скачать All variants VCF_GZ" или "Скачать Filtered variants VCF_GZ") и выберите опцию "Копировать адрес ссылки".
- Загрузите трек через URL в вашу десктопную версию IGV, как это описано здесь.
- Нажмите правой кнопкой мыши на ссылку для скачивания индексного файла, соответствующего файлу аннотации, ("Скачать VCF_TBI", "Скачать Unfiltered SNPs VCF_TBI", "Скачать Unfiltered INDELs VCF_TBI", "Скачать Filtered SNPs VCF_TBI", "Скачать Filtered INDELs VCF_TBI", "Скачать Filtered SNPs/INDELs VCF_TBI", "Скачать Filtered SNPs/INDELs VCF_TBI", "Скачать All variants VCF_TBI" или "Скачать Filtered variants VCF_TBI") и выберите опцию "Копировать адрес ссылки".
- Добавьте URL индексного файла в соответствующее поле в IGV.
- Нажмите "OK". Готово! Трек с герминальными SNVs/Indels, выявленными в образце, добавлен в IGV.