Настройки выравнивания
Выравнивание (картирование) данных секвенирования на референсную геномную последовательность является фундаментальным этапом анализа NGS. Для выравнивания используется версия GRCh38 референсного генома человека. По умолчанию выравнивание производится с помощью инструмента BWA2 Burrows-Wheeler Aligner (BWA-MEM2) - новейшей и более быстрой версии алгоритма BWA-MEM, который основан на обратном поиске с преобразованием Берроуза-Уилера (BWT) и эффективно и быстро выравнивает короткие прочтения секвенирования на геном человека, допуская мисмэтчи и гэпы1. О том, как поменять инструмент выраванивания, вы можете узнать в соответствующем разделе.
#
Отключение выравниванияНа заметку
При отключении выравнивания дальнейший анализ (поиск мутаций, структурных вариаций и вариации числа копий) невозможен.
Если вы хотите отключить выравнивание, выключите соответствующий тумблер:
#
Отключение проверки и восстановления парности прочтенийПри анализе результатов парного секвенирования (в этом случае фрагменты ДНК секвенируют с каждого конца навстречу друг другу) для выравнивания необходимо, чтобы каждое прочтение из одного файла содержало пару во втором, поэтому перед выравниванием проводится проверка и восстановление парности прочтений. Парность (количество и порядок прочтений) могут не совпадать в исходных файлах парного секвенирования. Кроме того, парность может быть нарушена при очистке данных - тогда необходимо удалить прочтения, которые лишились пары. Если количество прочтений в файлах не совпадает, то этапа проверки и восстановления парности не избежать - он запустится, даже если стадия отключена. Однако, если вы уверены в качестве своих данных и хотите ускорить процесс анализа, то вы можете отключить данный этап, выключив тумблер:
#
Смена инструмента для выравниванияПомимо стоящего по умолчанию BWA2 Burrows-Wheeler Aligner для выбора доступны следующие инструменты для выравнивания:
Для смены инструмента для выравнивания нажмите на значение поля "Alignment tools" и выберите нужный выравниватель:
#
Выравнивание синглтоновЕсли прочтение в одном файле не имеет пары в парном файле, оно называется синглтоном (singleton read). Такое может произойти, если в файлах смешаны результаты парного и одиночного секвенирования, либо если парное прочтение было утеряно в ходе предварительной обработки данных (например, во время очистки). Если опция "Use singleton reads" отключена, то синглтоны выбрасываются из дальнейшего анализа на этапе проверки и восстановления парности прочтений. Если вы хотите, чтобы синглтоны тоже выравнивались на геном, включите соответствующий тумблер:
На заметку
Данная опция доступна только при использовании выравнивателей BWA и BWA2.
#
Определение типа секвенированияЕсли вы точно знаете, какой тип секвенирования использовался при получении ваших данных, вы можете выбрать соответствующий тип для ускорения анализа. Это может быть полногеномное секвенирование (WGS) или таргетное секвенирование (экзом или панель). Для выбора типа секвенирования нажмите на значение поля "Sequencing Type" и выберите нужный тип:
Для анализа результатов секвенирования с таргетной панелью можно определить набор capture kit для более точного и быстрого анализа, выбрав нужный capture kit из встроенных и загруженных наборов:
Загрузить свой набор capture kit можно на странице "Реагенты Capture Kit".
#
Метрики оценки качества выравниванияМетрика | Порог метрики, при котором файл выравнивания считается качественным | Значение порога по умолчанию |
Mapped reads (картированные прочтения) | Min mapped reads percent - минимально допустимая доля количества картированных прочтений в файле выравнивания. | 85% |
Multiple alignments (множественные выравнивания) | Max multimaps percent - максимально допустимая доля множественных выравниваний одного и тоже прочтения на геном в файле выравнивания. | 15% |
Forward/reverse balance (равновесие прочтений с прямой и обратной цепи) | Forward/reverse max difference - максимально допустимая разница в количестве прочтений с прямой цепи и прочтений с обратной цепи в файле выравнивания. | 10% |
Paired mapped reads (картированные парные прочтения) | Min paired mapped percent - минимально допустимая доля количества картированных парных прочтений в файле выравнивания. | 80% |
Paired properly mapped reads (правильно картированные парные прочтения) | Min paired properly mapped reads percent - минимально допустимая доля количества правильно картированных парных прочтений в файле выравнивания. | 75% |
Coverage per nucleotide (понуклеотидное покрытие) | Min coverage per nucleotide - минимально допустимое понуклеотидное покрытие на геноме. | 0.1 |
Если значение метрики в файле выравнивания образца не удовлетворяет установленному порогу, то файл отмечается как не удовлетворяющий требованиям метрики, т.е. выравнивание завершается успешно, а в статусе стадии указывается количество метрик, которые не соответствуют критериям. Если же никакие прочтения образца не выровнялись на геном, то стадия "Выравнивание" завершается с ошибкой и анализ останавливается.
#
Изменение порогов метрикЧтобы изменить значение порога метрики, нажмите на текущее значение и отредактируйте. Для сохранения изменений нажмите клавишу "Enter" или кликните левой кнопкой мыши в свободное место на странице.
- Vasimuddin M., Sanchit M., Heng L., Srinivas A. Efficient Architecture-Aware Acceleration of BWA-MEM for Multicore Systems. IEEE Parallel and Distributed Processing Symposium (IPDPS) (2019)↩
- Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv:1303.3997v2 (2013)↩
- Langmead B., Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods 9, 357:359 (2012)↩
- Kim D., Paggi J.M., Park C. et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol 37, 907:915 (2019)↩
- Dobin A., Davis C.A., Schlesinger F. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics 29(1), 15:21 (2013)↩