Перейти к основному содержимому

Настройки контроля качества

Контроль качества - это важный первый шаг в анализе данных секвенирования. Он включает проверку прочтений файла на соответствие критериям качества и, если проверка не была пройдена, очистку исходных данных (обрезку и/или фильтрацию по качеству). Проверка прочтений производится с помощью инструмента Falco, который работает в среднем в три раза быстрее, чем эквивалентный инструмент FastQC1. Обрезка прочтений производится с помощью инструмента Cutadapt, который находит и удаляет последовательности адаптеров, праймеры, поли(А)-хвосты и другие типы нежелательных последовательностей из прочтений2. Фильтрация прочтений производится с помощью инструмента FASTX-Toolkit Quality Filter из набора инструментов FASTX-Toolkit, который отфильтровывает прочтения, основываясь на их качестве.

Отключение контроля качества#

Первичная проверка качества проводится для всех загружаемых в систему файлов в формате FASTQ или BAM и отключить её нельзя. Отключить можно последующую очистку и повторную проверку качества. Для этого нужно выключить тумблер:

Метрики контроля качества прочтений#

МетрикаПорог метрики, при котором прочтения в образце считаются качественнымиЗначение порога по умолчанию
Всего последовательностейMin Total Sequences - минимальное количество прочтений в файле. Если файл образца содержит меньше прочтений до или после очистки, то анализ образца автоматически прерывается.10,000
Распределение длин прочтенийShort Sequence Bound - минимальная длина прочтений в файле. Прочтения, длина которых меньше значения порога, отфильтровываются из дальнейшего анализа.20 п.н.
Max Short Sequences Percent - максимальная доля коротких прочтений в файле. При превышении этого порога проводится обрезка по качеству.25%
Качество по плиткам (tiles)Max Tile Quality Deviation - максимально допустимое отклонение качества прочтений, поступающих из конкретных плиток проточных ячеек, от среднего качества по всем плиткам в файле. Плитки, из которых поступили прочтения, не удовлетворяющие этой метрике, исключаются из анализа.7
Max Tile Bad Quality Cells - максимально допустимое количество проточных ячеек с плитками низкого качества в файле. При превышении этого порога проводится фильтрация по плиткам.10
Качество по основаниямBase Start Count - количество первых нуклеотидов последовательности, рассматриваемых при оценке распределения качества по всем прочтениям в файле.3
Base End Count - количество конечных нуклеотидов последовательности, рассматриваемых при оценке распределения качества по всем прочтениям в файле.3
Min Base Percentile Quality - минимально допустимое качество идентификации нуклеотида в прочтении. При оценке рассматриваются отдельно начальные (в количестве, равном Base Start Count), конечные (в количестве, равном Base End Count) и средние нуклеотиды последовательности. Если качество ниже этого порога, проводится обрезка или фильтрация прочтений в файле.20
Перепредставленные последовательностиMax Overrepresented Sequences Percent - максимальная доля перепредставленных последовательностей в файле. При превышении этого порога файл отмечается как не удовлетворяющий требованиям метрики. Перепредставленные последовательности - последовательности, которые составляют более 0,1% от общего числа последовательностей.1%
Загрязнение адаптерамиMax Adapter Contaminated Percent - максимальная доля прочтений, контаминированных адаптерными последовательностями, в файле. При превышении этого порога проводится удаление адаптеров.1%
Содержание NMax N Content Percent - максимальная доля количества нераспознанных нуклеотидов N среди всех нуклеотидов в файле. При превышении этого порога файл отмечается как не удовлетворяющий требованиям метрики.20%
Содержание GCMin Derivative Threshold - минимальный порог для детекции локальных экстремумов (пиков) содержания пары GC в файле. При обнаружении больше одного пика файл отмечается как не удовлетворяющий требованиям метрики.0.085
Max Wave Sloping Threshold - максимальный порог наклона пика содержания пары GC в файле. Превышение этого порога говорит о том, что в файле наблюдается нарушение содержания GC, и в таком случае файл отмечается как не удовлетворяющий требованиям метрики.0.035
Min Wave Length - минимально допустимая длина волны (расстояние между двумя пиками GC) в файле. Превышение этого порога говорит о том, что в файле наблюдается нарушение содержания GC, и в таком случае файл отмечается как не удовлетворяющий требованиям метрики.4
Содержание основания в последовательности (соотношение AT/GC)Max Cutoff at End - количество нуклеотидов с 3'-конца последовательности, которые не учитываются при оценке содержания четырех типов нуклеотидов в определенной позиции прочтения в файле.3
Max Cutoff at Start - количество нуклеотидов с 5'-конца последовательности, которые не учитываются при оценке содержания четырех типов нуклеотидов в определенной позиции прочтения в файле.15
Cutoff Difference Percent - порог разницы между спаренными основаниями A и T или G и C в файле. При превышении этого порога нуклеотиды на концах прочтений не учитываются.1%
Mean Difference Threshold - порог среднего значения разницы между спаренными основаниями A и T или G и C в файле. При превышении этого порога файл отмечается как не удовлетворяющий требованиям метрики.1%
Max Difference Threshold - порог максимального значения разницы между спаренными основаниями A и T или G и C среди всех прочтений в файле. При превышении этого порога в любой позиции в прочтении файл отмечается как не удовлетворяющий требованиям метрики.20%

Изменение порогов метрик#

Чтобы изменить значение порога метрики, нажмите на текущее значение и отредактируйте. Для сохранения изменений нажмите клавишу "Enter" или кликните левой кнопкой мыши в свободное место на странице.