Настройки контроля качества
Контроль качества - это важный первый шаг в анализе данных секвенирования. Он включает проверку прочтений файла на соответствие критериям качества и, если проверка не была пройдена, очистку исходных данных (обрезку и/или фильтрацию по качеству). Проверка прочтений производится с помощью инструмента Falco, который работает в среднем в три раза быстрее, чем эквивалентный инструмент FastQC1. Обрезка прочтений производится с помощью инструмента Cutadapt, который находит и удаляет последовательности адаптеров, праймеры, поли(А)-хвосты и другие типы нежелательных последовательностей из прочтений2. Фильтрация прочтений производится с помощью инструмента FASTX-Toolkit Quality Filter из набора инструментов FASTX-Toolkit, который отфильтровывает прочтения, основываясь на их качестве.
#
Отключение контроля качестваПервичная проверка качества проводится для всех загружаемых в систему файлов в формате FASTQ или BAM и отключить её нельзя. Отключить можно последующую очистку и повторную проверку качества. Для этого нужно выключить тумблер:
#
Метрики контроля качества прочтенийМетрика | Порог метрики, при котором прочтения в образце считаются качественными | Значение порога по умолчанию |
Всего последовательностей | Min Total Sequences - минимальное количество прочтений в файле. Если файл образца содержит меньше прочтений до или после очистки, то анализ образца автоматически прерывается. | 10,000 |
Распределение длин прочтений | Short Sequence Bound - минимальная длина прочтений в файле. Прочтения, длина которых меньше значения порога, отфильтровываются из дальнейшего анализа. | 20 п.н. |
Max Short Sequences Percent - максимальная доля коротких прочтений в файле. При превышении этого порога проводится обрезка по качеству. | 25% | |
Качество по плиткам (tiles) | Max Tile Quality Deviation - максимально допустимое отклонение качества прочтений, поступающих из конкретных плиток проточных ячеек, от среднего качества по всем плиткам в файле. Плитки, из которых поступили прочтения, не удовлетворяющие этой метрике, исключаются из анализа. | 7 |
Max Tile Bad Quality Cells - максимально допустимое количество проточных ячеек с плитками низкого качества в файле. При превышении этого порога проводится фильтрация по плиткам. | 10 | |
Качество по основаниям | Base Start Count - количество первых нуклеотидов последовательности, рассматриваемых при оценке распределения качества по всем прочтениям в файле. | 3 |
Base End Count - количество конечных нуклеотидов последовательности, рассматриваемых при оценке распределения качества по всем прочтениям в файле. | 3 | |
Min Base Percentile Quality - минимально допустимое качество идентификации нуклеотида в прочтении. При оценке рассматриваются отдельно начальные (в количестве, равном Base Start Count), конечные (в количестве, равном Base End Count) и средние нуклеотиды последовательности. Если качество ниже этого порога, проводится обрезка или фильтрация прочтений в файле. | 20 | |
Перепредставленные последовательности | Max Overrepresented Sequences Percent - максимальная доля перепредставленных последовательностей в файле. При превышении этого порога файл отмечается как не удовлетворяющий требованиям метрики. Перепредставленные последовательности - последовательности, которые составляют более 0,1% от общего числа последовательностей. | 1% |
Загрязнение адаптерами | Max Adapter Contaminated Percent - максимальная доля прочтений, контаминированных адаптерными последовательностями, в файле. При превышении этого порога проводится удаление адаптеров. | 1% |
Содержание N | Max N Content Percent - максимальная доля количества нераспознанных нуклеотидов N среди всех нуклеотидов в файле. При превышении этого порога файл отмечается как не удовлетворяющий требованиям метрики. | 20% |
Содержание GC | Min Derivative Threshold - минимальный порог для детекции локальных экстремумов (пиков) содержания пары GC в файле. При обнаружении больше одного пика файл отмечается как не удовлетворяющий требованиям метрики. | 0.085 |
Max Wave Sloping Threshold - максимальный порог наклона пика содержания пары GC в файле. Превышение этого порога говорит о том, что в файле наблюдается нарушение содержания GC, и в таком случае файл отмечается как не удовлетворяющий требованиям метрики. | 0.035 | |
Min Wave Length - минимально допустимая длина волны (расстояние между двумя пиками GC) в файле. Превышение этого порога говорит о том, что в файле наблюдается нарушение содержания GC, и в таком случае файл отмечается как не удовлетворяющий требованиям метрики. | 4 | |
Содержание основания в последовательности (соотношение AT/GC) | Max Cutoff at End - количество нуклеотидов с 3'-конца последовательности, которые не учитываются при оценке содержания четырех типов нуклеотидов в определенной позиции прочтения в файле. | 3 |
Max Cutoff at Start - количество нуклеотидов с 5'-конца последовательности, которые не учитываются при оценке содержания четырех типов нуклеотидов в определенной позиции прочтения в файле. | 15 | |
Cutoff Difference Percent - порог разницы между спаренными основаниями A и T или G и C в файле. При превышении этого порога нуклеотиды на концах прочтений не учитываются. | 1% | |
Mean Difference Threshold - порог среднего значения разницы между спаренными основаниями A и T или G и C в файле. При превышении этого порога файл отмечается как не удовлетворяющий требованиям метрики. | 1% | |
Max Difference Threshold - порог максимального значения разницы между спаренными основаниями A и T или G и C среди всех прочтений в файле. При превышении этого порога в любой позиции в прочтении файл отмечается как не удовлетворяющий требованиям метрики. | 20% |
#
Изменение порогов метрикЧтобы изменить значение порога метрики, нажмите на текущее значение и отредактируйте. Для сохранения изменений нажмите клавишу "Enter" или кликните левой кнопкой мыши в свободное место на странице.