Перейти к основному содержимому

Проверка качества и очистка

Контроль качества - важный шаг в анализе данных секвенирования. Он запускается после успешного выполнения стадии "Загрузка, идентификация и проверка". Сначала прочтения в файле (файлах) образца проходят проверку на соответствие критериям качества. Затем, если в анализ образца включён контроль качества, а образец не удовлетворяет критериям качества, для него запускается очистка. Очистка может включать фильтрацию прочтений, которые не удовлетворяют критериям качества, и/или обрезку последовательностей адаптеров, праймеров, поли(А)-хвостов и других типов нежелательных последовательностей из прочтений. Очистка прочтений может значительно улучшить качество картирования и поиска вариантов.

В случае образца секвенирования одиночных прочтений контроль качества запустится только для одного файла и соответствующая стадия анализа будет называться "Проверка качества и очистка". В случае образца секвенирования парных прочтений контроль качества запустится для двух парных файлов и соответствующих стадий анализа будет две: "Проверка качества и очистка первичного файла" и "Проверка качества и очистка парного файла".

Стадия анализа образца "Проверка качества и очистка" может включать следующие задачи:

  1. Проверка качества прочтений в файле (файлах) образца с помощью Falco, который работает в среднем в три раза быстрее, чем эквивалентный инструмент FastQC1. В ходе выполнения задачи также определяется формат качества в файле образца. Формат качества записывается в виде Q+число, например "Q33", где Q - Phred quality score, мера качества идентификации нуклеотида в процессе автоматического секвенирования, а 33 - величина смещения по таблице ASCII с символами, которые используются для записи Q. Формат Q33 является более новым и используется Sanger и Illumina 1.8, а формат Q64 - более старый и используется ранними Illumina.

Подробный отчёт с визуализированными результатами проверки качества прочтений образца по каждой метрике контроля качества можно открыть в разделе "Файлы с результатами" в деталях задачи "Проверка качества" ("Открыть Quality Report HTML"). Там же можно скачать тот же отчёт, но в текстовом виде ("Скачать Quality Report Data TXT"). Ниже, в разделе "Метрики" в деталях задачи "Проверка качества" приведены результаты для каждой метрики контроля качества:

Для каждой метрики приведены:

  • название метрики;
  • описание результата проверки соответствия определенного показателя прочтений образца и порога этой метрики: приведены значение показателя для образца (например, общее количество последовательностей в файле - Total sequences) и использованный порог метрики, при котором прочтения в образце считаются качественными (можно поменять в параметрах);
  • результат проверки качества по метрике: , если образец удовлетворяет порогу метрики,
    или , если образец не удовлетворяет порогу метрики.

Метрики контроля качества прочтений#

МетрикаЗначение порога метрики, при котором прочтения в образце считаются качественными (значение по умолчанию, может быть изменено в параметрах)Последствия, если образец не удовлетворяет порогу метрики
Total sequences (всего последовательностей)Минимальное количество прочтений в файле - 10,000.Анализ образца прерывается.
Length distribution (распределение длин прочтений)Файл содержит не более 25% коротких прочтений (прочтения длиной ≤ 20 п.н.).Задача "Обрезка по качеству": фильтрация коротких прочтений.
Tiles sequence quality (Качество по плиткам)Файл содержит не более 10 проточных ячеек с плитками низкого качества (максимально допустимое отклонение качества прочтений, поступающих из конкретных плиток проточных ячеек, от среднего качества по всем плиткам в файле - 7).Задача "Фильтрация по Tile-плитке": плитки, из которых поступили прочтения низкого качества, исключаются из анализа.
First base sequence quality (качество прочтения начальных нуклеотидов последовательности)Качество идентификации трёх начальных нуклеотидов в прочтении не менее 20.Задача "Фильтрация по качеству": фильтрация прочтений с низким качеством.
Middle base sequence quality (качество прочтения средних нуклеотидов последовательности)Качество идентификации средних нуклеотидов в прочтении не менее 20.Задача "Обрезка по качеству" или "Фильтрация по качеству".
Last base sequence quality (качество прочтения конечных нуклеотидов последовательности)Качество идентификации трёх конечных нуклеотидов в прочтении не менее 20.Задача "Обрезка по качеству".
Overrepresented sequences (перепредставленные последовательности)Файл содержит не более 1% перепредставленных последовательностей (последовательности, которые составляют более 0,1% от общего числа последовательностей).Файл отмечается как не удовлетворяющий требованиям метрики.
Adapter contaminated (загрязнение адаптерами)Файл содержит не более 1% прочтений, контаминированных адаптерными последовательностями.Задача "Обрезка по качеству": удаление адаптеров.
Base N content (содержание N)Среди всех нуклеотидов в файле есть не более 20% нераспознанных нуклеотидов N.Файл отмечается как не удовлетворяющий требованиям метрики.
GC content (содержание GC)Максимальный порог наклона пика содержания пары GC в файле - 0.035. Минимально допустимая длина волны (расстояние между двумя пиками GC) в файле - 4.Файл отмечается как не удовлетворяющий требованиям метрики.
Base sequence content (содержание основания в последовательности - соотношение AT/GC)Порог максимального значения разницы между спаренными основаниями A и T или G и C среди всех прочтений в файле - 20%. Порог разницы между спаренными основаниями A и T или G и C в файле - 1%. Порог среднего значения разницы между спаренными основаниями A и T или G и C в файле - 1%.Файл отмечается как не удовлетворяющий требованиям метрики.
  1. Очистка, если включён контроль качества:

    2.1. Фильтрация по Tile-плитке, если проточных ячеек с плитками низкого качества больше 10 (максимально допустимое отклонение качества прочтений, поступающих из конкретных плиток проточных ячеек, от среднего качества по всем плиткам в файле - 7). В ходе фильтрации плитки, из которых поступили прочтения, превышающие максимально допустимое отклонение качества прочтений, исключаются из анализа с помощью BBMap FilterByTile. После фильтрации по Tile-плитке снова проводится проверка качества.

    2.2. Обрезка по качеству:

    • Удаление адаптеров, если файл образца содержит более 1% прочтений, контаминированных адаптернымии последовательностями.
    • Фильтрация коротких прочтений, если файл образца содержит более 25% коротких прочтений (прочтения, длина которых меньше минимальной длины (20 п.н.)).
    • Обрезка по качеству, если качество идентификации трёх конечных нуклеотидов в прочтении ниже порога качества (20).

    Производится с помощью Cutadapt. После задачи обрезки по качеству снова проводится проверка качества, и, если образец всё ещё не удовлетворяет критериям качества, то цикл "обрезка по качеству - проверка качества" итеративно повторяется с различными значениями параметров (порог качества и минимальная длина) до тех пор, пока образец не станет удовлетворять критериям качества.

    2.3. Построение образца: если для образца требуется провести обрезку по качеству, но образец содержит более 600 тысяч прочтений, то для него сначала строится пробная выборка, состоящая из каждого n-ного прочтения образца, где n - частота семплирования (указана в параметрах задачи). Скачать файл построенного образца можно в разделе "Файлы с результатами" в деталях задачи "Построение образца" ("Скачать FASTQ_GZ"). Построенный образец проходит проверку качества, а затем для него итеративно повторяется цикл "обрезка по качеству - проверка качества" с различными значениями параметров (порог качества и минимальная длина) до тех пор, пока образец не станет удовлетворять критериям качества. После этого очистка по качеству и последующая проверка качества запускаются уже для исходного файла образца с теми параметрами, которые были вычислены для пробной выборки.

    2.4. Фильтрация по качеству: если качество идентификации трёх начальных нуклеотидов в прочтении ниже порога качества (20), производится фильтрация прочтений с низким качеством с помощью FASTX-Toolkit Quality Filter. После фильтрации снова проводится проверка качества, и если образец всё ещё не удовлетворяет критериям качества, то цикл "фильтрация по качеству - проверка качества" итеративно повторяется с различными значениями параметров (минимальный показатель качества для сохранения (q) и минимальный процент оснований, которые должны иметь качество q) до тех пор, пока образец не станет удовлетворять критериям качества.

Задачи из итерационных циклов обрезки и фильтрации по качеству, параметры которых не подошли для получения результатов, удовлетворяющих критериям качества, а также задача "Построение образца" имеют статус , так как они непосредственно не связаны с анализом образца.

Скачать файл образца после очистки можно в разделе "Файлы с результатами" в деталях той задачи очистки ("Фильтрация по Tile-плитке", "Обрезка по качеству" или "Фильтрация по качеству"), которая была выполнена последней ("Скачать FASTQ_GZ").

Если в анализ образца включено выравнивание, то после успешного выполнения стадии "Проверка качества и очистка" начнётся стадия "Выравнивание".