Проверка качества и очистка
Контроль качества - важный шаг в анализе данных секвенирования. Он запускается после успешного выполнения стадии "Загрузка, идентификация и проверка". Сначала прочтения в файле (файлах) образца проходят проверку на соответствие критериям качества. Затем, если в анализ образца включён контроль качества, а образец не удовлетворяет критериям качества, для него запускается очистка. Очистка может включать фильтрацию прочтений, которые не удовлетворяют критериям качества, и/или обрезку последовательностей адаптеров, праймеров, поли(А)-хвостов и других типов нежелательных последовательностей из прочтений. Очистка прочтений может значительно улучшить качество картирования и поиска вариантов.
В случае образца секвенирования одиночных прочтений контроль качества запустится только для одного файла и соответствующая стадия анализа будет называться "Проверка качества и очистка". В случае образца секвенирования парных прочтений контроль качества запустится для двух парных файлов и соответствующих стадий анализа будет две: "Проверка качества и очистка первичного файла" и "Проверка качества и очистка парного файла".
Стадия анализа образца "Проверка качества и очистка" может включать следующие задачи:
- Проверка качества прочтений в файле (файлах) образца с помощью Falco, который работает в среднем в три раза быстрее, чем эквивалентный инструмент FastQC1. В ходе выполнения задачи также определяется формат качества в файле образца. Формат качества записывается в виде Q+число, например "Q33", где Q - Phred quality score, мера качества идентификации нуклеотида в процессе автоматического секвенирования, а 33 - величина смещения по таблице ASCII с символами, которые используются для записи Q. Формат Q33 является более новым и используется Sanger и Illumina 1.8, а формат Q64 - более старый и используется ранними Illumina.
Подробный отчёт с визуализированными результатами проверки качества прочтений образца по каждой метрике контроля качества можно открыть в разделе "Файлы с результатами" в деталях задачи "Проверка качества" ("Открыть Quality Report HTML"). Там же можно скачать тот же отчёт, но в текстовом виде ("Скачать Quality Report Data TXT"). Ниже, в разделе "Метрики" в деталях задачи "Проверка качества" приведены результаты для каждой метрики контроля качества:
Для каждой метрики приведены:
- название метрики;
- описание результата проверки соответствия определенного показателя прочтений образца и порога этой метрики: приведены значение показателя для образца (например, общее количество последовательностей в файле - Total sequences) и использованный порог метрики, при котором прочтения в образце считаются качественными (можно поменять в параметрах);
- результат проверки качества по метрике: , если образец удовлетворяет порогу метрики,
или , если образец не удовлетворяет порогу метрики.
#
Метрики контроля качества прочтенийМетрика | Значение порога метрики, при котором прочтения в образце считаются качественными (значение по умолчанию, может быть изменено в параметрах) | Последствия, если образец не удовлетворяет порогу метрики |
Total sequences (всего последовательностей) | Минимальное количество прочтений в файле - 10,000. | Анализ образца прерывается. |
Length distribution (распределение длин прочтений) | Файл содержит не более 25% коротких прочтений (прочтения длиной ≤ 20 п.н.). | Задача "Обрезка по качеству": фильтрация коротких прочтений. |
Tiles sequence quality (Качество по плиткам) | Файл содержит не более 10 проточных ячеек с плитками низкого качества (максимально допустимое отклонение качества прочтений, поступающих из конкретных плиток проточных ячеек, от среднего качества по всем плиткам в файле - 7). | Задача "Фильтрация по Tile-плитке": плитки, из которых поступили прочтения низкого качества, исключаются из анализа. |
First base sequence quality (качество прочтения начальных нуклеотидов последовательности) | Качество идентификации трёх начальных нуклеотидов в прочтении не менее 20. | Задача "Фильтрация по качеству": фильтрация прочтений с низким качеством. |
Middle base sequence quality (качество прочтения средних нуклеотидов последовательности) | Качество идентификации средних нуклеотидов в прочтении не менее 20. | Задача "Обрезка по качеству" или "Фильтрация по качеству". |
Last base sequence quality (качество прочтения конечных нуклеотидов последовательности) | Качество идентификации трёх конечных нуклеотидов в прочтении не менее 20. | Задача "Обрезка по качеству". |
Overrepresented sequences (перепредставленные последовательности) | Файл содержит не более 1% перепредставленных последовательностей (последовательности, которые составляют более 0,1% от общего числа последовательностей). | Файл отмечается как не удовлетворяющий требованиям метрики. |
Adapter contaminated (загрязнение адаптерами) | Файл содержит не более 1% прочтений, контаминированных адаптерными последовательностями. | Задача "Обрезка по качеству": удаление адаптеров. |
Base N content (содержание N) | Среди всех нуклеотидов в файле есть не более 20% нераспознанных нуклеотидов N. | Файл отмечается как не удовлетворяющий требованиям метрики. |
GC content (содержание GC) | Максимальный порог наклона пика содержания пары GC в файле - 0.035. Минимально допустимая длина волны (расстояние между двумя пиками GC) в файле - 4. | Файл отмечается как не удовлетворяющий требованиям метрики. |
Base sequence content (содержание основания в последовательности - соотношение AT/GC) | Порог максимального значения разницы между спаренными основаниями A и T или G и C среди всех прочтений в файле - 20%. Порог разницы между спаренными основаниями A и T или G и C в файле - 1%. Порог среднего значения разницы между спаренными основаниями A и T или G и C в файле - 1%. | Файл отмечается как не удовлетворяющий требованиям метрики. |
Очистка, если включён контроль качества:
2.1. Фильтрация по Tile-плитке, если проточных ячеек с плитками низкого качества больше 10 (максимально допустимое отклонение качества прочтений, поступающих из конкретных плиток проточных ячеек, от среднего качества по всем плиткам в файле - 7). В ходе фильтрации плитки, из которых поступили прочтения, превышающие максимально допустимое отклонение качества прочтений, исключаются из анализа с помощью BBMap FilterByTile. После фильтрации по Tile-плитке снова проводится проверка качества.
2.2. Обрезка по качеству:
- Удаление адаптеров, если файл образца содержит более 1% прочтений, контаминированных адаптернымии последовательностями.
- Фильтрация коротких прочтений, если файл образца содержит более 25% коротких прочтений (прочтения, длина которых меньше минимальной длины (20 п.н.)).
- Обрезка по качеству, если качество идентификации трёх конечных нуклеотидов в прочтении ниже порога качества (20).
Производится с помощью Cutadapt. После задачи обрезки по качеству снова проводится проверка качества, и, если образец всё ещё не удовлетворяет критериям качества, то цикл "обрезка по качеству - проверка качества" итеративно повторяется с различными значениями параметров (порог качества и минимальная длина) до тех пор, пока образец не станет удовлетворять критериям качества.
2.3. Построение образца: если для образца требуется провести обрезку по качеству, но образец содержит более 600 тысяч прочтений, то для него сначала строится пробная выборка, состоящая из каждого n-ного прочтения образца, где n - частота семплирования (указана в параметрах задачи). Скачать файл построенного образца можно в разделе "Файлы с результатами" в деталях задачи "Построение образца" ("Скачать FASTQ_GZ"). Построенный образец проходит проверку качества, а затем для него итеративно повторяется цикл "обрезка по качеству - проверка качества" с различными значениями параметров (порог качества и минимальная длина) до тех пор, пока образец не станет удовлетворять критериям качества. После этого очистка по качеству и последующая проверка качества запускаются уже для исходного файла образца с теми параметрами, которые были вычислены для пробной выборки.
2.4. Фильтрация по качеству: если качество идентификации трёх начальных нуклеотидов в прочтении ниже порога качества (20), производится фильтрация прочтений с низким качеством с помощью FASTX-Toolkit Quality Filter. После фильтрации снова проводится проверка качества, и если образец всё ещё не удовлетворяет критериям качества, то цикл "фильтрация по качеству - проверка качества" итеративно повторяется с различными значениями параметров (минимальный показатель качества для сохранения (q) и минимальный процент оснований, которые должны иметь качество q) до тех пор, пока образец не станет удовлетворять критериям качества.
Задачи из итерационных циклов обрезки и фильтрации по качеству, параметры которых не подошли для получения результатов, удовлетворяющих критериям качества, а также задача "Построение образца" имеют статус , так как они непосредственно не связаны с анализом образца.
Скачать файл образца после очистки можно в разделе "Файлы с результатами" в деталях той задачи очистки ("Фильтрация по Tile-плитке", "Обрезка по качеству" или "Фильтрация по качеству"), которая была выполнена последней ("Скачать FASTQ_GZ").
Если в анализ образца включено выравнивание, то после успешного выполнения стадии "Проверка качества и очистка" начнётся стадия "Выравнивание".