Биоинформатический отчёт
Вкладка "Биоинформатический отчёт" на странице образца включает основные метрики, которые помогут оценить качество исходных данных, качество выравнивания и покрытие данных, а также включает отчёты по выявленным SNVs/Indels.
На заметку
В биоинформатическом отчёте опухолевого образца из набора образцов опухоль/контроль представлена информация для файлов опухолевого и контрольного образцов:
В биоинформатическом отчёте образцов неопухолевой ткани и одиночных образцов опухоли представлена информация о файлах только этих образцов.
Биоинформатический отчёт может включать различные разделы в зависимости от формата загруженных данных и включенных в пайплайн стадий анализа. Возможные разделы отчёта:
- Статистика файла - у образцов, загруженных в формате FASTQ или BAM.
- Отчёт о качестве - у образцов, загруженных в формате FASTQ или BAM.
- Отчёт по выравниванию - у образцов, загруженных в формате FASTQ или BAM, для которых стадия "Выравнивание" была включена в пайплайн и завершилась успешно.
- Отчёт по покрытию - у образцов, загруженных в формате FASTQ или BAM, для которых стадия "Выравнивание" была включена в пайплайн и завершилась успешно.
- Отчёт по соматическим SNVs/Indels образца опухолевой ткани - у образцов, для которых стадии "Выявление соматических SNVs/Indels" и "Аннотация соматических SNVs/Indels" были включены в пайплайн и успешно завершились.
- Отчёт по герминальным SNVs/Indels - у образцов, для которых стадии "Выявление герминальных SNVs/Indels" и "Аннотация герминальных SNVs/Indels" были включены в пайплайн и успешно завершились.
#
Статистика файлаНа заметку
Раздел есть только у образцов, загруженных в формате FASTQ или BAM.
- Данные по количеству прочтений в файле:
- Старт - количество прочтений в файле после его проверки, но до очистки.
- Конец - количество прочтений в файле, подсчитанных во время проверки качества после очистки.
- Конечный процент - доля прочтений (в процентах), которые остались в файле после очистки.
- Данные по длине прочтений в файле:
- Минимальная длина прочтения в файле образца.
- Максимальная длина прочтения в файле образца.
- Медиана длины - среднее значение длины прочтения в файле образца.
На заметку
Большое количество отфильтрованных во время очистки прочтений и значительное уменьшение длины прочтений говорит о низком качестве исходных данных. В таком случае рекомендуем рассмотреть возможность повторного секвенирования материала.
#
Отчёт о качествеНа заметку
Раздел есть только у образцов, загруженных в формате FASTQ или BAM.
Отчёт содержит метрики финального (после очистки, если она проводилась) качества прочтений, рассчитываемые на стадии “Проверка качества и очистка”. Подробный отчёт по метрикам с визуализацией можно скачать на вкладке "Детали процесса анализа" в соответствующем разделе.
#
Метрики контроля качества прочтенийМетрика | Описание | Значение порога метрики, при котором прочтения в образце считаются качественными (значение по умолчанию, может быть изменено в настройках) |
Total sequences | Количество прочтений | >200 000 |
Length distribution | Распределение длин прочтений | Коротких прочтений (прочтений длиной ≤ 20 п.н.) менее 25% |
Tiles sequence quality | Качество прочтений, поступивших из конкретных плиток проточных ячеек | Количество ячеек с плитками низкого качества с максимальным отклонением 1,165 менее 7 |
First base sequence quality | Качество прочтения первых нуклеотидов последовательности | Худший нижний 10-й процентиль качества прочтения 3-х первых нуклеотидов больше 20 |
Middle base sequence quality | Качество прочтения средних нуклеотидов последовательности | Худший нижний 10-й процентиль качества прочтения средних нуклеотидов больше 20 |
Last base sequence quality | Качество прочтения конечных нуклеотидов последовательности | Худший нижний 10-й процентиль качества прочтения 3-х конечных нуклеотидов больше 20 |
Overrepresented sequences | Перепредставленные последовательности - последовательности, которые составляют более 0,1% от общего числа последовательностей | Максимальный процент числа перепредставленных последовательностей в файле менее 1% |
Adapter contaminated | Количество прочтений, содержащих адаптерные последовательности | Процент числа прочтений, контаминированных адаптерами, не более 1% |
Base N content | Количество нераспознанных нуклеотидов N среди всех нуклеотидов последовательности | Максимальный процент количества N среди нуклеотидов не более 20% |
GC content | Процентное содержание пары GC в прочтении | Наличие только одного пика содержания GC |
Base sequence content | Процентное содержание четырех типов нуклеотидов в определенной позиции прочтения | Средняя разница AT менее 1%, максимальная разница AT менее 20%, средняя разница GC менее 1%, максимальная разница GC менее 20% |
Метрики, удовлетворяющие порогу качества, отмечены , не удовлетворяющие - .
#
Отчёт по выравниваниюНа заметку
Раздел есть только у образцов, загруженных в формате FASTQ или BAM, для которых выравнивание было включено в пайплайн и успешно завершилось.
Раздел включает статистику выравнивания и метрики, описывающие качество выравнивания. При большом количестве ошибок секвенирования, неполных данных, высоком уровне контаминации или неверном определении источника (организма) образца метрики укажут на возможную проблему.
- Статистика выравнивания:
- Всего прочтений - суммарное количество прочтений в файле выравнивания.
- Картированные прочтения - количество прочтений образца, которые были картированы на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Некартированные прочтения - количество прочтений образца, которые не удалось картировать на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Прочтения с множественным картированием - количество прочтений, картированных на референсный геном несколько раз. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Прочтения с прямой цепи - количество прочтений с прямой цепи, картированных на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Прочтения с обратной цепи - количество прочтений с обратной цепи, картированных на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах). В нормальных данных количество прочтений с прямой и с обратной цепей одинаковое; разница в их количестве говорит о том, что в данных есть транслокации ДНК (например, инверсии).
- Парные прочтения - суммарное количество парных прочтений в файле выравнивания. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Картированные парные прочтения - количество парных прочтений образца, которые были картированы на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Правильно картированные парные прочтения - количество парных прочтений образца, правильно картированных на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
- Всего выравниваний - суммарное количество выравниваний прочтений образца на референсный геном.
- Выравнивания с множественным картированием - количество выравниваний одного прочтений на референсный геном несколько раз. В скобках - доля количества таких выравниваний от суммарного количества выравниваний в файле (в процентах).
- Выравнивания с прямой цепи - количество выравниваний прочтений с прямой цепи на референсный геном. В скобках - доля количества таких выравниваний от суммарного количества выравниваний в файле (в процентах).
- Выравнивания с обратной цепи - количество выравниваний прочтений с обратной цепи на референсный геном. В скобках - доля количества таких выравниваний от суммарного количества выравниваний в файле (в процентах).
- Percent duplication - доля выровненной последовательности, которая была помечена как дубликат, (в процентах). Статистика включена в отчёт, если у образца была включена в пайплайн и успешно завершилась стадия "Пометка дубликатов".
- Метрики качества выравнивания:
Метрика | Описание метрики | Значение порога метрики по умолчанию (может быть изменено в настройках) |
Mapped reads | Доля количества картированных прочтений (в процентах) от суммарного количества прочтений в файле выравнивания. | ≥ 85 |
Multiple alignments | Доля множественных выравниваний одного и тоже прочтения на геном (в процентах) от суммарного количества выравниваний в файле выравнивания. | ≤ 15 |
Forward/reverse balance | Разница в количестве прочтений с прямой цепи и прочтений с обратной цепи от суммарного количества прочтений в файле выравнивания (в процентах). | ≤ 10 |
Paired mapped reads | Доля количества картированных парных прочтений (в процентах) от суммарного количества прочтений в файле выравнивания. | ≥ 80 |
Paired properly mapped reads | Доля количества правильно картированных парных прочтений (в процентах) от суммарного количества прочтений в файле выравнивания. | ≥ 75 |
Метрики, удовлетворяющие порогу качества, отмечены , не удовлетворяющие - .
#
Отчёт по покрытиюНа заметку
Раздел есть только у образцов, загруженных в формате FASTQ или BAM, для которых выравнивание было включено в пайплайн и успешно завершилось.
Отчёт по покрытию генома данными позволяет оценить, насколько информативен анализ этих данных в целом.
- Coverage per nucleotide - понуклеотидное покрытие на геноме. Порог метрики - ≥ 0.1. Если метрика удовлетворяет порогу качества, она отмечена , а если не удовлетворяет, то .
- PCT selected bases - доля (в процентах) PF_BASES_ALIGNED (количество уникальных оснований, прошедших фильтрацию, которые выровнены на референсный геном с оценкой картирования > 0), расположенных в или около района "приманки" (baited region), который вычисляется по формуле (ON_BAIT_BASES + NEAR_BAIT_BASES)/PF_BASES_ALIGNED, где ON_BAIT_BASES - количество PF_BASES_ALIGNED, картированных на район "приманки" генома; NEAR_BAIT_BASES - количество PF_BASES_ALIGNED, картированных на область фиксированного интервала, содержащего район "приманки", но не на сам этот район. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
- PCT usable bases on target - доля (в процентах) количества выровненных, дедублированных, целевых оснований из всех доступных оснований, прошедших фильтрацию. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
- Mean target coverage - среднее покрытие целевой области. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
- Median target coverage - серединное (медиана) покрытие целевой области. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
#
Отчёт по соматическим или герминальным SNVs/IndelsНа заметку
Раздел "Отчёт по соматическим SNVs/Indels образца опухолевой ткани" есть у тех образцов, для которых
стадия "Выявление соматических SNVs/Indels"
была включена в пайплайн, а стадия "Аннотация соматических SNVs/Indels" завершилась успешно.
Раздел
"Отчёт по герминальным SNVs/Indels образца опухолевой ткани"
есть у тех одиночных образцов опухолевой ткани (анализируемых без контроля), для которых
стадия "Выявление герминальных SNVs/Indels"
была включена в пайплайн, а стадия "Аннотация герминальных SNVs/Indels" завершилась успешно.
Раздел
"Отчёт по герминальным SNVs/Indels образца неопухолевой ткани"
есть у образцов опухолевой ткани (анализируемых с контролем) и у образцов неопухолевой ткани, для которых
стадия "Выявление герминальных SNVs/Indels"
была включена в пайплайн, а стадия "Аннотация герминальных SNVs/Indels" завершилась успешно.
- Количество вариантов:
- Всего - суммарное количество однонуклеотидных вариантов (single-nucleotide variants; SNVs) и коротких инсерций/делеций (indels), выявленных в образце. В скобочках указано количество генов, в которых расположены выявленные варианты.
- Количество SNV - количество однонуклеотидных вариантов, выявленных в образце.
- Количество INDEL - количество коротких инсерций/делеций, выявленных в образце.
- Позиция в геноме:
- Exonic - количество вариантов, расположенных в экзоне:
- Frameshift - количество инсерций или делеций, вызывающих сдвиг рамки считывания;
- Start loss - количество вариантов, вызывающих мутацию старт-кодона в non-start кодон;
- Stop gain - количество вариантов, приводящих к появлению стоп-кодона;
- Stop loss - количество вариантов, вызывающих мутацию стоп-кодона в non-stop кодон;
- Missense - количество вариантов, приводящих к появлению кодона, который кодирует другую аминокислоту;
- Inframe indel - количество инсерций или делеций одного или нескольких кодонов;
- Synonymous - количество вариантов, приводящих к появлению кодона, который кодирует ту же аминокислоту;
- 5'UTR - количество вариантов, попадающих в 5′-нетранслируемую область;
- 3'UTR - количество вариантов, попадающих в 3′-нетранслируемую область.
- Intronic - количество вариантов, расположенных в интроне.
- Intergenic - количество вариантов, расположенных в межгенной области:
- Upstream - количество вариантов, расположенных перед геном;
- Downstream - количество вариантов, расположенных после гена.
- In splice site - количество вариантов, расположенных в сайте сплайсинга.
- In non-protein-coding transcript - количество вариантов, расположенных в некодирующем транскрипте.
- Известные варианты - варианты, информация о которых содержится в различных базах данных, таких как dbSNP, COSMIC (если база была загружена в виде пользовательской аннотации), 1000 Genomes, gnomAD 3, ClinVar (с указанием количества вариантов с определённой клинической значимостью фенотипа; определение значений можно посмотреть тут), dbNSFP.
#
Экспорт отчётаБиоинформатический отчёт можно скачать в формате PDF. Для этого нажмите на кнопку в правом верхем углу страницы отчёта.