Перейти к основному содержимому

Биоинформатический отчёт

Вкладка "Биоинформатический отчёт" на странице образца включает основные метрики, которые помогут оценить качество исходных данных, качество выравнивания и покрытие данных, а также включает отчёты по выявленным SNVs/Indels. Чтобы экспортировать отчёт в формате PDF, нажмите на кнопку .

На заметку

В биоинформатическом отчёте опухолевого образца из набора образцов опухоль/контроль представлена информация для файлов опухолевого и контрольного образцов:

В биоинформатическом отчёте образцов неопухолевой ткани и одиночных образцов опухоли представлена информация о файлах только этих образцов.

Биоинформатический отчёт может включать различные разделы в зависимости от формата загруженных данных и включенных в пайплайн стадий анализа. Возможные разделы отчёта:

  1. Статистика файла - у образцов, загруженных в формате FASTQ или BAM.
  2. Отчёт о качестве - у образцов, загруженных в формате FASTQ или BAM.
  3. Отчёт по выравниванию - у образцов, загруженных в формате FASTQ или BAM, для которых стадия "Выравнивание" была включена в пайплайн и завершилась успешно.
  4. Отчёт по покрытию - у образцов, загруженных в формате FASTQ или BAM, для которых стадия "Выравнивание" была включена в пайплайн и завершилась успешно.
  5. Отчёт по соматическим SNVs/Indels образца опухолевой ткани - у образцов, для которых стадии "Выявление соматических SNVs/Indels" и "Аннотация соматических SNVs/Indels" были включены в пайплайн и успешно завершились.
  6. Отчёт по герминальным SNVs/Indels - у образцов, для которых стадии "Выявление герминальных SNVs/Indels" и "Аннотация герминальных SNVs/Indels" были включены в пайплайн и успешно завершились.

Статистика файла#

На заметку

Раздел есть только у образцов, загруженных в формате FASTQ или BAM.

  1. Данные по количеству прочтений в файле:
  • Старт - количество прочтений в файле после его проверки, но до очистки.
  • Конец - количество прочтений в файле, подсчитанных во время проверки качества после очистки.
  • Конечный процент - доля прочтений (в процентах), которые остались в файле после очистки.
  1. Данные по длине прочтений в файле:
  • Минимальная длина прочтения в файле образца.
  • Максимальная длина прочтения в файле образца.
  • Медиана длины - среднее значение длины прочтения в файле образца.
На заметку

Большое количество отфильтрованных во время очистки прочтений и значительное уменьшение длины прочтений говорит о низком качестве исходных данных. В таком случае рекомендуем рассмотреть возможность повторного секвенирования материала.

Отчёт о качестве#

На заметку

Раздел есть только у образцов, загруженных в формате FASTQ или BAM.

Отчёт содержит метрики финального (после очистки, если она проводилась) качества прочтений, рассчитываемые на стадии “Проверка качества и очистка”. Подробный отчёт по метрикам с визуализацией можно скачать на вкладке "Детали процесса анализа" в соответствующем разделе.

Метрики контроля качества прочтений#

МетрикаОписаниеЗначение порога метрики, при котором прочтения в образце считаются качественными (значение по умолчанию, может быть изменено в настройках)
Total sequencesКоличество прочтений>200 000
Length distributionРаспределение длин прочтенийКоротких прочтений (прочтений длиной ≤ 20 п.н.) менее 25%
Tiles sequence qualityКачество прочтений, поступивших из конкретных плиток проточных ячеекКоличество ячеек с плитками низкого качества с максимальным отклонением 1,165 менее 7
First base sequence qualityКачество прочтения первых нуклеотидов последовательностиХудший нижний 10-й процентиль качества прочтения 3-х первых нуклеотидов больше 20
Middle base sequence qualityКачество прочтения средних нуклеотидов последовательностиХудший нижний 10-й процентиль качества прочтения средних нуклеотидов больше 20
Last base sequence qualityКачество прочтения конечных нуклеотидов последовательностиХудший нижний 10-й процентиль качества прочтения 3-х конечных нуклеотидов больше 20
Overrepresented sequencesПерепредставленные последовательности - последовательности, которые составляют более 0,1% от общего числа последовательностейМаксимальный процент числа перепредставленных последовательностей в файле менее 1%
Adapter contaminatedКоличество прочтений, содержащих адаптерные последовательностиПроцент числа прочтений, контаминированных адаптерами, не более 1%
Base N contentКоличество нераспознанных нуклеотидов N среди всех нуклеотидов последовательностиМаксимальный процент количества N среди нуклеотидов не более 20%
GC contentПроцентное содержание пары GC в прочтенииНаличие только одного пика содержания GC
Base sequence contentПроцентное содержание четырех типов нуклеотидов в определенной позиции прочтенияСредняя разница AT менее 1%, максимальная разница AT менее 20%, средняя разница GC менее 1%, максимальная разница GC менее 20%

Метрики, удовлетворяющие порогу качества, отмечены , не удовлетворяющие - .

Отчёт по выравниванию#

На заметку

Раздел есть только у образцов, загруженных в формате FASTQ или BAM, для которых выравнивание было включено в пайплайн и успешно завершилось.

Раздел включает статистику выравнивания и метрики, описывающие качество выравнивания. При большом количестве ошибок секвенирования, неполных данных, высоком уровне контаминации или неверном определении источника (организма) образца метрики укажут на возможную проблему.

  1. Статистика выравнивания:
  • Всего прочтений - суммарное количество прочтений в файле выравнивания.
  • Картированные прочтения - количество прочтений образца, которые были картированы на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Некартированные прочтения - количество прочтений образца, которые не удалось картировать на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Прочтения с множественным картированием - количество прочтений, картированных на референсный геном несколько раз. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Прочтения с прямой цепи - количество прочтений с прямой цепи, картированных на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Прочтения с обратной цепи - количество прочтений с обратной цепи, картированных на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах). В нормальных данных количество прочтений с прямой и с обратной цепей одинаковое; разница в их количестве говорит о том, что в данных есть транслокации ДНК (например, инверсии).
  • Парные прочтения - суммарное количество парных прочтений в файле выравнивания. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Картированные парные прочтения - количество парных прочтений образца, которые были картированы на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Правильно картированные парные прочтения - количество парных прочтений образца, правильно картированных на референсный геном. В скобках - доля количества таких прочтений от суммарного количества прочтений в файле (в процентах).
  • Всего выравниваний - суммарное количество выравниваний прочтений образца на референсный геном.
  • Выравнивания с множественным картированием - количество выравниваний одного прочтений на референсный геном несколько раз. В скобках - доля количества таких выравниваний от суммарного количества выравниваний в файле (в процентах).
  • Выравнивания с прямой цепи - количество выравниваний прочтений с прямой цепи на референсный геном. В скобках - доля количества таких выравниваний от суммарного количества выравниваний в файле (в процентах).
  • Выравнивания с обратной цепи - количество выравниваний прочтений с обратной цепи на референсный геном. В скобках - доля количества таких выравниваний от суммарного количества выравниваний в файле (в процентах).
  • Percent duplication - доля выровненной последовательности, которая была помечена как дубликат, (в процентах). Статистика включена в отчёт, если у образца была включена в пайплайн и успешно завершилась стадия "Пометка дубликатов".
  1. Метрики качества выравнивания:
МетрикаОписание метрикиЗначение порога метрики по умолчанию (может быть изменено в настройках)
Mapped readsДоля количества картированных прочтений (в процентах) от суммарного количества прочтений в файле выравнивания.≥ 85
Multiple alignmentsДоля множественных выравниваний одного и тоже прочтения на геном (в процентах) от суммарного количества выравниваний в файле выравнивания.≤ 15
Forward/reverse balanceРазница в количестве прочтений с прямой цепи и прочтений с обратной цепи от суммарного количества прочтений в файле выравнивания (в процентах).≤ 10
Paired mapped readsДоля количества картированных парных прочтений (в процентах) от суммарного количества прочтений в файле выравнивания.≥ 80
Paired properly mapped readsДоля количества правильно картированных парных прочтений (в процентах) от суммарного количества прочтений в файле выравнивания.≥ 75

Метрики, удовлетворяющие порогу качества, отмечены , не удовлетворяющие - .

Отчёт по покрытию#

На заметку

Раздел есть только у образцов, загруженных в формате FASTQ или BAM, для которых выравнивание было включено в пайплайн и успешно завершилось.

Отчёт по покрытию генома данными позволяет оценить, насколько информативен анализ этих данных в целом.

  1. Coverage per nucleotide - понуклеотидное покрытие на геноме. Порог метрики - ≥ 0.1. Если метрика удовлетворяет порогу качества, она отмечена , а если не удовлетворяет, то .
  2. PCT selected bases - доля (в процентах) PF_BASES_ALIGNED (количество уникальных оснований, прошедших фильтрацию, которые выровнены на референсный геном с оценкой картирования > 0), расположенных в или около района "приманки" (baited region), который вычисляется по формуле (ON_BAIT_BASES + NEAR_BAIT_BASES)/PF_BASES_ALIGNED, где ON_BAIT_BASES - количество PF_BASES_ALIGNED, картированных на район "приманки" генома; NEAR_BAIT_BASES - количество PF_BASES_ALIGNED, картированных на область фиксированного интервала, содержащего район "приманки", но не на сам этот район. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
  3. PCT usable bases on target - доля (в процентах) количества выровненных, дедублированных, целевых оснований из всех доступных оснований, прошедших фильтрацию. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
  4. Mean target coverage - среднее покрытие целевой области. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".
  5. Median target coverage - серединное (медиана) покрытие целевой области. Метрика включена в отчёт для образцов, являющихся результатом секвенирования с таргетной панелью, если успешно завершилась стадия "Вычисление покрытия".

Отчёт по соматическим или герминальным SNVs/Indels#

На заметку

Раздел "Отчёт по соматическим SNVs/Indels образца опухолевой ткани" есть у тех образцов, для которых стадия "Выявление соматических SNVs/Indels" была включена в пайплайн, а стадия "Аннотация соматических SNVs/Indels" завершилась успешно.
Раздел "Отчёт по герминальным SNVs/Indels образца опухолевой ткани" есть у тех одиночных образцов опухолевой ткани (анализируемых без контроля), для которых стадия "Выявление герминальных SNVs/Indels" была включена в пайплайн, а стадия "Аннотация герминальных SNVs/Indels" завершилась успешно.
Раздел "Отчёт по герминальным SNVs/Indels образца неопухолевой ткани" есть у образцов опухолевой ткани (анализируемых с контролем) и у образцов неопухолевой ткани, для которых стадия "Выявление герминальных SNVs/Indels" была включена в пайплайн, а стадия "Аннотация герминальных SNVs/Indels" завершилась успешно.

  1. Количество вариантов:
  • Всего - суммарное количество однонуклеотидных вариантов (single-nucleotide variants; SNVs) и коротких инсерций/делеций (indels), выявленных в образце. В скобочках указано количество генов, в которых расположены выявленные варианты.
  • Количество SNV - количество однонуклеотидных вариантов, выявленных в образце.
  • Количество INDEl - количество коротких инсерций/делеций, выявленных в образце.
  1. Позиция в геноме:
  • Exonic - количество вариантов, расположенных в экзоне:
    • Frameshift - количество инсерций или делеций, вызывающих сдвиг рамки считывания;
    • Start loss - количество вариантов, вызывающих мутацию старт-кодона в non-start кодон;
    • Stop gain - количество вариантов, приводящих к появлению стоп-кодона;
    • Stop loss - количество вариантов, вызывающих мутацию стоп-кодона в non-stop кодон;
    • Missense - количество вариантов, приводящих к появлению кодона, который кодирует другую аминокислоту;
    • Inframe indel - количество инсерций или делеций одного или нескольких кодонов;
    • Synonymous - количество вариантов, приводящих к появлению кодона, который кодирует ту же аминокислоту;
    • 5'UTR - количество вариантов, попадающих в 5′-нетранслируемую область;
    • 3'UTR - количество вариантов, попадающих в 3′-нетранслируемую область.
  • Intronic - количество вариантов, расположенных в интроне.
  • Intergenic - количество вариантов, расположенных в межгенной области:
    • Upstream - количество вариантов, расположенных перед геном;
    • Downstream - количество вариантов, расположенных после гена.
  • In splice site - количество вариантов, расположенных в сайте сплайсинга.
  • In non-protein-coding transcript - количество вариантов, расположенных в некодирующем транскрипте.
  1. Известные варианты - варианты, информация о которых содержится в различных базах данных, таких как dbSNP, COSMIC (если база была загружена в виде пользовательской аннотации), 1000 Genomes, gnomAD, ClinVar (с указанием количества вариантов с определенной клинической значимостью фенотипа; определение значений можно посмотреть тут), dbNSFP.