Перейти к основному содержимому

Геномные предсказания

После успешной унификации SNVs/Indels для образцов неопухолевой ткани может запуститься пайплайн геномных предсказаний, если в анализ была включена хотя бы одна из следующих задач: "Вычисление олигогенных рисков", "Вычисление полигенных рисков", "Расчет фармакогенетики" или "Анализ происхождения". Обратите внимание, что для включения геномных предсказаний в анализ образца, загруженного в формате VCF или GT, необходимо на этапе составления набора образцов выбрать соответствующую настройку анализа, в которую включён один из перечисленных выше параметров.

При ошибке выполнения любой из перечисленных ниже задач анализ образца останавливается. Однако, если в анализ включены контроль качества и импутация и если образец не удовлетворяет критериям контроля качества, то выполнение стадии "Геномные предсказания" останавливается, но анализ образца может продолжиться генерацией отчётов.

Стадия "Геномные предсказания" может включать следующие задачи:

  1. Определение пола: импутация из данных об уровне гомозиготности X-хромосомы. Коэффициент инбридинга X-хромосомы F рассчитывается по следующей формуле:

Если F < 0.2, то пол определяется как женский. Если F > 0.8, то пол определяется как мужской. Если 0.2 < F < 0.8, то пол невозможно определить однозначно.

Пол пациента используется для формирования отчёта по полигенным признакам. Если пользователь указал пол вручную, используется именно это значение; в противном случае применяется пол, определённый по генетическим данным.

  1. Фильтрация по качеству и импутация: если включен соответствующий параметр "Enable QC and imputation". 2.1. Нормализация VCF:
  • Проверка того, соответствуют ли референсные аллели в файле референсной последовательности; разбивка мультиаллельных сайтов на биаллельные записи; вывод только первой записи для дублирующихся строк с помощью bcftools norm.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл можно скачать в разделе "Файлы с результатами" в деталях задачи "Нормализация VCF" ("Скачать VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").

    2.2. Фильтрация по качеству:

  • Исключение из анализа вариантов, у которых нет информации о сайте (например, ./.), с помощью bcftools filter.

  • Конвертация файла в формате VCF в бинарный набор файлов, который является способом представления выявленных генотипов, и удаление всех вариантов с одинаковыми идентификаторами, кроме первого встретившегося в файле (варианты без идентификатора пропускаются) с помощью PLINK. Файл с подробным описанием выполнения этой задачи можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать convert log TXT").

  • Контроль качества - проверка и удаление несоответствующих критериям образцов и однонуклеотидных полиморфизмов (ОНП) с помощью PLINK. Включает предварительные этапы (проверка доли выявления образцов и ОНП и проверка пола) и итерационные этапы (повторяются итеративно до тех пор, пока ошибки не перестанут находиться).

  1. Проверка данных на наличие образцов с крайне низкой долей выявления. Образцы с высокой долей пропущенных выявлений являются следствием низкого качества ДНК и удаляются из анализа. Порог для доли выявления образцов: > 0.5.
  2. Проверка данных на наличие однонуклеотидных полиморфизмов (ОНП) с крайне низкой долей выявления. Доля пропущенных выявлений ОНП - это доля образцов, генотипы которых не выявлены для данного ОНП. ОНП с высокой долей отсутствующих генотипов (обычно > 5%) предполагают некоторые проблемы с процессом генотипирования, поэтому такие ОНП исключаются из анализа. Порог для доли выявления ОНП: > 0.5.
  3. Проверка пола и удаление образцов с неправильным полом. Проверка пола основана на оценке гетерозиготности X-сцепленных ОНП. По умолчанию коэффициент инбридинга X-хромосомы F < 0,2 определяет пол в образцах как женский, а F > 0,8 — как мужской.
  4. Проверка частоты минорных аллелей (minor allele frequency; MAF). ОНП с MAF < 1% исключаются из последующего анализа, поскольку SNP-чипы, генотипирующие редкие варианты (т.е. локус с MAF < 1%), сложны и подвержены ошибкам. Таким образом, очень низкочастотные аллели, вероятно, являются следствием ошибки генотипирования и могут привести к ложным ассоциациям.
  5. Фильтрация ОНП по доле выявления с порогом > 0.98.
  6. Проверка равновесия Харди-Вайнберга. Согласно допущению Харди-Вайнберга, частоты аллелей и генотипов можно оценить от одного поколения к другому. Отмечается, что отклонение от равновесия Харди-Вайнберга может происходить из-за отбора, популяционного смешивания, загадочного родства, ошибки генотипирования и истинной генетической ассоциации. Поэтому для контроля качества проверяется, не отклоняются ли ОНП от равновесия Харди-Вайнберга.
  7. Фильтрация образцов по доле выявления с порогом > 0.98.
  8. Гетерозиготность образцов. Доля гетерозиготных генотипов в геноме образца может выявить некоторые проблемы с генотипированием, такие как загрязнение образца и инбридинг. Из анализа удаляются образцы, которые отклоняются на ± 3 SD (стандартное отклонение) от средней гетерозиготности образца.
  9. Идентичность по проверке состояния. Высокая степень родства между образцами может привести к усилению ассоциации. Чтобы исследовать загадочное родство, мы рассчитываем матрицу родства и фильтруем образцы с близкими отношениями. Порог идентичности по состоянию: < 0.0925.
    Файл с подробным описанием выполнения задачи контроля качества можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать QC log TXT").
  • Повторная проверка и фильтрация вариантов и генерация нового бинарного набор файлов с отфильтрованными образцами и ОНП с помощью PLINK.
    Файл с подробным описанием выполнения этой задачи можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать merge log TXT").
    Файл с вариантами, удаленными из анализа, можно скачать в том же разделе ("Скачать Skipped variants TXT"). Для каждого варианта указаны причина удаления и номер итерации контроля качества, на которой произошло удаление.
    Полный отчёт о контроле качества данных можно открыть в том же разделе ("Открыть QC report HTML").
    Файл с образцами, удаленными из анализа, можно скачать в том же разделе ("Скачать Removed samples TXT"). Для каждого образца указаны причина удаления и номер итерации контроля качества, на которой произошло удаление.

  • Исключение из анализа вариантов, не прошедших фильтрацию, с помощью vcftools.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с отфильтрованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать Filtered VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать Filtered VCF_TBI").

    2.3. Импутация - это статистический метод восстановления отсутствующих генетических данных на основе анализа гаплотипов в референтной выборке.

  • Индексация файла VCF с помощью bcftools index.

  • Разделение вариантов по хромосомам с помощью bcftools view для параллельной импутации.

  • Определение генотипов и импутация негенотипированных маркеров с помощью Beagle.

  • Объединение импутированных вариантов, разбитых по хромосомам, в один файл в формате VCF с помощью bcftools concat.

  • Индексация файла VCF с помощью bcftools index.

  • Сравнение исходного файла и файла, полученного после импутации, и получение файла с неимпутированными вариантами с помощью vcftools.

  • Сжатие файла с неимпутированными вариантами в GZIP архив с помощью bgzip.

  • Индексация файла с неимпутированными вариантами с помощью bcftools index.

  • Фильтрация импутированных вариантов по порогу DR2 (dosage R-squared) > 0.3 с помощью bcftools filter.

  • Индексация файла с импутированными и отфильтрованными вариантами с помощью bcftools index.

  • Объединение неимпутированных и отфильтрованных импутированных вариантов в один файл в формате VCF с помощью bcftools concat.

  • Индексация объединенного файла с помощью bcftools index.
    Файл с подробным описанием выполнения задачи импутации можно скачать в разделе "Файлы с результатами" в деталях задачи "Импутация" ("Скачать Impute log TXT").
    Файл с неимпутированными и отфильтрованными импутированными вариантами в формате VCF можно скачать в том же разделе ("Скачать Imputed VCF_GZ").
    Индексный файл к VCF файлу можно скачать в том же разделе ("Скачать Imputed VCF_TBI").

    2.4. Фильтрация по качеству - повторение задачи, описанной выше.

На заметку

Если в результате одной из задач фильтрации по качеству образец не проходит проверку контроля качества, то выполнение стадии "Геномные предсказания" на этом прерывается, а вычисление олигогенных рисков, вычисление полигенных рисков и/или анализ происхождения не происходит. Анализ образца может продолжиться генерацией отчётов. Вы можете загрузить образец в формате VCF или GT заново с настройкой анализа, в которой отключены контроль качества и импутация, однако результаты в этом случае могут оказаться неудовлетворительными. Либо вы можете загрузить образец в формате FASTQ или BAM - это также может решить проблему.

  1. Вычисление полигенных рисков, если включен соответствующий параметр "Run polygenic risk scores calculation": 3.1. Мультиаллельная нормализация VCF:
  • Выравнивание по левому краю и нормализация инделов; проверка того, соответствуют ли референсные аллели в файле референсной последовательности; объединение биаллельных сайтов в мультиаллельные записи с помощью bcftools norm.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с нормализованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Мультиаллельная нормализация VCF" ("Скачать VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").

    3.2. Вычисление полигенных рисков: применение системы линейной оценки к каждой выборке с помощью PLINK. Варианты без информации о сайте (генотип ./. и подобные), без идентификатора или с несовпадающими кодами аллелей не учитываются в анализе. Генетические данные пациента должны включать варианты, представленные в моделе полигенных рисков, за исключением небольшой их доли, устанавливаемой пороговым значением. Вычисление полигенных рисков считается возможным, если генетические данные пользователя содержат не менее 95% всех вариантов, которые представлены в модели.

Оценка полигенного риска (polygenic risk score; PRS) - число, которое суммирует предполагаемый размер эффектов многих однонуклеотидных полиморфизмов (ОНП) на фенотип человека. Для каждого признака значение полигенного риска вычисляется по следующей формуле:

Генотипы закодированы следующим образом: пусть, аллель A - эффектный, а аллель G - неэффектный. Тогда численный код генотипа AA - 2, генотипа AG - 1, а генотипа GG - 0.
Предполагаемые размеры эффектов ОНП рассчитываются на основе данных полногеномного поиска ассоциаций (genome-wide association study; GWAS), который позволяет сопоставить фенотипические признаки с геномными вариантами в человеческих популяциях.
Оценка полигенного риска отражает предполагаемую генетическую предрасположенность человека к исследуемому признаку и может использоваться в качестве предиктора этого признака в предсказательной модели. Другими словами, PRS оценивает, насколько вероятно, что человек будет иметь исследуемый признак, только на основе генетических данных и без учёта факторов окружающей среды.

Вычисляемые полигенные риски:

  • Рост
  • Масса тела
  • Индекс массы тела (ИМТ; Body mass index; BMI)
  • Предрасположенность к избыточному весу
  • Предрасположенность к раку предстательной железы
  • Предрасположенность к раку молочной железы
  • Предрасположенность к ишемической болезни сердца
  • Предрасположенность к воспалительному заболеванию кишечника
  • Предрасположенность к сахарному диабету 2-го типа
  • Предрасположенность к колоректальному раку

Для каждого риска в результате выполнения задачи формируются три файла, которые можно скачать в разделе "Файлы с результатами" в деталях задачи "Вычисление полигенных рисков":

  • Файл с подробным описанием вычисления риска - "Скачать [название риска] Prs log TXT".
  • Файл с суммарной оценкой риска для этого образца - "Скачать [название риска] Score TSV". Также этот файл можно открыть в таблицах Google.
  • Файл со списком идентификаторов вариантов, использованных для вычисления риска, - "Скачать [название риска] Used Variants TSV". Также этот файл можно открыть в таблицах Google.
  1. Вычисление олигогенных рисков, если включен соответствующий параметр "Run oligogenic risk scores calculation":

    4.1. Нормализация VCF:

  • Выравнивание по левому краю и нормализация инделов; проверка того, соответствуют ли референсные аллели в файле референсной последовательности; разбивка мультиаллельных сайтов на биаллельные записи; вывод только первой записи для дублирующихся строк с помощью bcftools norm.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с нормализованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Нормализация VCF" ("Скачать VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").

    4.2. Вычисление олигогенных рисков: происходит по однонуклеотидным полиморфизмам (single nucleotide polymorphism; SNP), ассоциированным с определенным проявлением признака согласно моделям, основанным на мультиномиальной логистической регрессии (multinomial logistic regression; MLR).

Вычисляемые олигогенные риски:

  • Цвет волос;
  • Цвет глаз;
  • Цвет кожи;
  • Веснушчатость;
  • Непереносимость лактозы;
  • Горький вкус;
  • Группа крови;
  • Метаболизм алкоголя;
  • Тип ушной серы;
  • Подмышечный осмидроз;
  • Мизофония;
  • Движение во время сна;
  • Световой рефлекс чихания.

Подробно каждый признак и соответствующая модель предсказания описаны в разделе, посвящённом отчёту по олигогенным признакам.

Получившийся файл с предсказанными олигогенными признаками можно скачать в разделе "Файлы с результатами" в деталях задачи "Вычисление олигогенных рисков" ("Скачать Classifier results JSON").

После стадии "Геномные предсказания" анализ может продолжиться генерацией отчётов.