Геномные предсказания

После успешной унификации SNVs/Indels для образцов неопухолевой ткани может запуститься пайплайн геномных предсказаний, если в анализ была включена хотя бы одна из следующих задач: "Вычисление олигогенных рисков", "Вычисление полигенных рисков", "Расчет фармакогенетики" или "Анализ происхождения". Обратите внимание, что для включения геномных предсказаний в анализ образца, загруженного в формате VCF или GT, необходимо на этапе составления набора образцов выбрать соответствующую настройку анализа, в которую включён один из перечисленных выше параметров.

При ошибке выполнения любой из перечисленных ниже задач анализ образца останавливается. Однако, если в анализ включены контроль качества и импутация и если образец не удовлетворяет критериям контроля качества, то выполнение стадии "Геномные предсказания" останавливается, но анализ образца может продолжиться генерацией отчётов.

Стадия "Геномные предсказания" может включать следующие задачи:

Определение пола: импутация из данных об уровне гомозиготности X-хромосомы. Коэффициент инбридинга X-хромосомы F рассчитывается по следующей формуле:

Если F < 0.2, то пол определяется как женский. Если F > 0.8, то пол определяется как мужской. Если 0.2 < F < 0.8, то пол невозможно определить однозначно.

Пол пациента используется для формирования отчёта по полигенным признакам. Если пользователь указал пол вручную, используется именно это значение; в противном случае применяется пол, определённый по генетическим данным.

Фильтрация по качеству и импутация: если включен соответствующий параметр "Enable QC and imputation". 2.1. Нормализация VCF:

Проверка того, соответствуют ли референсные аллели в файле референсной последовательности; разбивка мультиаллельных сайтов на биаллельные записи; вывод только первой записи для дублирующихся строк с помощью bcftools norm.
Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл можно скачать в разделе "Файлы с результатами" в деталях задачи "Нормализация VCF" ("Скачать VCF_GZ").
Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").
2.2. Фильтрация по качеству:
Исключение из анализа вариантов, у которых нет информации о сайте (например, ./.), с помощью bcftools filter.
Конвертация файла в формате VCF в бинарный набор файлов, который является способом представления выявленных генотипов, и удаление всех вариантов с одинаковыми идентификаторами, кроме первого встретившегося в файле (варианты без идентификатора пропускаются) с помощью PLINK. Файл с подробным описанием выполнения этой задачи можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать convert log TXT").
Контроль качества - проверка и удаление несоответствующих критериям образцов и однонуклеотидных полиморфизмов (ОНП) с помощью PLINK. Включает предварительные этапы (проверка доли выявления образцов и ОНП и проверка пола) и итерационные этапы (повторяются итеративно до тех пор, пока ошибки не перестанут находиться).

Проверка данных на наличие образцов с крайне низкой долей выявления. Образцы с высокой долей пропущенных выявлений являются следствием низкого качества ДНК и удаляются из анализа. Порог для доли выявления образцов: > 0.5.
Проверка данных на наличие однонуклеотидных полиморфизмов (ОНП) с крайне низкой долей выявления. Доля пропущенных выявлений ОНП - это доля образцов, генотипы которых не выявлены для данного ОНП. ОНП с высокой долей отсутствующих генотипов (обычно > 5%) предполагают некоторые проблемы с процессом генотипирования, поэтому такие ОНП исключаются из анализа. Порог для доли выявления ОНП: > 0.5.
Проверка пола и удаление образцов с неправильным полом. Проверка пола основана на оценке гетерозиготности X-сцепленных ОНП. По умолчанию коэффициент инбридинга X-хромосомы F < 0,2 определяет пол в образцах как женский, а F > 0,8 — как мужской.
Проверка частоты минорных аллелей (minor allele frequency; MAF). ОНП с MAF < 1% исключаются из последующего анализа, поскольку SNP-чипы, генотипирующие редкие варианты (т.е. локус с MAF < 1%), сложны и подвержены ошибкам. Таким образом, очень низкочастотные аллели, вероятно, являются следствием ошибки генотипирования и могут привести к ложным ассоциациям.
Фильтрация ОНП по доле выявления с порогом > 0.98.
Проверка равновесия Харди-Вайнберга. Согласно допущению Харди-Вайнберга, частоты аллелей и генотипов можно оценить от одного поколения к другому. Отмечается, что отклонение от равновесия Харди-Вайнберга может происходить из-за отбора, популяционного смешивания, загадочного родства, ошибки генотипирования и истинной генетической ассоциации. Поэтому для контроля качества проверяется, не отклоняются ли ОНП от равновесия Харди-Вайнберга.
Фильтрация образцов по доле выявления с порогом > 0.98.
Гетерозиготность образцов. Доля гетерозиготных генотипов в геноме образца может выявить некоторые проблемы с генотипированием, такие как загрязнение образца и инбридинг. Из анализа удаляются образцы, которые отклоняются на ± 3 SD (стандартное отклонение) от средней гетерозиготности образца.
Идентичность по проверке состояния. Высокая степень родства между образцами может привести к усилению ассоциации. Чтобы исследовать загадочное родство, мы рассчитываем матрицу родства и фильтруем образцы с близкими отношениями. Порог идентичности по состоянию: < 0.0925.
Файл с подробным описанием выполнения задачи контроля качества можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать QC log TXT").

Повторная проверка и фильтрация вариантов и генерация нового бинарного набор файлов с отфильтрованными образцами и ОНП с помощью PLINK.
Файл с подробным описанием выполнения этой задачи можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать merge log TXT").
Файл с вариантами, удаленными из анализа, можно скачать в том же разделе ("Скачать Skipped variants TXT"). Для каждого варианта указаны причина удаления и номер итерации контроля качества, на которой произошло удаление.
Полный отчёт о контроле качества данных можно открыть в том же разделе ("Открыть QC report HTML").
Файл с образцами, удаленными из анализа, можно скачать в том же разделе ("Скачать Removed samples TXT"). Для каждого образца указаны причина удаления и номер итерации контроля качества, на которой произошло удаление.
Исключение из анализа вариантов, не прошедших фильтрацию, с помощью vcftools.
Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с отфильтрованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать Filtered VCF_GZ").
Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать Filtered VCF_TBI").
2.3. Импутация - это статистический метод восстановления отсутствующих генетических данных на основе анализа гаплотипов в референтной выборке.
Индексация файла VCF с помощью bcftools index.
Разделение вариантов по хромосомам с помощью bcftools view для параллельной импутации.
Определение генотипов и импутация негенотипированных маркеров с помощью Beagle.
Объединение импутированных вариантов, разбитых по хромосомам, в один файл в формате VCF с помощью bcftools concat.
Индексация файла VCF с помощью bcftools index.
Сравнение исходного файла и файла, полученного после импутации, и получение файла с неимпутированными вариантами с помощью vcftools.
Сжатие файла с неимпутированными вариантами в GZIP архив с помощью bgzip.
Индексация файла с неимпутированными вариантами с помощью bcftools index.
Фильтрация импутированных вариантов по порогу DR2 (dosage R-squared) > 0.3 с помощью bcftools filter.
Индексация файла с импутированными и отфильтрованными вариантами с помощью bcftools index.
Объединение неимпутированных и отфильтрованных импутированных вариантов в один файл в формате VCF с помощью bcftools concat.
Индексация объединенного файла с помощью bcftools index.
Файл с подробным описанием выполнения задачи импутации можно скачать в разделе "Файлы с результатами" в деталях задачи "Импутация" ("Скачать Impute log TXT").
Файл с неимпутированными и отфильтрованными импутированными вариантами в формате VCF можно скачать в том же разделе ("Скачать Imputed VCF_GZ").
Индексный файл к VCF файлу можно скачать в том же разделе ("Скачать Imputed VCF_TBI").
2.4. Фильтрация по качеству - повторение задачи, описанной выше.

На заметку

Если в результате одной из задач фильтрации по качеству образец не проходит проверку контроля качества, то выполнение стадии "Геномные предсказания" на этом прерывается, а вычисление олигогенных рисков, вычисление полигенных рисков и/или анализ происхождения не происходит. Анализ образца может продолжиться генерацией отчётов. Вы можете загрузить образец в формате VCF или GT заново с настройкой анализа, в которой отключены контроль качества и импутация, однако результаты в этом случае могут оказаться неудовлетворительными. Либо вы можете загрузить образец в формате FASTQ или BAM - это также может решить проблему.

Вычисление полигенных рисков, если включен соответствующий параметр "Run polygenic risk scores calculation": 3.1. Мультиаллельная нормализация VCF:

Выравнивание по левому краю и нормализация инделов; проверка того, соответствуют ли референсные аллели в файле референсной последовательности; объединение биаллельных сайтов в мультиаллельные записи с помощью bcftools norm.
Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с нормализованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Мультиаллельная нормализация VCF" ("Скачать VCF_GZ").
Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").
3.2. Вычисление полигенных рисков: применение системы линейной оценки к каждой выборке с помощью PLINK. Варианты без информации о сайте (генотип ./. и подобные), без идентификатора или с несовпадающими кодами аллелей не учитываются в анализе. Генетические данные пациента должны включать варианты, представленные в моделе полигенных рисков, за исключением небольшой их доли, устанавливаемой пороговым значением. Вычисление полигенных рисков считается возможным, если генетические данные пользователя содержат не менее 95% всех вариантов, которые представлены в модели.

Оценка полигенного риска (polygenic risk score; PRS) - число, которое суммирует предполагаемый размер эффектов многих однонуклеотидных полиморфизмов (ОНП) на фенотип человека. Для каждого признака значение полигенного риска вычисляется по следующей формуле:

Генотипы закодированы следующим образом: пусть, аллель A - эффектный, а аллель G - неэффектный. Тогда численный код генотипа AA - 2, генотипа AG - 1, а генотипа GG - 0.
Предполагаемые размеры эффектов ОНП рассчитываются на основе данных полногеномного поиска ассоциаций (genome-wide association study; GWAS), который позволяет сопоставить фенотипические признаки с геномными вариантами в человеческих популяциях.
Оценка полигенного риска отражает предполагаемую генетическую предрасположенность человека к исследуемому признаку и может использоваться в качестве предиктора этого признака в предсказательной модели. Другими словами, PRS оценивает, насколько вероятно, что человек будет иметь исследуемый признак, только на основе генетических данных и без учёта факторов окружающей среды.

Вычисляемые полигенные риски:

Рост
Масса тела
Индекс массы тела (ИМТ; Body mass index; BMI)
Предрасположенность к избыточному весу
Предрасположенность к раку предстательной железы
Предрасположенность к раку молочной железы
Предрасположенность к ишемической болезни сердца
Предрасположенность к воспалительному заболеванию кишечника
Предрасположенность к сахарному диабету 2-го типа
Предрасположенность к колоректальному раку

Для каждого риска в результате выполнения задачи формируются три файла, которые можно скачать в разделе "Файлы с результатами" в деталях задачи "Вычисление полигенных рисков":

Файл с подробным описанием вычисления риска - "Скачать [название риска] Prs log TXT".
Файл с суммарной оценкой риска для этого образца - "Скачать [название риска] Score TSV". Также этот файл можно открыть в таблицах Google.
Файл со списком идентификаторов вариантов, использованных для вычисления риска, - "Скачать [название риска] Used Variants TSV". Также этот файл можно открыть в таблицах Google.

Вычисление олигогенных рисков, если включен соответствующий параметр "Run oligogenic risk scores calculation":
4.1. Нормализация VCF:

Выравнивание по левому краю и нормализация инделов; проверка того, соответствуют ли референсные аллели в файле референсной последовательности; разбивка мультиаллельных сайтов на биаллельные записи; вывод только первой записи для дублирующихся строк с помощью bcftools norm.
Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с нормализованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Нормализация VCF" ("Скачать VCF_GZ").
Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").
4.2. Вычисление олигогенных рисков: происходит по однонуклеотидным полиморфизмам (single nucleotide polymorphism; SNP), ассоциированным с определенным проявлением признака согласно моделям, основанным на мультиномиальной логистической регрессии (multinomial logistic regression; MLR).

Вычисляемые олигогенные риски:

Цвет волос;
Цвет глаз;
Цвет кожи;
Веснушчатость;
Непереносимость лактозы;
Горький вкус;
Группа крови;
Метаболизм алкоголя;
Тип ушной серы;
Подмышечный осмидроз;
Мизофония;
Движение во время сна;
Световой рефлекс чихания.

Подробно каждый признак и соответствующая модель предсказания описаны в разделе, посвящённом отчёту по олигогенным признакам.

Получившийся файл с предсказанными олигогенными признаками можно скачать в разделе "Файлы с результатами" в деталях задачи "Вычисление олигогенных рисков" ("Скачать Classifier results JSON").

После стадии "Геномные предсказания" анализ может продолжиться генерацией отчётов.