Перейти к основному содержимому

Предсказание фенотипов

После успешной унификации SNVs/Indels для образцов неопухолевой ткани может запуститься пайплайн предсказания фенотипов, если в анализ была включена хотя бы одна из следующих задач: "Предсказание фенотипов" или "Вычисление полигенных рисков". Обратите внимание, что для включения предсказания фенотипов в анализ образца, загруженного в формате VCF или GT, необходимо на этапе составления набора образцов выбрать соответствующую настройку анализа, в которую включён один из перечисленных выше параметров.

При ошибке выполнения любой из перечисленных ниже задач анализ образца останавливается. Однако, если в анализ включены контроль качества и импутация и если образец не удовлетворяет критериям контроля качества, то выполнение стадии "Предсказание фенотипов" останавливается, но анализ образца может продолжиться генерацией отчётов.

Стадия "Предсказание фенотипов" может включать следующие задачи:

  1. Определение пола: импутация из данных об уровне гомозиготности X-хромосомы. Коэффициент инбридинга X-хромосомы F рассчитывается по следующей формуле:

Если F < 0.2, то пол определяется как женский. Если F > 0.8, то пол определяется как мужской. Если 0.2 < F < 0.8, то пол невозможно определить однозначно.

Значение пола, определённое по генетическим данным, используется для построения отчёта по полигенным признакам. Если это значение не совпадает с указанным вами полом пациента, будет учитываться значение, определённое по генетическим данным.

  1. Фильтрация по качеству и импутация: если включен соответствующий параметр "Enable QC and imputation". 2.1. Нормализация VCF:
  • Проверка того, соответствуют ли референсные аллели в файле референсной последовательности; разбивка мультиаллельных сайтов на биаллельные записи; вывод только первой записи для дублирующихся строк с помощью bcftools norm.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл можно скачать в разделе "Файлы с результатами" в деталях задачи "Нормализация VCF" ("Скачать VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").

    2.2. Фильтрация по качеству:

  • Исключение из анализа вариантов, у которых нет информации о сайте (например, ./.), с помощью bcftools filter.

  • Конвертация файла в формате VCF в бинарный набор файлов, который является способом представления выявленных генотипов, и удаление всех вариантов с одинаковыми идентификаторами, кроме первого встретившегося в файле (варианты без идентификатора пропускаются) с помощью PLINK. Файл с подробным описанием выполнения этой задачи можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать convert log TXT").

  • Контроль качества - проверка и удаление несоответствующих критериям образцов и однонуклеотидных полиморфизмов (ОНП) с помощью PLINK. Включает предварительные этапы (проверка доли выявления образцов и ОНП и проверка пола) и итерационные этапы (повторяются итеративно до тех пор, пока ошибки не перестанут находиться).

  1. Проверка данных на наличие образцов с крайне низкой долей выявления. Образцы с высокой долей пропущенных выявлений являются следствием низкого качества ДНК и удаляются из анализа. Порог для доли выявления образцов: > 0.5.
  2. Проверка данных на наличие однонуклеотидных полиморфизмов (ОНП) с крайне низкой долей выявления. Доля пропущенных выявлений ОНП - это доля образцов, генотипы которых не выявлены для данного ОНП. ОНП с высокой долей отсутствующих генотипов (обычно > 5%) предполагают некоторые проблемы с процессом генотипирования, поэтому такие ОНП исключаются из анализа. Порог для доли выявления ОНП: > 0.5.
  3. Проверка пола и удаление образцов с неправильным полом. Проверка пола основана на оценке гетерозиготности X-сцепленных ОНП. По умолчанию коэффициент инбридинга X-хромосомы F < 0,2 определяет пол в образцах как женский, а F > 0,8 — как мужской.
  4. Проверка частоты минорных аллелей (minor allele frequency; MAF). ОНП с MAF < 1% исключаются из последующего анализа, поскольку SNP-чипы, генотипирующие редкие варианты (т.е. локус с MAF < 1%), сложны и подвержены ошибкам. Таким образом, очень низкочастотные аллели, вероятно, являются следствием ошибки генотипирования и могут привести к ложным ассоциациям.
  5. Фильтрация ОНП по доле выявления с порогом > 0.98.
  6. Проверка равновесия Харди-Вайнберга. Согласно допущению Харди-Вайнберга, частоты аллелей и генотипов можно оценить от одного поколения к другому. Отмечается, что отклонение от равновесия Харди-Вайнберга может происходить из-за отбора, популяционного смешивания, загадочного родства, ошибки генотипирования и истинной генетической ассоциации. Поэтому для контроля качества проверяется, не отклоняются ли ОНП от равновесия Харди-Вайнберга.
  7. Фильтрация образцов по доле выявления с порогом > 0.98.
  8. Гетерозиготность образцов. Доля гетерозиготных генотипов в геноме образца может выявить некоторые проблемы с генотипированием, такие как загрязнение образца и инбридинг. Из анализа удаляются образцы, которые отклоняются на ± 3 SD (стандартное отклонение) от средней гетерозиготности образца.
  9. Идентичность по проверке состояния. Высокая степень родства между образцами может привести к усилению ассоциации. Чтобы исследовать загадочное родство, мы рассчитываем матрицу родства и фильтруем образцы с близкими отношениями. Порог идентичности по состоянию: < 0.0925.
    Файл с подробным описанием выполнения задачи контроля качества можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать QC log TXT").
  • Повторная проверка и фильтрация вариантов и генерация нового бинарного набор файлов с отфильтрованными образцами и ОНП с помощью PLINK.
    Файл с подробным описанием выполнения этой задачи можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать merge log TXT").
    Файл с вариантами, удаленными из анализа, можно скачать в том же разделе ("Скачать Skipped variants TXT"). Для каждого варианта указаны причина удаления и номер итерации контроля качества, на которой произошло удаление.
    Полный отчёт о контроле качества данных можно открыть в том же разделе ("Открыть QC report HTML").
    Файл с образцами, удаленными из анализа, можно скачать в том же разделе ("Скачать Removed samples TXT"). Для каждого образца указаны причина удаления и номер итерации контроля качества, на которой произошло удаление.

  • Исключение из анализа вариантов, не прошедших фильтрацию, с помощью vcftools.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с отфильтрованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Фильтрация по качеству" ("Скачать Filtered VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать Filtered VCF_TBI").

    2.3. Импутация - это статистический метод восстановления отсутствующих генетических данных на основе анализа гаплотипов в референтной выборке.

  • Индексация файла VCF с помощью bcftools index.

  • Разделение вариантов по хромосомам с помощью bcftools view для параллельной импутации.

  • Определение генотипов и импутация негенотипированных маркеров с помощью Beagle.

  • Объединение импутированных вариантов, разбитых по хромосомам, в один файл в формате VCF с помощью bcftools concat.

  • Индексация файла VCF с помощью bcftools index.

  • Сравнение исходного файла и файла, полученного после импутации, и получение файла с неимпутированными вариантами с помощью vcftools.

  • Сжатие файла с неимпутированными вариантами в GZIP архив с помощью bgzip.

  • Индексация файла с неимпутированными вариантами с помощью bcftools index.

  • Фильтрация импутированных вариантов по порогу DR2 (dosage R-squared) > 0.3 с помощью bcftools filter.

  • Индексация файла с импутированными и отфильтрованными вариантами с помощью bcftools index.

  • Объединение неимпутированных и отфильтрованных импутированных вариантов в один файл в формате VCF с помощью bcftools concat.

  • Индексация объединенного файла с помощью bcftools index.
    Файл с подробным описанием выполнения задачи импутации можно скачать в разделе "Файлы с результатами" в деталях задачи "Импутация" ("Скачать Impute log TXT").
    Файл с неимпутированными и отфильтрованными импутированными вариантами в формате VCF можно скачать в том же разделе ("Скачать Imputed VCF_GZ").
    Индексный файл к VCF файлу можно скачать в том же разделе ("Скачать Imputed VCF_TBI").

    2.4. Фильтрация по качеству - повторение задачи, описанной выше.

На заметку

Если в результате одной из задач фильтрации по качеству образец не проходит проверку контроля качества, то выполнение стадии "Предсказание фенотипов" на этом прерывается, а предсказание фенотипов и/или вычисление полигенных рисков не происходит. Анализ образца может продолжиться генерацией отчётов. Вы можете загрузить образец в формате VCF или GT заново с настройкой анализа, в которой отключены контроль качества и импутация, однако результаты в этом случае могут оказаться неудовлетворительными. Либо вы можете загрузить образец в формате FASTQ или BAM - это также может решить проблему.

  1. Вычисление полигенных рисков, если включен соответствующий параметр "Run polygenic risk scores calculation": 3.1. Мультиаллельная нормализация VCF:
  • Выравнивание по левому краю и нормализация инделов; проверка того, соответствуют ли референсные аллели в файле референсной последовательности; объединение биаллельных сайтов в мультиаллельные записи с помощью bcftools norm.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с нормализованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Мультиаллельная нормализация VCF" ("Скачать VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").

    3.2. Вычисление полигенных рисков: применение системы линейной оценки к каждой выборке с помощью PLINK. Варианты без информации о сайте (генотип ./. и подобные), без идентификатора или с несовпадающими кодами аллелей не учитываются в анализе. Генетические данные пациента должны включать варианты, представленные в моделе полигенных рисков, за исключением небольшой их доли, устанавливаемой пороговым значением. Вычисление полигенных рисков считается возможным, если генетические данные пользователя содержат не менее 95% всех вариантов, которые представлены в модели.

Оценка полигенного риска (polygenic risk score; PRS) - число, которое суммирует предполагаемый размер эффектов многих однонуклеотидных полиморфизмов (ОНП) на фенотип человека. Для каждого признака значение полигенного риска вычисляется по следующей формуле:

Генотипы закодированы следующим образом: пусть, аллель A - эффектный, а аллель G - неэффектный. Тогда численный код генотипа AA - 2, генотипа AG - 1, а генотипа GG - 0.
Предполагаемые размеры эффектов ОНП рассчитываются на основе данных полногеномного поиска ассоциаций (genome-wide association study; GWAS), который позволяет сопоставить фенотипические признаки с геномными вариантами в человеческих популяциях.
Оценка полигенного риска отражает предполагаемую генетическую предрасположенность человека к исследуемому признаку и может использоваться в качестве предиктора этого признака в предсказательной модели. Другими словами, PRS оценивает, насколько вероятно, что человек будет иметь исследуемый признак, только на основе генетических данных и без учёта факторов окружающей среды.

Вычисляемые полигенные риски:

  • Рост
  • Масса тела
  • Индекс массы тела (ИМТ; Body mass index; BMI)
  • Предрасположенность к избыточному весу
  • Предрасположенность к раку предстательной железы
  • Предрасположенность к раку молочной железы
  • Предрасположенность к ишемической болезни сердца
  • Предрасположенность к воспалительному заболеванию кишечника
  • Предрасположенность к сахарному диабету 2-го типа
  • Предрасположенность к колоректальному раку

Для каждого риска в результате выполнения задачи формируются три файла, которые можно скачать в разделе "Файлы с результатами" в деталях задачи "Вычисление полигенных рисков":

  • Файл с подробным описанием вычисления риска - "Скачать [название риска] Prs log TXT".
  • Файл с суммарной оценкой риска для этого образца - "Скачать [название риска] Score TSV". Также этот файл можно открыть в таблицах Google.
  • Файл со списком идентификаторов вариантов, использованных для вычисления риска, - "Скачать [название риска] Used Variants TSV". Также этот файл можно открыть в таблицах Google.
  1. Предсказание фенотипов (вычисление олигогенных рисков), если включен соответствующий параметр "Run phenotypes prediction":

    4.1. Нормализация VCF:

  • Выравнивание по левому краю и нормализация инделов; проверка того, соответствуют ли референсные аллели в файле референсной последовательности; разбивка мультиаллельных сайтов на биаллельные записи; вывод только первой записи для дублирующихся строк с помощью bcftools norm.

  • Сжатие файла в GZIP архив с помощью bgzip. Получившийся файл с нормализованными вариантами в формате VCF можно скачать в разделе "Файлы с результатами" в деталях задачи "Нормализация VCF" ("Скачать VCF_GZ").

  • Индексация файла с помощью tabix. Получившийся индексный файл можно скачать в том же разделе ("Скачать VCF_TBI").

    4.2. Предсказание фенотипов:

  • Цвет волос: вероятность предсказывается по модели, которая использует мультиномиальную логистическую регрессию. Цвет волос определяется по 22 полиморфизмам, модель1 предсказывает вероятности для 4 категорий: черные, каштановые, рыжие, блонд. Тон волос определяется по 20 полиморфизмам (пересекаются с цветом), модель предсказывает вероятности для темных и светлых волос. Предсказания используются для определения фенотипа по схеме, объединяющей вероятности из обеих моделей.

  • Цвет глаз: вероятность предсказывается по модели, которая использует мультиномиальную логистическую регрессию. Цвет глаз определяется по 6 полиморфизмам, модель2 предсказывает вероятности трех фенотипических признаков: карие, голубые или промежуточные (зелёные) глаза.

  • Цвет кожи: вероятность предсказывается по модели, которая использует мультиномиальную логистическую регрессию. Оттенок кожи определяется по 36 полиморфизмам. Фенотип кожи определяется по шкале Фицпатрика3. Модель4 предсказывает вероятности 5 фенотипических признаков: кожа очень светлого, светлого, промежуточного, тёмного или очень тёмного цвета.

  • Веснушчатость: вероятность предсказывается по модели, которая использует мультиномиальную логистическую регрессию. Модель5 предсказывает наличие веснушек на основе 14 предикторов (один из которых - пол). Она предсказывает 3 категории веснушчатости: отсутствие веснушек, средняя веснушчатость, сильная веснушчатость.

  • Непереносимость лактозы: модель основана на одном полиморфизме, который полностью ассоциируется с биохимически подтвержденной нестабильностью лактазы6. Во вторую и третью очередь рассматриваются некоторые полиморфизмы, которые могут отвечать за вариабельность этого признака для некоторых популяций (финской6, восточно-африканской7).

  • Горький вкус: модель основана на 3 полиморфизмах, дающих начало пяти гаплотипам в гене, кодирующем одного из представителей семейства рецепторов горького вкуса TAS2R. Эти гаплотипы полностью объясняют бимодальное распределение вкусовой чувствительности к веществу фенилтиокарбамиду8.

  • Группа крови АВO: модель основана на гаплотипе из двух полиморфизмов9.

  • Метаболиз алкоголя: модель основана на одном полиморфизме, по которому было показано, что замена в нём приводит к образованию почти неактивного фермента ALDH2, который больше не окисляет ацетальдегид до ацетата10. Наличие даже одного аллеля сильно защищает от алкогольной зависимости. Фактически, защитный эффект этого полиморфизма является наиболее широко воспроизводимой ассоциацией конкретного гена с алкоголизмом11. Еще один полиморфизм, который часто присутствует в исследованиях11, рассматривается во вторую очередь.

  • Тип ушной серы: модель основана на одном полиморфизме в гене ABCC1112, который содержит инструкции для белка, который специализируется на перемещении жира в клетки и из них. Люди, у которых есть одна или две копии варианта C в гене ABCC11, имеют больше жира в ушной сере, что делает её тёмной и липкой. У людей, у которых есть две копии варианта T, меньше жира в ушной сере, что делает её сухой, светлой и шелушащейся.

  • Подмышечный осмидроз: модель основана на одном полиморфизме, который сильно ассоциирован с наличием подмышечного осмидроза13.

  • Фармакогенетика: предсказание рисков применения определенных препаратов, основанное на рекомендациях по применению фармакогенетического тестирования в клинической практике14.

Название препаратаМаркерЗначение рискаОписание риска и рекомендации
Статины
(Аторвастатин, Симвастатин, Флувастатин, Розувастатин, Правастатин)
1 поли- морфизм0"Дикий тип" генотипа, не требует коррекции дозы статинов.
1Ассоциируется с высоким риском развития миопатии, вплоть до рабдомиолиза, при применении симвастатина, аторвастатина, правастатина или розувастатина. Допускается максимальная доза статинов 40 мг/сутки.
2Ассоциируется с высоким риском развития миопатии, вплоть до рабдомиолиза, при применении симвастатина, аторвастатина, правастатина или розувастатина. Допускается максимальная доза статинов 20 мг/сутки.
Такролимус1 поли- морфизм0Нормальная переносимость такролимуса. Отсутствуют аллели, увеличивающие нефротоксичность.
1Ассоциируется с развитием нефротоксичности при применении такролимуса с помощью стандартного режима дозирования. Носитель гетерозиготного генотипа более чувствителен к такролимусу, чем носитель гомозиготного генотипа по "дикому типу".
2Ассоциируется с развитием нефротоксичности при применении такролимуса с помощью стандартного режима дозирования. Носитель гомозиготного генотипа наиболее чувствителен к такролимусу.
Азатиоприн и 6-меркаптопурин9 поли- морфизмов1Ассоциируется с высоким риском развития гематологической токсичности в первую неделю применения азатиоприна или 6-меркаптопурина, назначаемых в стандартных дозах. Рекомендуется начинать лечение азатиоприном или 6-меркаптопурина с дозы, составляющей 50% от стандартной рекомендованной.
2Ассоциируется с высоким риском развития гематологической токсичности в первую неделю применения азатиоприна или 6-меркаптопурина, назначаемых в стандартных дозах. Рекомендуется начинать лечение азатиоприном или 6-меркаптопурина с дозы, составляющей 10% от стандартной рекомендованной.
Абакавир1 поли- морфизм1Ассоциируется с развитием синдрома гиперчувствительности при применении абакавира14. Рекомендуется отказаться от применения абакавира.
Клопидогрел2 поли- морфизма1Отмечается слабый антиагрегантный эффект клопидогрела в связи с нарушением образования его активного метаболита в печени, что является основой генетически детерминированной резистентности к данному препарату. У носителей данных аллельных вариантов, получающих клопидогрел, выше риск сердечно-сосудистых событий, по сравнению с пациентами, не несущими данные аллельные варианты.
Тамоксифен7 полимор- физмов и делеция гена CYP2D61Ассоциируется с замедлением образования активного метаболита тамоксифена в печени и прогнозирует низкую эффективность тамоксифена у пациенток с постменопаузальным эстрогенпозитивным раком молочной железы.
Иринотекан1 поли- морфизм1Ассоциируется с нарушением биотрансформации активного метаболита иринотекана SN-38, накоплением его в организме и высоким риском развития нейтропении и тяжелой диареи.
  • Мизофония: модель основана на одном полиморфизме, который связан с более высокой вероятностью чувствительности к звуку жевания15.
  • Движение во время сна: модель основана на одном полиморфизме, который ассоциирован с синдромом беспокойных ног и периодическими движениями конечностей во сне16.
  • Световой рефлекс чихания: модель основана на двух полиморфизмах, которые связаны со световым рефлексом чихания17.
  • Пол: результат задачи "Определение пола", описанной выше.

Получившийся файл с предсказанными фенотипами можно скачать в разделе "Файлы с результатами" в деталях задачи "Предсказание фенотипов" ("Скачать Classifier results JSON").

После стадии "Предсказание фенотипов" анализ может продолжиться генерацией отчётов.


  1. Модель предсказания цвета и тона волос
  2. Модель предсказания цвета глаз
  3. Шкала Фицпатрика
  4. Модель предсказания цвета кожи
  5. Модель предсказания веснушчатости
  6. Enattah N., Sahi T., Savilahti E. et al. Identification of a variant associated with adult-type hypolactasia. Nat Genet 30, 233–237 (2002)
  7. Tishkoff S., Reed F., Ranciaro A. et al. Convergent adaptation of human lactase persistence in Africa and Europe. Nat Genet 39, 31–40 (2007)
  8. Un-kyung Kim et al. Positional Cloning of the Human Quantitative Trait Locus Underlying Taste Sensitivity to Phenylthiocarbamide. Science 299, 1221-1225 (2003)
  9. Melzer D. et al. A genome-wide association study identifies protein quantitative trait loci (pQTLs). PLoS Genet 4, e1000072 (2008)
  10. Crabb D.W., Edenberg H.J., Bosron W.F., Li T.K. Genotypes for aldehyde dehydrogenase deficiency and alcohol sensitivity. The inactive ALDH2(2) allele is dominant. J Clin Invest 83, 314-316 (1989)
  11. Chen C.C. et al. Interaction between the functional polymorphisms of the alcohol-metabolism genes in protection against alcoholism. Am J Hum Genet 65, 795-807 (1999)
  12. Yoshiura Ki. et al. A SNP in the ABCC11 gene is the determinant of human earwax type. Nat Genet 38, 324–330 (2006)
  13. Inoue Y. et al. Correlation of axillary osmidrosis to a SNP in the ABCC11 gene determined by the Smart Amplification Process (SmartAmp) method. J Plast Reconstr Aesthet Surg 63, 1369-1374 (2010)
  14. Chavan Y. et al. Rapid detection of HLA-B*5701 allele by in-house developed tetra-primer amplification refractory mutation system PCR. Meta Gene 12, 150-153 (2017)
  15. Fayzullina S. et al. White Paper 23‐08 Genetic Associations with Traits in 23andMe Customers. 23andMe (2015)
  16. Stefansson H. et al. A genetic risk factor for periodic limb movements in sleep. N Engl J Med 357, 639-47 (2007)
  17. Eriksson N. et al. Web-based, participant-driven studies yield novel genetic associations for common traits. PLoS Genet 6, e1000993 (2010)