Seq grch37 что это
Результат ПГД
Похожие и рекомендуемые вопросы
27 ответов
Ничего из этого, по сути, не является показаниями к ПГД.
Честно говоря, ранние прерывания двух беременностей не является показанием к ЭКО. Разве что возраст критический и плохие репродуктивные прогнозы.
Вот такой результат с мозаицизмом не имеет однозначной интерпретации. Именно из-за возможности получать такой результат во многих странах ПГД вообще не применяют, а в большинстве применяют лишь при строгих показаниях.
Такой результат может означать:
1. Погрешность метода
2. Если же выявленная аномалия, действительно, есть, то беременность не будет развиваться.
Так что, можно на риск подсаживать этого эмбриона.
Или же оставить его на потом и подсадить того, что без ПГД.
2, (x, y) *1 выявлена мозаичная моносомия хромосомы 1. Может быть рекомендован к переносу с согласием семьи и консультацией генетика. Объясните пожалуйста, что это означает и какие последствия могут быть, если его подсадят и рекомендуете такой эмбрион к переносу. Возраст 27 лет мужу 33. Диагноз тератозооспермия 1%.
Добрый день,
ребенку 4 года, отстает в развитии.
Провели Хромосомный микроматричный анализ с использованием олигонуклеотидных микроматриц Affimetrix CytoScan HD.
Молекулярный кариотип (согласно ISCN 2020): arr(X,1-22) ×2.
Участки потери гетерозиготности, содержащие гены, связанные с феноменом импринтинга, отсутствуют.
Общая протяженность участков потери гетерозиготности, размером 3 млн. П. н. и более, соответствует популяционной (0,46%).
Подскажите пожалуйста, что это значит.
Поиск по сайту
Что делать, если у меня похожий, но другой вопрос?
Мы отвечаем на 97.45% вопросов.
Вопрос от Индира
Условия передачи информации
Я подтверждаю свое согласие на передачу информации в электронной форме анкеты (в том числе персональных данных) по открытым каналам связи сети Интернет. Я подтверждаю свое согласие на передачу информации в электронной форме анкеты (в том числе персональных данных) по открытым каналам связи сети Интернет. Я подтверждаю свое согласие на передачу информации в электронной форме анкеты (в том числе персональных данных) по открытым каналам связи сети Интернет.
Я подтверждаю свое согласие на передачу информации в электронной форме анкеты (в том числе персональных данных) по Интернет.
Я подтверждаю свое согласие на передачу информации в электронной форме анкеты (в том числе персональных данных) по открытым каналам связи сети Интернет. Я подтверждаю свое согласие на передачу информации в электронной форме анкеты (в том числе персональных данных) по открытым каналам связи сети Интернет.
Преимплантационный генетический анализ эмбрионов
Каждая из 100 триллионов клеток в организме человека (за исключением красных кровяных клеток) содержит весь человеческий геном. Хромосомы – это струноподобные элементы внутри ядра (в центре) каждой клетки вашего тела. Они содержат генетическую информацию, ДНК. Ген занимает определенное место на хромосоме. В норме, есть 23 идентичных пары хромосом (2 метра ДНК) в каждой клетке, в общей сложности 46 хромосом. Каждый партнер во время оплодотворения обычно предоставляет 23 хромосомы. Если яйцеклетка или сперматозоид имеют аномальную упаковку хромосом, эмбрион, который они создают, также будет иметь хромосомные аномалии. Иногда это связано с перестройкой хромосом, или недостатком части хромосомы. В некоторых случаях есть отсутствующие хромосомы, или дополнительная хромосома (анеуплоидии), ведущие к наследственным заболеваниям. Любой эмбрион, в котором отсутствует хромосома (моносомия) перестанет расти до имплантации (фатальная аномалия). Если анеуплоидии включают хромосомы 13, 18, 21, Х или Y, беременность может дойти до родов. Наиболее распространенной из этих несмертельных аномалий является трисомия 21, или синдром Дауна, при которой присутствует дополнительная 21-я хромосома. Другие включают синдром Тернера у женщин и синдром Клайнфельтера у мужчин.
История преимплантационной генетической диагностики (ПГД)
Первые живорождения после ПГД были зарегистрированы в Лондоне в 1989 году. Две двойни девочек-близнецов родились от пяти пар с риском передачи связанного с Х-хромосомой заболевания. В настоящее время с помощью методов генетического анализа или ПГД могут быть обнаружены около 90% аномальных эмбрионов. Не все хромосомные или генетические заболевания могут быть определены этими процедурами, так как в ходе одной процедуры может быть диагностировано только ограниченное число хромосом. Многочисленные исследования на животных и некоторые исследования на человеке показывают, что микрохирургия эмбриона (биопсия), необходимая для удаления клеток, не влияет на нормальное развитие ребенка. Эта процедура, однако, была выполнена относительно небольшому числу пациентов во всем мире, поэтому точные негативные последствия, если таковые имеются, неизвестны. Несмотря на то, что после генетического анализа для выявления анеуплоидии всем мире на сегодняшний день было рождено уже много детей, эта процедура все еще относительно нова. В исследованиях на животных не было обнаружено никаких очевидных проблем и предварительные данные с эмбрионами человека позволяют предположить справедливость этого вывода. В исследовании, проведенном в Университетском колледже Лондона, исследователи недавно рассмотрели 12 преимплантационных эмбрионов с новой техникой, которая сочетает в себе амплификацию всего генома (WGA) и сравнительную гибридизацию генома (CGH). В результате в 8 из 12 изученных эмбрионов были обнаружены значительные хромосомные аномалии. Это может объяснить, почему люди имеют в лучшем случае 25% шансов на достижение жизнеспособной беременности в месяц при естественном зачатии.
Как передаются по наследству генетические заболевания
В диаграммах ниже, D или d представляет дефектный ген, а N или n представляет нормальный ген. Мутации не всегда приводят к болезни.
Доминантные заболевания:
Один из родителей имеет один дефектный ген, который доминирует над своей нормальной парой. Так как потомки наследуют половину своего генетического материала от каждого из родителей, есть 50% риск наследования дефектного гена, и, следовательно, заболевания.
Рецессивные заболевания:
Оба родителя являются носителями одного дефектного гена, но при этом имеют нормальную пару гена. Для наследования заболевания необходимы две дефектных копии гена. Каждый потомок имеет 50% шанс быть носителем, и 25% шанс унаследовать заболевание.
X-сцепленные заболевания:
Нормальные женщины имеют XX хромосомы, а нормальные мужчины XY. Женщины, которые имеют нормальный ген на одной из Х-хромосом, защищены от дефектного гена на их другой Х-хромосоме. Однако, у мужчины отсутствует такая защита в связи с наличием только одной Х-хромосомы. Каждый мужской потомок от матери, которая несет в себе дефект, имеет 50% шанс унаследовать дефектный ген и заболевание. Каждый женский потомок имеет 50% шанс быть носителем, как и ее мать. (на рисунке ниже X представляет нормальный ген а X представляет дефектный ген)
Возможные преимущества генетического анализа
Преимплантационная генетическая диагностика позволяет отобрать и перенести не измененные (хромосомно нормальные) эмбрионы, которые могут привести к большей частоте имплантации на эмбрион, сокращению потерь беременности и рождению большего числа здоровых детей. Генетическая диагностика предлагает парам альтернативу мучительному выбору по поводу того, чтобы прервать пострадавшую беременность после пренатальной диагностики, производимой путем амниоцентеза или биопсии ворсин хориона (CVS) на более поздних стадиях беременности. Почти все генетически связанные заболевания, которые могут быть диагностированы в перинатальном периоде либо амниоцентезом или CVS, могут быть обнаружены и ПГД. Процедура должна уменьшить психологическую травму для пар, которые несут повышенный риск генетических заболеваний для потомства.
Преимущества преимплантационной генетической диагностики (ПГД) могут включать в себя:
Возможные риски генетического анализа
Кандидаты для биопсии эмбриона и ПГД
Кандидаты для биопсии эмбриона и ПГД включают в себя:
Пары с повторными неудачами ЭКО.
Используемые методы
Для анализа на наличие генетических дефектов эмбриона, из него необходимо удалить либо первое полярное тельце из неоплодотворенной яйцеклетки и/или 1 или 2 клетки от каждого эмбриона. Это называется биопсией яйцеклетки или эмбриона и обычно делается перед тем, как происходит оплодотворение, или через 3 дня после оплодотворения. Биопсия на 6-10 клеточной стадии не оказывает отрицательного влияния на преимплантационное развитие. На этом этапе каждая клетка имеет полный набор хромосом. Обычно из эмбриона удаляется только одна клетка, так как ожидается, что будут одинаковыми со всеми другими клетками в эмбрионе. Иногда необходимо удалить вторую клетку из эмбриона, например, если сигнал в первой не обнаружен. Для диагноза предрасположенности с помощью первого и второго полярных телец, как показателей генетического статуса яйцеклетки, используется анализ методом FISH. Недостатком анализа полярных телец заключается в том, что он не принимает во внимание отцовские анеуплоидии.
Анализ биопсированной клетки использует один из двух методов:
Вся информация носит ознакомительный характер. Если у вас возникли проблемы со здоровьем, то необходима консультация специалиста.
Seq grch37 что это
Часть 3. Обработка файлов секвенирования от А до Я
В лабораториях обработка результатов секвенирования состоит из множества запусков специальных программ. Эти шаги организуют в виде конвейера действий (pipeline), в который на входе подаются FASTQ-файлы, а на выходе получают VCF-файл. Или таблицу, удобную для анализа человеком.
При помощи Galaxy и snpEff мы пройдем все эти шаги поэтапно, каждый раз останавливаясь и проверяя, что же мы получили.
Скорее всего, у вас уже есть готовый VCF-файл. Поэтому, если вы хотите сразу перейти к анализу генетических нарушений, то можно пропустить следующую главу о выравнивании и перейти к главе об аннотировании.
Но откуда вообще может возникнуть необходимость пройти весь путь от FASTQ до VCF-файла?
1) VCF-файла может не быть, если лаборатория не проводит постобработку данных.
2) Если вы проводили секвенирование несколько лет назад, то данные в BAM и VCF-файлах могли быть выровнены по референсному геному GRCh37/hg19, который не совместим со многими новыми базами данных.
3) В VCF-файл включаются не все варианты, некоторые отфильтровываются по тем или иным критериям. Кроме того, у лаборатории могут быть свои стандарты обработки и вывода данных, которые создадут проблемы при последующем анализе.
Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
Прочитанные секвенатором Illumina последовательности ДНК обычно хранятся в нескольких (двух и более) парных FASTQ файлах, упакованных в архив (расширение fastq.gz).
Поскольку работа с FASTQ-файлами очень ресурсоемкая, к тому же требует много времени, мы воспользуемся мощной и бесплатной веб-платформой Galaxy. Вы можете прочитать эту официальную и подробную инструкцию, но в ней указаны не все шаги, а о некоторых правильных действиях приходится догадываться.
Поэтому я описал свои действия здесь и снял их на этом видео.
Рекомендую параллельно использовать текстовое описние ниже, видео и официальные инструкции.
Зарегистрируемся и подтвердим в email аккаунт на сайте Galaxy https://usegalaxy.org/
А затем выбрав в выпадающем списке Rename.
Загрузим наши упакованные файлы на сервер, кликнув иконку загрузки:
Дождемся пока файлы загрузятся и появятся в правой колонке подсвеченные зеленым фоном.
Прежде чем приступать к анализу, наверняка будет интересно проверить качество секвенирования, оценив данные в FASTQ файлах. Для проверки качества введите в строке поиска «fastqc». И выберите из выпадающего списка инструмент FastQC Read Quality reports.
В верхнем поле «Short read data from your current history» нужно указать на иконку выбора нескольких файлов и потом на предварительно загруженные FastQ файлы. Затем нажать «Execute».
Прежде чем приступать к анализу, наверняка будет интересно проверить качество секвенирования, оценив данные в FASTQ файлах.
Секвенирование Illumina основано на идентификации отдельных молекул ДНК. У каждой из четырех молекул будет своя длина волны. Но из-за несовершенства процесса секвенирования и ограничений оптических инструментов, считывание (т.е. базовый вызов или base calling) всегда будет иметь не точный, а вероятностный характер. По этой причине файлы FASTQ хранят вместе с каждым считанным нуклеотидом, показатель качества – вероятность ошибки.
В биоинформатике используется статистическая функция phred quality score, которая определяет, насколько вероятно, что отдельный прочитанный нуклеотид (базовый вызов) может быть неверным. Например, оценка Phred 10 соответствует одной ошибке в каждых 10 базовых вызовах или точности 90%; оценка Phred 20 соответствует одной ошибке в каждых 100 базовых вызовах, или точности 99%.
Я посмотрел разницу между примерами качественных, некачественных и моих данных. Судя по зеленому флажку, мои данные приемлемого качества – лишь небольшая часть базовых вызовов приближается к Phred 20.
Вот пример хорошего качества.
Вот пример плохого качества. Качество моих данных.
Но дальнейшие действия должны быть не произвольными, а одновременными для пар файлов.
Парными FASTQ-файлы называют потому, что чтение отрезков ДНК происходит с двух концов. Прямое и обратное прочтение сохраняются каждое в отдельном файле.
Направление прочтения должно быть указано в имени файлов. У файлов с прямым прочтением будет имя похожее на ***forvard.fastq.gz, а у файлов с обратным прочтением будет имя ***reverse.fastq.gz. Или различные направления будут обозначаться буквами R1 и R2.
Например, четыре наших файла с результатами секвенирования выглядели как в первом примере:
Важно разобраться и не путать, в каких файлах находится прямое, а в каких обратное направление прочтения.
Если есть сомнения, не допустили ли вы ошибку с выбором пары, то лучше сразу отменить задание и создать его повторно, поскольку времени на его выполнение может уйти много, а ошибку мы выявим уже при работе с VCF-файлом.
Если мое объяснения не все прояснило, посмотрите видео главы «Mapping against a pre-computed genome index» по ссылке.
Далее очистим данные при помощи инструмента Trimmomatic, обрезая так называемые «адаптеры». Это служебный ДНК, который был необходим для проведения секвенирования Illumina.
Вводим в строке Trimmomatic, выбираем в выпадающем меню «Single-end or paired-end reads?» строку «Paired-end (two separate input files)»
Выбираем первый файл прямого и первый файл обратного прочтения среди загруженных файлов. Нажимаем «Execute».
Аналогично поступаем для следующих пар.
Мы получили пары очищенных файла с префиксом Trimmomatic.
Теперь можно выровнять парные файлы по эталонному геному и получить BAM файлы, в которых все прочитанные нуклеотиды будут выстроены по порядку.
Наберем в строке поиска «BWA-MEM», затем в меню поиска выберем строку «Map with BWA-MEM – map medium and long reads (> 100 bp)». Затем в строке «Using reference genome» наберем 38 и выберем «Human (Homo sapiens) (b38): hg38». То есть выберем последнюю версию референсного генома.
Важно! Если вы знаете, что вам придется использовать старые базы данных (где указаны кода GRCh37 и hg19), тогда для совместимости вам нужна предыдущая версия. В этом случае, здесь и далее наберите hg19 и выберите «Human (Homo sapiens) (b37): hg19». Иначе лучше использовать сборку hg38.
В поле «Single or Paired-end reads» указываем «Paired».
После чего появятся два поля с текстом «Select first set of reads» и «Select second set of reads». Возле них нужно выбрать иконки сдвоенных файлов, если у вас более чем два FASTQ-файла. При этом мы выбираем не исходные, а очищенные файлы с префиксом Trimmomatic.
В первом поле (кликая по порядку возрастания номеров!) выбираем файлы прямого чтения (с обозначением forward или R1), зажимая при выборе файлов клавишу ctrl.
Затем во втором поле, тоже по порядку возрастания, выбираем файлы обратного чтения (обозначения reverse или R2). Нажимаем «Execute».
Мы получим один или несколько выровненных BAM файлов, по числу файлов архива. Их имена будут начинаться со слов «Map with BWA-MEM on data…».
Объединим BAM-файлы в один.
Наберем в строке поиска «MergeSamFiles», затем в меню поиска выберем строку «MergeSamFiles merges multiple SAM/BAM datasets into one».
Затем в поле «Select SAM/BAM dataset or dataset collection» выберем два выровненных BAM-файла «Map with BWA-MEM on data…» и выполним команду.
В итоге должен получиться третий объединенный BAM-файл, который начинается с префикса «MergeSamFiles…».
Мы выровняли наш геном по эталону. А теперь мы выявим отличия нашего генома от эталона. Процесс сравнения называется variant calling. Те прочтения, которые отличаются от эталонного генома, записывают в VCF-файл. (Аббревиатура VCF означает variant call format).
Variant call мы будем делать при помощи мощного статистического детектора «FreeBayes».
Найдем его через строку поиска.
Здесь нам нужно указать на объединенный BAM-файл «MergeSamFiles…» и выбрать референсный геном «Human (Homo sapiens): hg38» (или же hg19, если вы пользуетесь не новыми, а старыми базами данных).
На выходе мы получим довольно большой VCF-файл, который начинается с префикса FreeBayes. Для экзома он содержит несколько миллионов строк, множество из которых будут с низким числом прочтений. Как правило, это прочтения за пределами кодирующих участков гена, которые не имеют особой ценности.
Отфильтруем прочтения низкого качества при помощи инструмента SnpSift Filter. На вход к нему подаем файл FreeBayes. Здесь в поле «Filter criteria» вставим текст «( QUAL > 30 ) & ( DP > 20 )».
То есть мы отсекаем прочтения с качеством по шкале Phred менее 30. Наверное, стоит сказать, что если мы используем FreeBayes, то в фильтре QUAL нет большого смысла. Потому что каждое прочтение будет вносить свой вклад в качество, а в итоге оно будет высоким и неинформативным. Но, возможно, мы отсечем какие-то совсем некачественные варианты.
Также отсечем прочтения с покрытием менее 20 (для экзома такая глубина отсечения кажется подходящей).
Количество записей относительно исходного VCF-файла (FreeBayes) сокращается более чем в 10 раз.
VCF-файл содержит, в общем, понятные аннотации относительно гомо- или гетерозиготности варианта (0/1, 1/1). Также, сравнивая фрагмент эталонного и альтернативного варианта, можно понять какой он – SNP, индель или сложная замена. Однако, для облегчения последующего анализа, можно добавить и более понятные аннотации с помощью функции SnpSift Variant Type.
Далее аннотируем VCF-файл записями из базы dbSNP, чтобы упростить себе задачу и не делать этого на локальном компьютере.
Сначала подключим нужную базу данных, перейдя по ссылкам Shared Data > Data Libraries.
В библиотеке выберем dbSNP, затем кликнем на версию dbSNP_146_hg38.vcf.
Кликнем на вкладке to History и выберем нашу историю.
Вернемся на страницу проекта и введем в строке поиска «dbsnp», а затем выберем в меню «SnpSift Annotate SNPs from dbSnp».
Здесь в первой строке выберем файл, который начинается с префикса SnpSift Variant Type, а во второй – загруженную базу данных. Выполняем действие.
Теперь в нашем VCF-файле появились rs-записи в поле ID. Это уникальные RefSNP идентификаторы известных вариантов, о которых мы говорили выше. Также добавилось множество другой полезной информации в поле INFO.
Скачаем полученный VCF-файл (см. рисунок).
Что мы будем делать с VCF-файлом?
Конечно, Galaxy – прекрасное творение энтузиастов биоинформатики. Ее возможности огромны. Но, к сожалению, мне не удалось добиться совместимости с последними версиями баз данных Clinvar, dbNSFP, GWAS. А работать желательно с обновленными источниками. Поэтому для аннотирования VCF-файла мы спустимся с облачного сервиса на локальный компьютер.
Следующий вопрос, что же мы будем делать с VCF-файлом?
Первый этап – аннотирование VCF файла. В процессе аннотирования программа snpEff, точнее ее инструменты, автоматически добавят важную информацию. Аннотации включают описание ассоциированных заболеваний, прогноз влияния варианта на функцию гена, частоты аллелей и множество других полезных данных. Поскольку медицинские базы данных периодически дополняются, нам желательно использовать последние версии.
Второй этап – фильтрация и форматирование. На основе сделанных аннотаций, будут удалены данные, которые не влияют на функцию гена и скорее всего не имеют значения для здоровья. Результаты нужно будет сохранить в табличном виде.
Третья часть – сортировка и анализ табличных данных в Excel пои помощи инструментов интерпретации. Описанные нарушения нужно сравнить с проявлениями (фентоипом). Это самая трудоемкая, потому что «ручная» работа. Возможно, придется проверить сотни записей.
В следующих главах опробуем пройти весь этот длинный путь по порядку.
Можно сказать, что большая часть данных секвенирования избыточна, поскольку прочитанные варианты совпадают с эталонным геномом и неинтересны. Для анализа важны только различия, которые и записаны в VCF-файле.
Пропустив большую шапку, посмотрим на первые два столбика файла.
Под заголовком #CHROM идет порядковый номер одной из 23 пар хромосом, в которые упакованы нити ДНК.
Напомню, что 22 хромосомы парные (аутосомные), то есть одинаковы у мужчин и женщин. У мужчин кроме них есть непарные половые Х и Y-хромосомы. А у женщин есть две Х хромосомы, то есть, все 23 хромосомы парные. Хромосомы обозначают по порядковым номерам. Например, chr5 (5-я хромосома) или chrY (Y-хромосома).
POS – позиция прочитанной молекулы ДНК, одной из миллионов, по всей ее длине. Номера идут по возрастающей.
ID – обычно заполняется в процессе аннотирования уникальными номерами вариантов из «энциелопедии» dbSNP.
Разобравшись в предыдущей главе с аллелями, мы можем взглянуть на пятый и шестой столбики VCF файла, которые называются REF и ALT. Здесь REF – это заранее известный эталонный аллель, а ALT – найденные отличия от эталона, то есть, альтернативный аллель. Если альтернативными оказались оба гетерозиготных аллеля, то записывается их пара, разделенная запятыми.
Гетерозиготные варианты проявляются как позиции, где приблизительно половина чтений соответствует эталону, а другие показания отличаются от эталона.
0/1 – образец является гетерозиготным и содержит 1 копию каждого из аллелей – эталонного REF и альтернативного ALT
1/1 – образец является гомозиготным и отличается от эталона.
Сочетание 0/0 (гомозиготный эталонный) обычно не заносится в файл вместе с самой записью, потому что не имеет значения для анализа.
QUAL – качество. Это важный интегрированный параметр, который позволяет исключить варианты аллеля ALT, которые кажутся сомнительными. Как рассчитывается качество, я писал выше.
Аннотирование VCF-файла c программой snpEff
Аннотирование VCF-файла – ресурсоемкий процесс. Важно, чтобы на компьютере было установлено не менее 4Gb оперативной памяти (лучше 8Gb и больше). Мощный процессор, SSD диск и высокоскоростной интернет также существенно ускорят работу.
Работать придется не в Windows, а в Linux, потому что именно эту среду выбрали биоинформатики для своих проектов. Но не пугайтесь, если вы не сталкивались с Linux раньше. Мы установим не полноценный Linux, а эмулятор Cygwin, который прост в работе и должен нормально справиться с нашими задачами.
Пользователям Linux я рекомендую параллельно смотреть эту ссылку. А для пользователей Windows предлагаю пошаговую видеоинструкцию.
Прежде всего, скачиваем и устанавливаем Cygwin в корень диска С (это важно!). Можно руководствоваться этим описанием установки.
После запуска Cygwin попросит установить логин и пароль. По имени логина будет создана папка, где будут хранится все файлы.
Заходим в Program Files, находим папку Java и копируем имя папки с версией программы.
Вставляем номер версии в строке вместо “jre1.8.0_261” (стараемся вставлять без пробелов, которые любит добавлять Word) или просто копируем мою строку, если имя вашей версии Java не отличается.
Вставим эту строку в окно терминала Linux. Сразу обращу внимание, что в Cygwin вставка «ctrl+v» по умолчанию не работает, но можно пользоваться правым кликом и меню «вставить». Нажимаем Enter для ввода.
Далее проверяем, что Java запускается, для чего вводим тестовую команду на вывод версии:
Если в результате увидим java version с номером вашей версии, значит путь задан правильно и Java работает.
Заходим в каталог установленной на диске С программы cygwin64, находим там папку home, а в ней папку с именем пользователя, которая была создана автоматически в процессе установки (в моем случае C:/cygwin64/home/Eugene). Распаковываем в нее архив snpEff_latest_core.zip. Появятся папки snpEff, clinEff и некоторые файлы, как на рисунке.
Пробуем запустить программу snpEff, вводим в командной строке
Если в результате мы увидим длинный текст, который начинается с ”SnpEff version SnpEff…”, то программа работает.
Создадим в той же папке, где находятся программы, каталог для VCF-файлов. Скопируем туда ваш VCF-файл и переименуем его в 01.vcf.
Теперь мы добавим первые 19 аннотаций (о них подробнее на английском тут).
Но прежде, чем вводить следующую команду, разберем и исправим ее при необходимости.
1) Важно правильно выбрать объем оперативной памяти, выделяемой компьютером на выполнение команд. Например, если у вашего компьютера лишь 4Gb оперативной памяти, то вместо параметра “-Xmx8g”, здесь и везде далее пишите “-Xmx4g”.
2) Сегодня параллельно используются две основные версии данных, точнее референсных генома, которые нужно четко разделять. В версии GRCh38/hg38, которая вышла в 2013 году, порядковый номер аллеля на хромосоме уже не советует предыдущей версии GRCh37/hg19. Это означает, что обязательно нужно выбирать соответствующие версии баз данных.
Чтобы выяснить, какая у вас версия, достаточно заглянуть в шапку VCF-файла. Если вы увидите в строках со словами reference или assembly «hg19», то референсный геном был GRCh37/hg19. Если же вы увидите «hg38», то референсный геном был GRCh38/hg38.
3) Важно правильно создавать структуру каталогов и прописывать пути к ним. Если вы допустите ошибку, вставите лишний пробел или длинное тире вместо знака минус, то программа выдаст ошибку.
Все, что написано ниже, относится к версии референсного генома GRCh38/hg38. Но отдельно в конце главы я продублировал команды и ссылки для версии GRCh37/hg19.
Также все, что написано ниже, относится к экзому. Вероятно, команды будут работать и с геномом, но будут пропущены некодирующие области ДНК.
Перейдем к первой команде аннотирования файла.
В папке vcf сразу появится выходной файл 02.anncanon.vcf. Но пока программа snpEff не загрузит базу данных размером более 600 Mb, его размер будет нулевым и с ним ничего происходить не будет. Сначала база будет загружаться в папку tmp программы Сygwin32. После загрузки она автоматически переместится в раздел data программы snpEff. В случае повторного обращения, база данных заново загружаться не будет, а будет сразу браться из папки data.
Интересно, что в процессе аннотирования наиболее сильно используются не ресурсы процессора, а память.
Чтобы убедиться, что файл был аннотирован, откроем в Notepad++ и сравним два варианта, пропустив всю шапку.
Добавились имя гена (OR4F5), тип варианта (synonymous_variant), степень влияния на функцию гена (LOW) и множество других аннотаций.
Чтобы сделать удобным будущий анализ в Excel, мы вывели выходной файл в каноническом структурированном виде (в строке за это отвечает установленный параметр “-canon”).
Нас очень интересует клиническая информация о наших вариантах. Чтобы ее получить, загрузим свежую версию базы данных Clinvar. Для референсного генома GRCh38/hg38 ее можно найти на сервере NCBI (известном как Pubmed), по этой ссылке.
Замечу, что иногда сервер блокирует IP определенных провайдеров, поэтому, если ссылка покажется не рабочей, включите какой-нибудь VPN (например, плагин Hotspot Shield Free VPN Proxy для Chrome).
Теперь, если мы все сделали правильно, то можем аннотировать наш файл с Clinvar. Вводим:
Были проаннотированы варианты, о которых известна какая-нибудь клиническая информация (в моем случае, около 7% записей VCF-файла).
Добавилось связанное с вариантом потенциальное заболевание, частота аллеля в популяции из проекта 1000 Genomes, характер влияния на потенциальное заболевание и многая другая информация.
Более подробно об аннотациях можно почитать здесь.
Вероятно, вам покажутся полезными аннотации из каталога GWAS (полногеномного поиска ассоциаций). Этот каталог не поможет найти редкие менделевские заболевания, но позволит выявить генетические факторы риска и дать прогноз о предрасположенности к распространенным заболеваниям и состояниям.
Замечу, что ссылка в инструкции к snpEff не работает, но каталог (размером 101Mb) можно скачать здесь.
Переименовываем файл “gwas_catalog_v1.0-associations_e100_r2020-06-30.tsv” в “gwascatalog.txt”, затем сохраняем его по такому пути: /db/GRCh37/gwasCatalog/gwascatalog.txt (потому что именно там его будет искать snpEff, несмотря на более свежую версию референсного генома).
Выполняем еоманду в терминале Linux.
В моем случае было аннотировано 2.6% строк.
Следующая аннотация будет из базы данных dbNSFP. Она разработана для функционального прогнозирования вариантов в экзоме человека. Для большинства вариантов в кодирующей области, dbNSFP содержит десятки оценок, как на основе популяционных и филогенетических исследований (частота аллелей, консервативность участка), так и на основе моделей повреждения гена (например, MutationTester).
В инструкции к snpEff для референскного генома GRCh38 / hg38 рекомендуют использовать версию dbNSFP 3.2 Academic размером 14.4 Gb. На момент подготовки статьи ее можно было скачать по этой ссылке, а индексный файл, по этой ссылке.
В каталоге snpEff/data создадим папку dbnsfp и сохраним там оба файла. Затем выполним команду.
В моем случае было аннотировано 7.75% данных.
Теперь мы удалим варианты низкой степени воздействия на функцию гена (LOW и MODIFIER), если только они не были аннотированы интересующими нас записями из баз данных Clinvar, GWAS, dbNSFP или dbSNP.
Все это мы сделаем при помощи команды filter:
Сформируем таблицу, в которой оставим максимум информации и которую можно будет открыть в Excel.
Перейти по этой ссылке, где нас интересуют 4 файла (clinvar.vcf.error.txt, clinvar.vcf.gz, clinvar.vcf.gz.md5, clinvar.vcf.gz.tbi), которые нужно скачать. В каталоге snpEff сохраним эти файлы по пути: data/GRCh37/clinvar/, для чего создадим соответствующие папки.
Для удобства анализа добавим текстовое описание типа варианта (SNP, вставка, делеция или смешанный), а также гетерозиготность/гомозиготность.
Содержание:
Часть 3. Обработка файлов секвенирования от А до Я
3.1. Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
3.2. Что мы будем делать с файлами?
3.3. Аннотирование VCF-файла c программой snpEff