Биоинформатический анализ данных
полноэкзомного секвенирования:
анализ качества экспериментов, корректное определение,
и аннотация значимости вариантов
23 апреля 2016
Александр Предеус
Институт Биоинформатики, Санкт-Петербург
Содержание
● Особенности экзомных экспериментов
● Обработка экзомов: что важно, а что нет?
● Сравнение различных методов обогащения
● Контроль качества экзомных экспериментов
● Выводы (на сегодняшний день)
Содержание
● Особенности экзомных экспериментов
● Обработка экзомов: что важно, а что нет?
● Сравнение различных методов обогащения
● Контроль качества экзомных экспериментов
● Выводы (на сегодняшний день)
Ресеквенирование ДНК
● Таргетная панель (1-500 генов)
● Клинический экзом (5000 важных генов) - CES
● Полный экзом (20000 генов) - WES
● Полный геном - WGS
Ресеквенирование ДНК
● Таргетная панель (1-500 генов)
● Клинический экзом (5000 важных генов) - CES
● Полный экзом (20000 генов) - WES
● Полный геном - WGS
Зачем делать (полно)экзомное секвенирование?
● Дешевле, чем WGS (x2-x3)
● Количество экспериментов в запуске (x10+)
● Трудозатраты на обработку и хранение
● Трудозатраты на интерпретацию
WES vs WGS в клинике - опыт Broad Institute
● WES является оптимальной стратегией при подозрении на моногенно
наследуемые заболевания неясной презентации
● Если диагноза не находится - WGS часто находит структурные варианты
● В онкологических заболеваниях - сразу WGS + RNA-seq
Приготовление библиотек и обогащение
● Пробоподготовка - много разных методов и
производителей (Nextera, TrueSeq, NEB, etc etc)
● Обогащение - Agilent, Roche, Illumina
● Фрагментация ДНК - очень важна
Содержание
● Особенности экзомных экспериментов
● Обработка экзомов: что важно, а что нет?
● Сравнение различных методов обогащения
● Контроль качества экзомных экспериментов
● Выводы (на сегодняшний день)
Основные пайплайны
● GATK - Broad institute
● Samtools
● Freebayes
● другие
● Выравнивание
● Маркировка дупликатов
● Перевыравнивание инделов
● BQSR
● Гаплотипирование
● Генотипирование
● Фильтрация
● Аннотация
● Оценка значимости
● Интерпретация
Выравнивание и подготовка
● Правильная программа для выравнивания - bwa mem
● Маркировка дубликатов
● Перевыравнивание инделов
● Рекалибрация качеств определения оснований (BQSR)
Определение вариантов
● Важно: коллинг в когорте (30+ экспериментов на максимально этнически
близких донорах)
● Важно: аллельная частота - не табличная, а по вашей когорте!
● Фильтрация ложноположительных результатов (“около 20к вариантов на
экзом белого европейца”)
Аннотация и интерпретация
● Самая трудная и неоднозначная часть
● Все аннотации из баз (OMIM, ClinVar, другие)
● Все предикторы (Polyphen, SIFT, MutPred)
● Внимание на
○ Фазирование/генотип родителей
○ Фенотип (гены-кандидаты)
○ Анализ частоты
○ Покрытие
○ Многое другое
Содержание
● Особенности экзомных экспериментов
● Обработка экзомов: что важно, а что нет?
● Сравнение различных методов обогащения
● Контроль качества экзомных экспериментов
● Выводы (на сегодняшний день)
Наши данные
● Сейчас - более 60 экзомов (здесь представлены около 20)
● Обогащение - Roche MedExome, Illumina RapidCapture
● Приготовление - Nextera, TrueSeq
● Ряд библиотек сделан по смешанным протоколам (2 пары идентичных
образцов)
Глубина
библиотек
● 1-2 lanes of HiSeq
● 50-150М
● 100-125bp PE
Процент прочтений попавших на экзом
● Слабо зависит от
платформы
● Сильно зависит от
глубины
библиотеки
Охват экзомных интервалов
● Заявленные интервалы -
около 45 Мб
● Эмпирические интервалы -
около 65 Мб
● Все статистики расчитаны
от заявленных интервалов
Распределение регионов по покрытию
● Считая 20х
минимальным
необходимым
покрытием - 72-90%
● Учитывая падение
селекции - можно
найти оптимальную
глубину
“Плохие” варианты
● Количество намного
ниже в образцах
приготовленных по
технологии Roche
● Впрочем, низкая
глубина библиотеки
намного критичнее
Illumina vs. Roche
● Illumina дает
более высокое
пиковое
покрытие
● Roche дает
более
равномерное
покрытие
Пример критичного отличия
● Варианты на
краях экзонов
оказываются
хуже покрыты
в Illumina
● При падении
покрытия
эффект
драматизуется
Содержание
● Особенности экзомных экспериментов
● Обработка экзомов: что важно, а что нет?
● Сравнение различных методов обогащения
● Контроль качества экзомных экспериментов
● Выводы (на сегодняшний день)
Фрагментация
● FastQC - по прежнему
важнейшая программа
● Соникация лучше
транспозазы
QC3
● Специальная утилита
для DNA-seq QC
● Полезные
корреляционные оценки
● Нашли идентичные
образцы
● ..и родственников :)
Метод оценки загрязнения
человеческих образцов
Результат - все хорошо!
Содержание
● Особенности экзомных экспериментов
● Обработка экзомов: что важно, а что нет?
● Сравнение различных методов обогащения
● Контроль качества экзомных экспериментов
● Выводы (на сегодняшний день)
Работайте с связке с биоинформатиками!
● Постоянная коммуникация
● Интерес к рабочему процессу друг друга
● Новые методы - потому устоявшихся решений не существует
Благодарности
● Юрий Барбитов
● Андрей Глотов
● Олег Глотов
● Елена Жукова
● РЦ "Центр Биобанк" НП СПбГУ
● Институт Биоинформатики
Спасибо за внимание!

Биоинформатический анализ данных полноэкзомного секвенирования: анализ качества экспериментов, корректное определение, и аннотация значимости вариантов (Александр Предеус, Институт биоинформатики)

  • 1.
    Биоинформатический анализ данных полноэкзомногосеквенирования: анализ качества экспериментов, корректное определение, и аннотация значимости вариантов 23 апреля 2016 Александр Предеус Институт Биоинформатики, Санкт-Петербург
  • 2.
    Содержание ● Особенности экзомныхэкспериментов ● Обработка экзомов: что важно, а что нет? ● Сравнение различных методов обогащения ● Контроль качества экзомных экспериментов ● Выводы (на сегодняшний день)
  • 3.
    Содержание ● Особенности экзомныхэкспериментов ● Обработка экзомов: что важно, а что нет? ● Сравнение различных методов обогащения ● Контроль качества экзомных экспериментов ● Выводы (на сегодняшний день)
  • 4.
    Ресеквенирование ДНК ● Таргетнаяпанель (1-500 генов) ● Клинический экзом (5000 важных генов) - CES ● Полный экзом (20000 генов) - WES ● Полный геном - WGS
  • 5.
    Ресеквенирование ДНК ● Таргетнаяпанель (1-500 генов) ● Клинический экзом (5000 важных генов) - CES ● Полный экзом (20000 генов) - WES ● Полный геном - WGS
  • 6.
    Зачем делать (полно)экзомноесеквенирование? ● Дешевле, чем WGS (x2-x3) ● Количество экспериментов в запуске (x10+) ● Трудозатраты на обработку и хранение ● Трудозатраты на интерпретацию
  • 7.
    WES vs WGSв клинике - опыт Broad Institute ● WES является оптимальной стратегией при подозрении на моногенно наследуемые заболевания неясной презентации ● Если диагноза не находится - WGS часто находит структурные варианты ● В онкологических заболеваниях - сразу WGS + RNA-seq
  • 8.
    Приготовление библиотек иобогащение ● Пробоподготовка - много разных методов и производителей (Nextera, TrueSeq, NEB, etc etc) ● Обогащение - Agilent, Roche, Illumina ● Фрагментация ДНК - очень важна
  • 9.
    Содержание ● Особенности экзомныхэкспериментов ● Обработка экзомов: что важно, а что нет? ● Сравнение различных методов обогащения ● Контроль качества экзомных экспериментов ● Выводы (на сегодняшний день)
  • 10.
    Основные пайплайны ● GATK- Broad institute ● Samtools ● Freebayes ● другие ● Выравнивание ● Маркировка дупликатов ● Перевыравнивание инделов ● BQSR ● Гаплотипирование ● Генотипирование ● Фильтрация ● Аннотация ● Оценка значимости ● Интерпретация
  • 11.
    Выравнивание и подготовка ●Правильная программа для выравнивания - bwa mem ● Маркировка дубликатов ● Перевыравнивание инделов ● Рекалибрация качеств определения оснований (BQSR)
  • 12.
    Определение вариантов ● Важно:коллинг в когорте (30+ экспериментов на максимально этнически близких донорах) ● Важно: аллельная частота - не табличная, а по вашей когорте! ● Фильтрация ложноположительных результатов (“около 20к вариантов на экзом белого европейца”)
  • 13.
    Аннотация и интерпретация ●Самая трудная и неоднозначная часть ● Все аннотации из баз (OMIM, ClinVar, другие) ● Все предикторы (Polyphen, SIFT, MutPred) ● Внимание на ○ Фазирование/генотип родителей ○ Фенотип (гены-кандидаты) ○ Анализ частоты ○ Покрытие ○ Многое другое
  • 14.
    Содержание ● Особенности экзомныхэкспериментов ● Обработка экзомов: что важно, а что нет? ● Сравнение различных методов обогащения ● Контроль качества экзомных экспериментов ● Выводы (на сегодняшний день)
  • 15.
    Наши данные ● Сейчас- более 60 экзомов (здесь представлены около 20) ● Обогащение - Roche MedExome, Illumina RapidCapture ● Приготовление - Nextera, TrueSeq ● Ряд библиотек сделан по смешанным протоколам (2 пары идентичных образцов)
  • 16.
    Глубина библиотек ● 1-2 lanesof HiSeq ● 50-150М ● 100-125bp PE
  • 17.
    Процент прочтений попавшихна экзом ● Слабо зависит от платформы ● Сильно зависит от глубины библиотеки
  • 18.
    Охват экзомных интервалов ●Заявленные интервалы - около 45 Мб ● Эмпирические интервалы - около 65 Мб ● Все статистики расчитаны от заявленных интервалов
  • 19.
    Распределение регионов попокрытию ● Считая 20х минимальным необходимым покрытием - 72-90% ● Учитывая падение селекции - можно найти оптимальную глубину
  • 20.
    “Плохие” варианты ● Количествонамного ниже в образцах приготовленных по технологии Roche ● Впрочем, низкая глубина библиотеки намного критичнее
  • 21.
    Illumina vs. Roche ●Illumina дает более высокое пиковое покрытие ● Roche дает более равномерное покрытие
  • 22.
    Пример критичного отличия ●Варианты на краях экзонов оказываются хуже покрыты в Illumina ● При падении покрытия эффект драматизуется
  • 23.
    Содержание ● Особенности экзомныхэкспериментов ● Обработка экзомов: что важно, а что нет? ● Сравнение различных методов обогащения ● Контроль качества экзомных экспериментов ● Выводы (на сегодняшний день)
  • 24.
    Фрагментация ● FastQC -по прежнему важнейшая программа ● Соникация лучше транспозазы
  • 25.
    QC3 ● Специальная утилита дляDNA-seq QC ● Полезные корреляционные оценки ● Нашли идентичные образцы ● ..и родственников :)
  • 26.
  • 27.
  • 28.
    Содержание ● Особенности экзомныхэкспериментов ● Обработка экзомов: что важно, а что нет? ● Сравнение различных методов обогащения ● Контроль качества экзомных экспериментов ● Выводы (на сегодняшний день)
  • 29.
    Работайте с связкес биоинформатиками! ● Постоянная коммуникация ● Интерес к рабочему процессу друг друга ● Новые методы - потому устоявшихся решений не существует
  • 30.
    Благодарности ● Юрий Барбитов ●Андрей Глотов ● Олег Глотов ● Елена Жукова ● РЦ "Центр Биобанк" НП СПбГУ ● Институт Биоинформатики
  • 31.