Секвенирование
нанопорами
Михаил Колмогоров
University of California San Diego
Институт биоинформатики, Санкт-Петербург, 2016
Методы секвенирования
● Sanger
○ Риды длиной < 1000
○ Малый выход эксперимента => дорого
● NGS
○ Illumina, 454, Ion torrent
○ Большой выход, но риды короче (50-500)
● Pacific Biosciences
○ Риды средней длины 15,000
○ 11-15% ошибок
○ Дорогой секвенатор/химия
Методы секвенирования
● Текущие технологии:
○ Клонирование
○ Амплификация
○ Дорогостоящие энзимы
● Основаны на физических и химических особенностях
цепочек ДНК
Методы секвенирования
● Текущие технологии:
○ Клонирование
○ Амплификация
○ Дорогостоящие энзимы
● Основаны на физических и химических особенностях
цепочек ДНК
● Физические различия между отдельными
нуклеотидами?
Секвенирование наносенсорами: идея
● Макромолекула проходит через пору
● Транслокация модулирует сигнал, который можно
детектировать
Различные типы наносенсоров
● Биологические
○ -hemolysin (1.4 nm)
● Искуственные (solid-state)
○ До 0.5 nm в диаметре
Методы детектирования сигнала
● Молекула блокирует ионный ток через пору
● Помещается несколько нуклеотидов
Branton et al., 2008
Методы детектирования сигнала
● Нуклеотиды отрезаются экзонуклеазой
Branton et al., 2008
Методы детектирования сигнала
● Поперечный туннелирующий ток
Branton et al., 2008
Дополнительные сложности
● Денатурация / расплетение ДНК
● “Протягивание” через пору
● Контроль скорости транслокации
Oxford Nanopores: MinION
● Первый коммерческий секвенатор на основе нанопор
● Стоимость
○ 1000$ - секвенатор
○ Дополнительные наборы пор - 500$ - 900$
○ 90$ - реагенты на ран
● Выход: 500Mb - 1Gb на пору
Image by Oxford Nanopores
MinION
● Пора на основе CsgG из E. Coli
● “Heaviliy engineered motor enzyme”
○ Замедление с 106
до 200 баз в секунду
Image by Oxford Nanopores
MinION II
Image by Oxford Nanopores
2D чтение
Image by Oxford Nanopores
От сигнала к ДНК
● Как декодировать сингал с поры?
University of Washington
От сигнала к ДНК
● Как декодировать сингал с поры?
○ Фрагментация на отдельные события
University of Washington
От сигнала к ДНК
● Как декодировать сингал с поры?
○ Фрагментация на отдельные события
○ Каждому событию соответсвует k-мер
University of Washington Timp et al., 2012
Алгоритм Витерби
● Состояния - все возможные 3-меры
● Наблюдения - фрагментированный сигнал
● Разреженная матрица переходов: только
перекрывающиеся 3-меры
Timp et al., 2012
De Novo сборка: Nanocorrect + Celera
● Две итерации коррекции ошибок
● Celera
● Nanopolish
Loman et al., 2015
De Novo сборка: ABruijn
● Сборка сырых ридов, без коррекции ошибок
● Риды перекрываются с помощью A-Bruijn графа
● Коррекция ошибок уже собранного генома
Lin et al., 2016
Стоимость секвенирования
● MinION - 500$ за 1 Gb?
Oxford Nanopores: MinION
● Ошибки: 13-19% (до 5% 2D R9)
● Проблемы с гомополимерами
● Сборка E. Coli в одну хромосому, точность 99.5%
● Поиск структурных вариаций / SNP
Секвенирование белков
Два нобелевских приза Фредерика Сэнгера
1977: ДНК
секвенирование
Два нобелевских приза Фредерика Сэнгера
1958:
Секвенирование
белков
1958: Секвенирование белков - сложно, ДНК - невозможно
Today: Секвенирование белков - сложно, ДНК- тривиально
1977: ДНК
секвенирование
Зачем секвенировать белки?
● Белки, не закодированные
явно в геноме (антитела)
● Короткие гены которые
сложно предсказать
● Пост-трансляционные
модификации и мутации
● ...
Image from http://www.novimmune.com/science/antibodies.html
История секвенирования белков
Edman
degradation
First protein
sequencing technique
1950s 1980s 2000s now
Nobel prize
1958
История секвенирования белков
Bottom-up mass
spectrometry
Proteins digested into
peptides ~15 aa
Edman
degradation
First protein
sequencing technique
1950s 1980s 2000s now
Nobel prize
2002
Nobel prize
1958
Top-down mass
spectrometry
Intact proteins of
length ~100aa
Bottom-up mass
spectrometry
Proteins digested into
peptides ~15 aa
Edman
degradation
First protein
sequencing technique
1950s 1980s 2000s now
Nobel prize
2002
Nobel prize
1958
История секвенирования белков
История секвенирования белков
Top-down mass
spectrometry
Intact proteins of
length ~100aa
Bottom-up mass
spectrometry
Proteins digested into
peptides ~15 aa
Edman
degradation
First protein
sequencing technique
Nanopore
sequencing?
1950s 1980s 2000s now
Nobel prize
2002
Nobel prize
1958
Сложности анализа белков
● Амионкислоты меньше нуклеотидов
● Проведение через пору
○ Энзимы для ДНК не работают
○ Неравномерный зарад вдоль белка
Sigalov, Nano Lett., 2008
Li et al., Protein Pept. Lett., 2014
Суб-нанопора
● Пора размером меньше нанометра в
тонкой неорганической кремниевой
мембране
○ Объем до 0.3 nm3
Kennedy et al., 2016
Сигнал с нанопоры
● Флуктуации измеренные на 250 KHz
● Транслокации белков уменьшают ионный ток
Nanospectrum ->
Time (seconds)
Сигнал с нанопоры
● Флуктуации измеренные на 250 KHz
● Транслокации белков уменьшают ионный ток
Сигнал →
Time (seconds)
Time (miliseconds)
От сигнала к белку
de novo
секвенирование?
Сигнал
От сигнала и базы данных к белку
+
идентификацияСигнал
База данных
Идентификация vs секвенирование
● Какие известные белки представлены в образце?
● В масс-спектрометрии, идентификация белков против
базы данных гораздно более надежна чем de novo
секвенирование
● Надо уметь генерировать теоретический сигнал белка
Идентификация vs секвенирование
● Какие известные белки представлены в образце?
● В масс-спектрометрии, идентификация белков против
базы данных гораздно более надежна чем de novo
секвенирование
● Надо уметь генерировать теоретический сигнал белка
?
Сигнал
Mean Volume модель
● Сигнал пропорционален занятому объему поры
● Пора вмещает насколько аминокислот (k)
Kennedy et. al., 2016
Mean Volume модель
● Сигнал пропорционален занятому объему поры
● Пора вмещает насколько аминокислот (k)
● Сигнал пропорционален их среднему объему
Kennedy et. al., 2016
● Согласно
экспериментам
k=4
Mean Volume: пример
● Маленький коэффициент корреляции (0.25 - 0.45)
● Регионы с сильными отклонениями от модели содержат
маленькие амонокислоты
Ошибка в зависимости от объема
● Ошибка со знаком: теоретический -
эмпирический сигнал
SVR модель
● Уже доступно много сигналов с известных белков
● Можно построить регрессионную модель
● Для квадромера qi
соответствующего сигналу ei
○ Преобразовать qi
в вектор фич fi
○ Разделить все сигналы на пары (fi
, ei
)
○ Тренируется SVR регрессор
● Как определить вектор фич fi
?
Сокращенный алфавит
● Проблема: много аминокислот с похожими объемами
● Тяжело различить по сигнал
● Разобьем на категории: Micro, Smal, Intermediate,
Large
SVR модель: пример
● SVR меодаль дает в 1.5 - 2x лучшую точность (коэффициент
корреляции 0.38-0.68)
MV-model SVR-model
Ошибка в зависимости от гидрофильности
● Ошибка со знаком: теоретический -
эмпирический сигнал
Регрессия с помощью Random Forest
● Необходимо включить гидрофильность аминокислот в
модель
● Random Forest
○ Нет оверфиттинга
○ Более робастный к шуму
● Фича - вектор из объемов и гидрофильностей
● Проблема: малое покрытие треировочных датасетов
Регрессия с помощью Random Forest
● Необходимо включить гидрофильность аминокислот в
модель
● Random Forest
○ Нет оверфиттинга
○ Более робастный к шуму
● Фича - вектор из объемов и гидрофильностей
● Проблема: малое покрытие треировочных датасетов
○ Расширим датасеты, перемешивая аминокислоты в
4-мерах
Кластеризация сигналов
● Много побочных факторов, влияющих на ток через
пору:
○ Зависимый от времени шум в ионном токе
○ Инструментальный шум
○ Ренавномерное прохождение белка
● Шумный сигнал
● Консенсус из нескольких сигналов существенно
уменьшает уровень шума
Идентификация белков
● Для сингала S выбирается белок P из DB с лучшим R2
для данной модели
○ Protein-Nanospectrum Match (PrNM)
● P-value для PrNM(P, S): вероятность того, что
случайный белок такой же длины будет иметь R2
выше
чем P
Сигнал Кластер сигналов
S
Кластери
зация
Сравнение
База
данных DB
MASKAVA...
PACKAFV...
MPCGADC...
MCHDYFI...Наиболее похожий белок P
Датасеты
Результаты: точность идентификации
● Точность, в зависимости от размера консенсуса
Результаты: точность идентификации II
● Точность, в зависимости от размера консенсуса
Результаты: реальные данные
● Все белки человеческого протеома длиной
100-160
Анализ смесей белков
● В реальных данных будет представлена смесь из
белков
○ Сложно кластеризовать
● Можно ли разделить смесь на кластеры,
соответствующие разным белкам?
Анализ смесей белков
● В реальных данных будет представлена смесь из
белков
○ Сложно кластеризовать
● Можно ли разделить смесь на кластеры,
соответствующие разным белкам?
Благодарности
● Gregory Timp’s lab at University of Notre Dame
● Pavel Pevzner’s lab at UC San Diego
Eamonn Kennedy Zhuxin Dong Gregory Timp
Pavel
Pevzner
Спасибо за внимание!
● Нанопоры для ДНК
○ Zlowak, Di Ventra, “Colloquium: Physical approaches to DNA
sequencing and detection”, Reviews of modern physics, 2008
○ Branton et al., “The potential and challenges of nanopore
sequencing”, Nature Biotechnology, 2008
○ Oxford Nanopres presentation video “No thanks, I’ve already
got one”
● Нанопоры для белков
○ Kennedy et al., “Reading the primary structure of a protein with
0.07 nm3
resolution using a subnanometre-diameter pore”,
Nature Nanotechnology 2016
○ Kolmogorov et al., “Single-Molecule Protein Identification b
Sub-Nanopore Sensors”, submitted

Nanopores sequencing

  • 1.
    Секвенирование нанопорами Михаил Колмогоров University ofCalifornia San Diego Институт биоинформатики, Санкт-Петербург, 2016
  • 2.
    Методы секвенирования ● Sanger ○Риды длиной < 1000 ○ Малый выход эксперимента => дорого ● NGS ○ Illumina, 454, Ion torrent ○ Большой выход, но риды короче (50-500) ● Pacific Biosciences ○ Риды средней длины 15,000 ○ 11-15% ошибок ○ Дорогой секвенатор/химия
  • 3.
    Методы секвенирования ● Текущиетехнологии: ○ Клонирование ○ Амплификация ○ Дорогостоящие энзимы ● Основаны на физических и химических особенностях цепочек ДНК
  • 4.
    Методы секвенирования ● Текущиетехнологии: ○ Клонирование ○ Амплификация ○ Дорогостоящие энзимы ● Основаны на физических и химических особенностях цепочек ДНК ● Физические различия между отдельными нуклеотидами?
  • 5.
    Секвенирование наносенсорами: идея ●Макромолекула проходит через пору ● Транслокация модулирует сигнал, который можно детектировать
  • 6.
    Различные типы наносенсоров ●Биологические ○ -hemolysin (1.4 nm) ● Искуственные (solid-state) ○ До 0.5 nm в диаметре
  • 7.
    Методы детектирования сигнала ●Молекула блокирует ионный ток через пору ● Помещается несколько нуклеотидов Branton et al., 2008
  • 8.
    Методы детектирования сигнала ●Нуклеотиды отрезаются экзонуклеазой Branton et al., 2008
  • 9.
    Методы детектирования сигнала ●Поперечный туннелирующий ток Branton et al., 2008
  • 10.
    Дополнительные сложности ● Денатурация/ расплетение ДНК ● “Протягивание” через пору ● Контроль скорости транслокации
  • 11.
    Oxford Nanopores: MinION ●Первый коммерческий секвенатор на основе нанопор ● Стоимость ○ 1000$ - секвенатор ○ Дополнительные наборы пор - 500$ - 900$ ○ 90$ - реагенты на ран ● Выход: 500Mb - 1Gb на пору Image by Oxford Nanopores
  • 12.
    MinION ● Пора наоснове CsgG из E. Coli ● “Heaviliy engineered motor enzyme” ○ Замедление с 106 до 200 баз в секунду Image by Oxford Nanopores
  • 13.
    MinION II Image byOxford Nanopores
  • 14.
    2D чтение Image byOxford Nanopores
  • 15.
    От сигнала кДНК ● Как декодировать сингал с поры? University of Washington
  • 16.
    От сигнала кДНК ● Как декодировать сингал с поры? ○ Фрагментация на отдельные события University of Washington
  • 17.
    От сигнала кДНК ● Как декодировать сингал с поры? ○ Фрагментация на отдельные события ○ Каждому событию соответсвует k-мер University of Washington Timp et al., 2012
  • 18.
    Алгоритм Витерби ● Состояния- все возможные 3-меры ● Наблюдения - фрагментированный сигнал ● Разреженная матрица переходов: только перекрывающиеся 3-меры Timp et al., 2012
  • 19.
    De Novo сборка:Nanocorrect + Celera ● Две итерации коррекции ошибок ● Celera ● Nanopolish Loman et al., 2015
  • 20.
    De Novo сборка:ABruijn ● Сборка сырых ридов, без коррекции ошибок ● Риды перекрываются с помощью A-Bruijn графа ● Коррекция ошибок уже собранного генома Lin et al., 2016
  • 21.
  • 22.
    Oxford Nanopores: MinION ●Ошибки: 13-19% (до 5% 2D R9) ● Проблемы с гомополимерами ● Сборка E. Coli в одну хромосому, точность 99.5% ● Поиск структурных вариаций / SNP
  • 23.
  • 24.
    Два нобелевских призаФредерика Сэнгера 1977: ДНК секвенирование
  • 25.
    Два нобелевских призаФредерика Сэнгера 1958: Секвенирование белков 1958: Секвенирование белков - сложно, ДНК - невозможно Today: Секвенирование белков - сложно, ДНК- тривиально 1977: ДНК секвенирование
  • 26.
    Зачем секвенировать белки? ●Белки, не закодированные явно в геноме (антитела) ● Короткие гены которые сложно предсказать ● Пост-трансляционные модификации и мутации ● ... Image from http://www.novimmune.com/science/antibodies.html
  • 27.
    История секвенирования белков Edman degradation Firstprotein sequencing technique 1950s 1980s 2000s now Nobel prize 1958
  • 28.
    История секвенирования белков Bottom-upmass spectrometry Proteins digested into peptides ~15 aa Edman degradation First protein sequencing technique 1950s 1980s 2000s now Nobel prize 2002 Nobel prize 1958
  • 29.
    Top-down mass spectrometry Intact proteinsof length ~100aa Bottom-up mass spectrometry Proteins digested into peptides ~15 aa Edman degradation First protein sequencing technique 1950s 1980s 2000s now Nobel prize 2002 Nobel prize 1958 История секвенирования белков
  • 30.
    История секвенирования белков Top-downmass spectrometry Intact proteins of length ~100aa Bottom-up mass spectrometry Proteins digested into peptides ~15 aa Edman degradation First protein sequencing technique Nanopore sequencing? 1950s 1980s 2000s now Nobel prize 2002 Nobel prize 1958
  • 31.
    Сложности анализа белков ●Амионкислоты меньше нуклеотидов ● Проведение через пору ○ Энзимы для ДНК не работают ○ Неравномерный зарад вдоль белка Sigalov, Nano Lett., 2008 Li et al., Protein Pept. Lett., 2014
  • 32.
    Суб-нанопора ● Пора размеромменьше нанометра в тонкой неорганической кремниевой мембране ○ Объем до 0.3 nm3 Kennedy et al., 2016
  • 33.
    Сигнал с нанопоры ●Флуктуации измеренные на 250 KHz ● Транслокации белков уменьшают ионный ток Nanospectrum -> Time (seconds)
  • 34.
    Сигнал с нанопоры ●Флуктуации измеренные на 250 KHz ● Транслокации белков уменьшают ионный ток Сигнал → Time (seconds) Time (miliseconds)
  • 35.
    От сигнала кбелку de novo секвенирование? Сигнал
  • 36.
    От сигнала ибазы данных к белку + идентификацияСигнал База данных
  • 37.
    Идентификация vs секвенирование ●Какие известные белки представлены в образце? ● В масс-спектрометрии, идентификация белков против базы данных гораздно более надежна чем de novo секвенирование ● Надо уметь генерировать теоретический сигнал белка
  • 38.
    Идентификация vs секвенирование ●Какие известные белки представлены в образце? ● В масс-спектрометрии, идентификация белков против базы данных гораздно более надежна чем de novo секвенирование ● Надо уметь генерировать теоретический сигнал белка ? Сигнал
  • 39.
    Mean Volume модель ●Сигнал пропорционален занятому объему поры ● Пора вмещает насколько аминокислот (k) Kennedy et. al., 2016
  • 40.
    Mean Volume модель ●Сигнал пропорционален занятому объему поры ● Пора вмещает насколько аминокислот (k) ● Сигнал пропорционален их среднему объему Kennedy et. al., 2016 ● Согласно экспериментам k=4
  • 41.
    Mean Volume: пример ●Маленький коэффициент корреляции (0.25 - 0.45) ● Регионы с сильными отклонениями от модели содержат маленькие амонокислоты
  • 42.
    Ошибка в зависимостиот объема ● Ошибка со знаком: теоретический - эмпирический сигнал
  • 43.
    SVR модель ● Ужедоступно много сигналов с известных белков ● Можно построить регрессионную модель ● Для квадромера qi соответствующего сигналу ei ○ Преобразовать qi в вектор фич fi ○ Разделить все сигналы на пары (fi , ei ) ○ Тренируется SVR регрессор ● Как определить вектор фич fi ?
  • 44.
    Сокращенный алфавит ● Проблема:много аминокислот с похожими объемами ● Тяжело различить по сигнал ● Разобьем на категории: Micro, Smal, Intermediate, Large
  • 45.
    SVR модель: пример ●SVR меодаль дает в 1.5 - 2x лучшую точность (коэффициент корреляции 0.38-0.68) MV-model SVR-model
  • 46.
    Ошибка в зависимостиот гидрофильности ● Ошибка со знаком: теоретический - эмпирический сигнал
  • 47.
    Регрессия с помощьюRandom Forest ● Необходимо включить гидрофильность аминокислот в модель ● Random Forest ○ Нет оверфиттинга ○ Более робастный к шуму ● Фича - вектор из объемов и гидрофильностей ● Проблема: малое покрытие треировочных датасетов
  • 48.
    Регрессия с помощьюRandom Forest ● Необходимо включить гидрофильность аминокислот в модель ● Random Forest ○ Нет оверфиттинга ○ Более робастный к шуму ● Фича - вектор из объемов и гидрофильностей ● Проблема: малое покрытие треировочных датасетов ○ Расширим датасеты, перемешивая аминокислоты в 4-мерах
  • 49.
    Кластеризация сигналов ● Многопобочных факторов, влияющих на ток через пору: ○ Зависимый от времени шум в ионном токе ○ Инструментальный шум ○ Ренавномерное прохождение белка ● Шумный сигнал ● Консенсус из нескольких сигналов существенно уменьшает уровень шума
  • 50.
    Идентификация белков ● Длясингала S выбирается белок P из DB с лучшим R2 для данной модели ○ Protein-Nanospectrum Match (PrNM) ● P-value для PrNM(P, S): вероятность того, что случайный белок такой же длины будет иметь R2 выше чем P Сигнал Кластер сигналов S Кластери зация Сравнение База данных DB MASKAVA... PACKAFV... MPCGADC... MCHDYFI...Наиболее похожий белок P
  • 51.
  • 52.
    Результаты: точность идентификации ●Точность, в зависимости от размера консенсуса
  • 53.
    Результаты: точность идентификацииII ● Точность, в зависимости от размера консенсуса
  • 54.
    Результаты: реальные данные ●Все белки человеческого протеома длиной 100-160
  • 55.
    Анализ смесей белков ●В реальных данных будет представлена смесь из белков ○ Сложно кластеризовать ● Можно ли разделить смесь на кластеры, соответствующие разным белкам?
  • 56.
    Анализ смесей белков ●В реальных данных будет представлена смесь из белков ○ Сложно кластеризовать ● Можно ли разделить смесь на кластеры, соответствующие разным белкам?
  • 57.
    Благодарности ● Gregory Timp’slab at University of Notre Dame ● Pavel Pevzner’s lab at UC San Diego Eamonn Kennedy Zhuxin Dong Gregory Timp Pavel Pevzner
  • 58.
    Спасибо за внимание! ●Нанопоры для ДНК ○ Zlowak, Di Ventra, “Colloquium: Physical approaches to DNA sequencing and detection”, Reviews of modern physics, 2008 ○ Branton et al., “The potential and challenges of nanopore sequencing”, Nature Biotechnology, 2008 ○ Oxford Nanopres presentation video “No thanks, I’ve already got one” ● Нанопоры для белков ○ Kennedy et al., “Reading the primary structure of a protein with 0.07 nm3 resolution using a subnanometre-diameter pore”, Nature Nanotechnology 2016 ○ Kolmogorov et al., “Single-Molecule Protein Identification b Sub-Nanopore Sensors”, submitted